码迷,mamicode.com
首页 > 其他好文 > 详细

机器学习学习指南

时间:2016-08-08 07:40:06      阅读:206      评论:0      收藏:0      [点我收藏+]

标签:

统计学习三要素:模型、策略、算法

模型分为概率模型(由条件概率表示的模型)和非概率模型(决策函数)

策略包括1、损失函数和风险函数;2、经验风险最小化与结构风险最小化

算法:根据相应的策略求解最优解,即求解最优化问题。

 

生成模型与判别模型

分类、回归、标注问题

 


 

K-近邻算法(KNN)

算法原理

优点:精度高、对异常值不敏感、无数据输入假定

缺点:计算复杂度高、空间复杂度高

    无法给出任何数据的基础结构信息,因此我们也无法知晓平均实例样本和典型事例样本具有什么特征。

KNN算法是分类数据最简单最有效的算法。

 


 

决策树

优势:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。

缺点:可能会产生过度匹配问题。

创建分支的伪代码函数createBranch()如下所示:
if 数据集中的每个子项是否属于同一分类
    return 类的标签;
else
    寻找划分数据集的最好特征
    划分数据集
    创建分支节点
    for 每个划分的子集
        调用函数createBranch并增加返回结果到分支节点中
    return 分支节点

如何选取关键性特征划分数据?

采用信息增益进行判断,在划分数据集之前之后信息发生的变化成为信息增益,获得信息增益最高的特征就是最好的选择。

信息增益为总的熵减去某个分类标准对应的熵。

如果数据集已经处理了所有属性,但是分类标签依然不唯一,则常常采用多数表决的方法决定该叶子节点的分类。

机器学习学习指南

标签:

原文地址:http://www.cnblogs.com/happygirl-zjj/p/5747522.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!