朴素贝叶斯

时间：2019-09-11 16:23:54 阅读：118 评论：0 收藏：0 [点我收藏+]

假定某同学使用Naive Bayesian（NB）分类模型时，不小心将训练数据的两个维度搞重复了，那么关于NB的说法中正确的是：

正确答案: B D 你的答案: F (错误)

这个被重复的特征在模型中的决定作用会被加强

模型效果相比无重复特征的情况下精确度会降低

如果所有特征都被重复一遍，得到的模型预测结果相对于不重复的情况下的模型预测结果一样。

当两列特征高度相关时，无法用两列特征相同时所得到的结论来分析问题

NB可以用来做最小二乘回归

以上说法都不正确

主要原因就是由于存在重复的类别之后，破坏了原本的独立性假设。。

发表于 2017-08-12 22:38:00 回复(3)

NB的核心在于它假设向量的所有分量之间是独立的。

在贝叶斯理论系统中，都有一个重要的条件独立性假设：假设所有特征之间相互独立，这样才能将联合概率拆分

朴素贝叶斯，决策树，SVM的优缺点对比。

　　朴素贝叶斯：缺点：1. 需要计算先验概率；2. 分类决策存在错误率；3. 对输入数据的表达形式很敏感；4. 由于使用了样本属性独立性的假设，所以如果样本属性有关联时其效果不好。

　　　　　　　　优点：1，朴素贝叶斯模型发源于古典数学理论，有稳定的分类效率；

　　　　　　　　　　　2，对小规模的数据表现很好，能个处理多分类任务，适合增量式训练，尤其是数据量超出内存时，我们可以一批批的去增量训练；

　　　　　　　　　　　3，对缺失数据不太敏感，算法也比较简单，常用于文本分类。

　　　　　　　　　　　4，对结果解释容易理解

　　决策树：缺点：1，决策树算法非常容易过拟合，导致泛化能力不强。可以通过设置节点最少样本数量和限制决策树深度来改进。

　　　　　　　　 2，决策树会因为样本发生一点点的改动，就会导致树结构的剧烈改变。这个可以通过集成学习之类的方法解决

　　　　　　　　 3，寻找最优的决策树是一个NP难的问题，我们一般是通过启发式方法，容易陷入局部最优。可以通过集成学习之类的方法来改善

　　　　　　　　 4，有些比较复杂的关系，决策树很难学习，比如异或。这个就没有办法了，一般这种关系可以换神经网络分类方法来解决。

　　　　　　　　 5，如果某些特征的样本比例过大，生成决策树容易偏向于这些特征。这个可以通过调节样本权重来改善。

　　　　　　优点：1，简单直观，生成的决策树很直观。

　　　　　　　　　2，基本不需要预处理，不需要提前归一化，处理缺失值。

　　　　　　　　　3，使用决策树预测的代价是 $O (l o g_{2} m)$

　　　　　　　　　4，相比于神经网络之类的黑盒分类模型，决策树在逻辑上可以得到很好的解释。

　　　　　　　　　5，对于异常点的容错能力好，健壮性高。

　　　　　　　　　6，可以交叉验证的剪枝来选择模型，从而提高泛化能力。

　　　　　　ID3，C4.5，CART树对比优缺点

　　SVM：缺点：1，对缺失数据敏感。

　　　　　　　　2，非线性问题的核函数的选择没有通用标准，难以选择一个合适的核函数。

　　　　　　　　3，SVM在样本量非常大，核函数映射维度非常高时，计算量过大，不太适合使用。

　　　　　　　　4，如果特征维度远远大于样本数，则SVM表现一般。

　　　　优点：1，解决高维特征的分类问题和回归问题很有效,在特征维度大于样本数时依然有很好的效果。

　　　　　　　　2，仅仅使用一部分支持向量来做超平面的决策，无需依赖全部数据。

　　　　　　　　3，有大量的核函数可以使用，从而可以很灵活的来解决各种非线性的分类回归问题。

　　　　　　　　4，样本量不是海量数据的时候，分类准确率高，泛化能力强。　

原文地址：https://www.cnblogs.com/ivyharding/p/11306172.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行