标签:
数据量小,选用 high bias/low variance模型(Naive Bayes),因为low bias/high variance模型(KNN,logistic regression)会overfit
Naive Bayes:
简单,只需要计数就可以;数据量小时,也适用;如果各因素独立(比如词的出现间没有相互影响),会表现很好
Logistic Regression:
多种regulization可以使用;有概率输出,可以根据实际场景,调整阈值;适用于在线学习
SVM:
准确率高,但参数很多需要调整;适用与维度很高的数据;
Random forests:
准确率高,且不需要调整参数;训练快,计算消耗小,可扩展性好;处理类别特征很容易,且对于缺失值也能很好处理;
标签:
原文地址:http://www.cnblogs.com/porco/p/4538208.html