机器学习-常见问题积累【1】

时间：2017-08-29 19:44:42 阅读：222 评论：0 收藏：0 [点我收藏+]

1、python和R在做数据分析时各有自己得擅长得领域，如python做时域分析得难度就远远比R大，因为R有非常成熟得Package!

2、数据处理：如何处理缺失数据？各种处理方法得的利弊？

3、数据处理：如何将类别型(又称做描述型)变量转为连续变量？如何处理有序变量？如何处理无序变量

4、数据处理：如何进行特征选择？如何进行数据压缩？

5、模型解释：什么是欠拟合？什么是过拟合？如何处理这两种情况？

6、模型解释：什么是偏差与方差分解？与欠拟合和过拟合有什么联系？

7、评估模型一般有哪些手段？

1）分类模型评估的方法有哪些？

2）回归问题评估方法有哪些？

3）数据不均衡的评估方法有哪些？

8、深度学习是否比其他学习模型都好？为什么？

9、在只有少量的有标签数据的情况下，如何构建一个反保险欺诈系统？

10、在数据分布不均匀的情况下，是采用过采样还是欠采样？如何调整代价函数和阈值？

11、SVM，什么事最大间隔分类器？什么是kernel，如何悬着kernel?

12、为什么K-means不适合异常值检测？K-means和GMM是什么关系？是否可以用FMM来直接拟合异常值？

13、如何可以得到无监督学习中的分类规则？

14、L1和L2正则化两者有什么不同，什么时候采用L1，什么时候采用L2？为什么L1可以得到稀疏解？它们与嵌入式特征选择有什么联系？

15、根据岗位准备一份项目策划书

看懂周志华<<机器学习>>前十章，并熟练的使用Sklearn中基础API进行建模就可以了，勿矫枉过正，如果你的岗位不是理论型科学家岗位，不要与

数学推导死磕。

-----------------------------------------------------------------------------------------

Answer:

2、1>分析缺失值所在比例，如果某个属性的缺失值太多，可考虑去除该属性。

2>可以用均值、众数、中位数、回归值填充代替

3>用0填充代替

原文地址：http://www.cnblogs.com/liang2713020/p/7449749.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行