标签:
什么是机器学习(Machine Learning. ML)
ML is algorithms is a scientific discipline that explores the construction and study of algorithms that can learn from data.
https://en.wikipedia.org/wiki/Machine_learning
机器学习通常是一种模式Pattren,具体代码或算法由大而复杂的数据来训练得到。
机器学习算法的大致分类
1)分类:已知多个样本以及他们所属的分类,产生模型预测新样本的分类
2)回归:已知多个样本以及他们所对应的连续值,产生模型预测新样本的值
3)聚类:已知多个样本,但不知他们所属的分类,产生模型预测样本的分类关系
机器学习的流程与算法
1)数据收集:首先收集样本的原始数据和特征
2)选择算法
3)数据预处理:连续性数据直接作为特征向量的一员,离散型数据特征化,将预测目标和预测值也特征化
4)数据训练,选择某个模型处理数据:例如决策树模型、随机森林模型
5)算法检验,模型调优与参数优化,学习曲线分析
Python的ML生态圈
1)numpy/scipy 基础的数据结构和常用统计方法
2)scikit-learn 所有特征矩阵类问题的算法
3)pandas 统计分析
4)cython 当非常需要性能的时候
5)ipython(notebook) 交互式分析,生成讲稿
6)graphviz/matplotlib 可视化分析
参考:https://github.com/josephmisiti/awesome-machine-learning
标签:
原文地址:http://www.cnblogs.com/wddoer/p/4375112.html