机器学习实战（一）机器学习基础

时间：2018-06-03 14:36:19 阅读：124 评论：0 收藏：0 [点我收藏+]

标签：使用分组预测变量输入数据 title 通过多个数据

1.1 机器学习概念：

机器学习能让我们从数据集中受到启发，换句话说，我们会利用计算机来彰显数据背后的真实含义。

机器学习就是把无序的数据转换成有用的信息。

1.2 机器学习的主要任务：

大多数人都见过回归的例子——数据拟合曲线：通过给定数据点的最优拟合曲线。分类和回归属于监督学习（因为这类算法必须知道预测什么，即目标变量的分类信息）。

无监督学习中，将数据集合分成由类似的对象组成的多个类的过程被称为聚类；将寻找描述数据统计值的过程称之为密度估计。

1.3 使用机器学习算法的目的：

首先考虑使用机器学习算法的目的。如果是预测目标变量的值，可以选择监督学习算法，否则选择无监督学习算法。确定选择监督学习后，再判断目标变量的类型，离散型（如是/否，1/2/3，A/B/C或者红/黄/黑等），则可以选择分类算法；如果目标是连续型变量，如0.0~100.00、-999~999或者+∞~-∞等，则需要选择回归算法。

如果不想预测目标变量的值，则可以选择无监督学习算法，进一步分析是否需要将数据划分为离散的组，如果这是唯一的需求，则使用聚类算法；如果还需要估计数据与每个分组的相似程度，则需要使用密度估计算法。

1.4 开发机器学习应用程序的步骤：

（1）收集数据

（2）准备输入数据（得到数据后，必须确保数据格式符合要求）

（3）分析输入数据（人工分析以前得到的数据——是否为空值，异常值，）

（4）训练算法

（5）测试算法

（6）使用算法

NumPy 函数库基础