项目实践中的机器学习

时间：2019-03-16 11:08:55 阅读：164 评论：0 收藏：0 [点我收藏+]

标签：重复数数据数据集输入数据进一步学习工程包集合算法增强

这里介绍机器学习的六大步骤

一、定义问题

二、理解数据

三、数据准备

四、评估算法

五、优化模型

六、结果部署

（当然，这六个步骤并非机械的使用，有时候各个步骤还可能进一步细分，还有可能几个步骤合并成一个步骤。这里以常用的python模板为例）

详细说明

一、定义问题

需要导入常用的类库和数据集，包括导入python 的类库、类和方法，以及数据。可以将数据进行瘦身，快速进行可视化数据集建立。

二、理解数据

描述性统计来分析数据，可视化观察数据。***这一步需要花费时间多问几个问题，设定假设条件并调查分析一下，对模型的建立有很大的帮助。

三、数据准备

这一步主要是预处理数据：

通过删除重复数据、标记错误数值，甚至是标记错误的输入数据来清洗数据。

特征选择，包括移除多余的特征属性和增加新的特征属性。

数据转化，对数据尺度进行调整，或者调整数据的分布

不断重复以上步骤，直到找到足够准确的算法来生产模型。

~~~~~~~~~~~~~~~~~~~~起来活动一下~~~~~~~~~~~~~~~~~~~

******

数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。那特征工程本质是一项工程活动，目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳，人们认为特征工程包括以下方面：

特征选择主要有两个目的：

减少特征数量、降维，使模型泛化能力更强，减少过拟合；增强对特征和特征值之间的理解。

四、评估算法

分离出评估数据集

定义模型评估标准，用来评估算法模型

抽样审查线性算法和非线性算法

比较算法的准确度

五、优化模型

当得到一个准确度足够的算法列表后，要从中找出最合适的算法，通常可以用两种方法提高算法的准确度：

1.对每一种算法进行调参，得到最佳结果

2.使用集合算法来提高算法模型的准确度

六、结果部署

通过验证集来验证被优化过的模型

通过整个数据集来生产模型

将模型序列化，以便于预测新数据

项目实践中的机器学习

标签：重复数数据数据集输入数据进一步学习工程包集合算法增强

原文地址：https://www.cnblogs.com/2019-02-11/p/10541109.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行