一、连续型变量1.1 连续变量无量纲化(1)无量纲化: 使不同规格尺度的数据转化统一规格尺度(将数据单位统一)(2)无量纲化方法:标准化, 区间所方法 标准化: 将连续性变量转变为 均值0 标准差1 的变量 代码: #对 Amount字段--均值为0,方差为1标准化from sklearn impo ...
分类:
编程语言 时间:
2020-03-20 10:35:16
阅读次数:
88
所有机器学习模型都可以分为 有监督 的或 无监督 的。如果模型是监督模型,则将其再分类为回归模型或分类模型。我们将介绍这些术语的含义以及下面每个类别中对应的模型。 监督学习模型 监督学习涉及基于示例输入 输出对学习将输入映射到输出的功能。 例如,如果我有一个包含两个变量的数据集,即年龄(输入)和身高 ...
分类:
其他好文 时间:
2020-03-15 20:38:38
阅读次数:
93
感知机属于有监督的学习,生成的模型称为判别模型。其通过特定的函数将输入的特征向量,输出为实例的类别(+1或-1),该函数即为将实例划分为两类的分离超平面。为获得最优化的超平面,感知机引入了基于误分类的损失函数。感知机是神经网络和支持向量机的基础。 有监督学习分为生成模型和判别模型两种。其分别含义如下 ...
分类:
其他好文 时间:
2020-03-07 20:30:43
阅读次数:
122
机器学习可分为:有监督(Supervised Learning)、无监督(Unsupervised Learning)、强化学习(Reinforcement Learning) 1. 有监督学习:数据集包含样本 x 与标签 y ,训练时,通过计算模型的预测值与真实标签 y 之间的误差来优化网络参数 ...
分类:
其他好文 时间:
2020-03-05 13:54:23
阅读次数:
72
本文主要讲解的聚类算法有:k均值算法、均值漂移算法、凝聚层次算法、DBSCAN密度聚类算法,还介绍了聚类算法性能指标——轮廓系数。 聚类(cluster)与分类(class)不同,分类是有监督学习模型,聚类属于无监督学习模型。聚类讲究使用一些算法把样本划分为n个群落。一般情况下,这种算法都需要计算欧 ...
分类:
编程语言 时间:
2020-02-29 17:29:23
阅读次数:
112
依据机器学习算法如何学习数据可分为3类: 有监督学习:从有标签的数据学习,得到模型参数,对测试数据正确分类; 无监督学习:没有标签,计算机自己寻找输入数据可能的模型; 强化学习(reinforcement learning):计算机与动态环境交互,学习错误反馈达到更优的目的。 依据机器学习期望结果来 ...
分类:
其他好文 时间:
2020-02-28 11:57:59
阅读次数:
60
单变量线性回归 单变量线性回归指的是只有一个自变量; 线性回归是一种有监督学习,解决的是自变量和因变量之间的关系; 回归指的是因变量是连续性的,而如果因变量是离散型的,则是分类问题。 监督学习算法的工作方式可以用如下这张图表示: 将训练集喂给机器学习算法,输出一个假设函数 h,然后新输入一个自变 x ...
分类:
其他好文 时间:
2020-02-26 16:54:55
阅读次数:
80
这篇博文主要是解释偏差和方差,以及如何利用偏差和方差理解机器学习算法的泛化性能 综述 在有监督学习中,对于任何学习算法而言,他们的预测误差可分解为三部分 偏差 方差 噪声 噪声属于不可约减误差,无论使用哪种算法,都无法减少噪声。 通常噪声是从问题的选定框架中引入的错误,也可能是由诸如未知变量之类的因 ...
分类:
其他好文 时间:
2020-02-23 22:09:21
阅读次数:
202
【机器学习】算法原理详细推导与实现(六):k means算法 之前几个章节都是介绍有监督学习,这个章节介绍无监督学习,这是一个被称为 的聚类算法,也叫做 k均值聚类算法 。 聚类算法 在讲监督学习的时候,通常会画这样一张图: 这时候需要用 回归或者 将这些数据分成正负两类,这个过程称之为 监督学习 ...
分类:
编程语言 时间:
2020-02-23 11:14:20
阅读次数:
85
机器学习的专业术语非常多,不需要一开始理解所有的专业术语,这些术语会随着对机器学习的深入,会慢慢理解,水到渠成。 不过在学习的过程中,有一些概念必须要了解,有助于后续的学习与理解,需要了解的核心概念有:监督学习、无监督学习、模型、策略、算法等。 监督学习 监督学习,指的是学习的数据与后续测试的数据, ...
分类:
其他好文 时间:
2020-01-08 21:26:20
阅读次数:
120