1 先备知识 1.1 一些统计学认识 方差: 用来描述样本偏离中心程度的量 协方差:用来描述两变量 X,Y 相互关系的量,协方差越大,对彼此影响越大,协方差等于0,两者独立 协方差矩阵: 如果一组样本 y1,.......ym ,每个样本是 n 维行向量,则这组样本的协方差矩阵为: 注意:矩阵中的 ...
分类:
其他好文 时间:
2019-06-04 20:57:10
阅读次数:
241
降维 降维的动力来自于维度魔咒,动辄几万个甚至更多的特征会导致训练变慢,而且,维数越高越难找到合适的解决方案。特征的维数对应着相同维度的一个高维空间,高维空间中点与点的距离很容易变得很大,也就是实例之间的距离很大,训练集的特征空间很稀疏,这容易导致过拟合,当然,通过添加足够多的训练实例,在理论上可以 ...
分类:
其他好文 时间:
2019-05-25 00:04:30
阅读次数:
123
决策树 决策树是一种强大的算法,可解释性强,对复杂数据集的拟合能力强,对数据集的前期处理(如特征缩放,集中等)要求很少。它的工作原理是,在每个节点上选取一个特征作为分类依据,并给定阈值,根据阈值来将实例归为左子树或右子数,然后对子节点进行同样的特征选取和阈值给定,直至所有节点上的实例都属于同一类别或 ...
分类:
其他好文 时间:
2019-05-24 22:19:06
阅读次数:
171
回归不同于分类,回归是根据给定数据进行预测,例如销售量预测或者名人离婚率预测等。 1.线性回归 如果是一组二维数据,即标准的一组(x,y)数据集,使用标准线性回归就是找到一根直线能最好的拟合这组数据,使其误差最小,如下图所示: 如果给定数据是多维,线性回归意味着将输入项分别乘上一些常量,将结果相加, ...
分类:
其他好文 时间:
2019-05-24 12:57:47
阅读次数:
408
[TOC] K 近邻算法 k 近邻分类算法概述 使用 k 近邻算法改进约会网站的配对效果 手写识别系统 总结 不知道有没有喜欢看电影的同学,今天我们先不讲我们的 k 近邻算法,我们来讲讲电影。 可能有的同学喜欢看恐怖片,可能男生比较喜欢看爱情片,也有可能我们的女同学喜欢看动作片。那同学们你们有没有想 ...
分类:
编程语言 时间:
2019-05-23 16:07:43
阅读次数:
112
[TOC] 机器学习基础 什么是机器学习 机器学习的基本术语 监督学习和非监督学习 机器学习工具介绍 总结 人工智能的核心是机器学习,机器学习的本质是算法 机器学习的官方解释: 机器学习是指如果一个程序可以在任务 T 上,随经验E 的增加,效果 P 也随之增加,则这个程序可以从经验中学习。 A co ...
分类:
其他好文 时间:
2019-05-23 15:51:12
阅读次数:
122
[TOC] 决策树 决策树简介 在数据集中度量一致性 使用递归构造决策树 使用 Matplotlib 绘制树形图 决策树简介 让我们来玩一个游戏,你现在在你的脑海里想好某个事物,你的同桌向你提问,但是只允许问你20个问题,你的回答只能是对或错,如果你的同桌在问你20个问题之前说出了你脑海里的那个事物 ...
分类:
其他好文 时间:
2019-05-23 15:50:15
阅读次数:
107
降维技术 对数据进行降维有如下一系列的原因: 在以下3种降维技术中, PCA的应用目前最为广泛,因此本章主要关注PCA。 主成分分析(Principal Component Analysis, PCA) 通俗理解:就是找出一个最主要的特征,然后进行分析。 在PCA中,数据集从原始坐标系转换为新的坐标 ...
分类:
其他好文 时间:
2019-04-01 11:49:08
阅读次数:
168
# 机器学习中的五种回归模型及其优缺点·监督学习参考链接:https://blog.csdn.net/Katherine_hsr/article/details/79942260 ## 1.线性回归(Linear Regression)参考:《机器学习实战》第八章算法链接:https://githu ...
分类:
其他好文 时间:
2019-03-13 00:04:46
阅读次数:
369
# 各模型对比## 回归参考数据《机器学习实战》第八章 ...
分类:
其他好文 时间:
2019-03-13 00:01:34
阅读次数:
197