1.欠拟合:模型没有充分学习到数据集的特征,导致在训练集和测试集性能都很差的情况 2.解决办法: 1.增加其他特征项,可以通过“组合”、“泛化”、“相关性”等的操作来添加特征项 2.添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添加二次项或者三次项使模型泛化能力更强 3.减少正 ...
分类:
其他好文 时间:
2018-08-10 14:35:34
阅读次数:
691
Python学习路线 参考了很多大牛的博客,知乎的很多回答,认真思考之后暂时规划了以下路线 1.Python全栈之路 2.Python项目实战 3.高性能数据库 4.Linux运维 5.Shell高级编程 6.Linux架构 7.大数据开发 8.复习数学基础,计算机理论 9.算法 10.机器学习算法 ...
分类:
编程语言 时间:
2018-08-08 17:39:02
阅读次数:
169
1、c4.5 c4.5算法是机器学习算法中的一种分类决策树算法,其核心是ID3算法,c4.5算法继承了ID3算法的优点,并在一下几个放米娜对ID3算法进行了改进: 1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足。 2)在树构造过程中进行剪枝。 3)能够完成对不连续属 ...
分类:
编程语言 时间:
2018-08-07 22:23:00
阅读次数:
152
在使用机器学习算法过程中,针对不同的问题需要不用的模型评估标准,这里统一汇总。主要以两大类分类与回归分别阐述。 一、分类问题 1、混淆矩阵 混淆矩阵是监督学习中的一种可视化工具,主要用于比较分类结果和实例的真实信息。矩阵中的每一行代表实例的预测类别,每一列代表实例的真实类别。 2、准确率(Accur ...
分类:
其他好文 时间:
2018-08-06 19:26:10
阅读次数:
252
K Nearest neighbor (个人观点,仅供参考。) [TOC] k 近邻算法,第一个机器学习算法,非常有效且易掌握,本文将主要探讨k 近邻算法的基本理论和使用距离侧量的算法分类物品;最后通过k 近邻算法改进约会网站和手写数字识别系统。文章内容参考《机器学习实战》 K 近邻分类算法 简单的 ...
分类:
其他好文 时间:
2018-08-03 16:22:23
阅读次数:
155
一、基础理解 问题:逻辑回归算法是用回归的方式解决分类的问题,而且只可以解决二分类问题; 方案:可以通过改造,使得逻辑回归算法可以解决多分类问题; 改造方法: 改造方法不是指针对逻辑回归算法,而是在机器学习领域有通用性,所有二分类的机器学习算法都可使用此方法进行改造,解决多分类问题; 二、原理 1) ...
分类:
其他好文 时间:
2018-07-30 13:28:50
阅读次数:
6125
数据回归分类预测的基本算法及python实现 关于数据的回归和分类以及分析预测。讨论分析几种比较基础的算法,也可以算作是比较简单的机器学习算法。 一. KNN算法 邻近算法,可以用来做回归分析也可以用来做分类分析。主要思想是采取K个最为邻近的自变量来求取其应变量的平均值,从而做一个回归或者是分类。一 ...
分类:
编程语言 时间:
2018-07-29 20:28:06
阅读次数:
253
一、KNN算法的介绍 K最近邻(k-Nearest Neighbor,KNN)分类算法是最简单的机器学习算法之一,理论上比较成熟。KNN算法首先将待分类样本表达成和训练样本一致的特征向量;然后根据距离计算待测试样本和每个训练样本的距离,选择距离最小的K个样本作为近邻样本;最后根据K个近邻样本判断待分 ...
分类:
编程语言 时间:
2018-07-28 20:34:04
阅读次数:
586
1.激活函数: 2.超参数:是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。通常情况下,需要对超参数进行优化,给学习机选择一组最优超参数,以提高学习的性能和效果 3.特征提取: 特征工程:若出现特征为字符串类型则使用独热编码 良好特征具备的特性:1.特征值应以非零值的形式在数据集中多 ...
分类:
编程语言 时间:
2018-07-26 18:48:57
阅读次数:
152
奇异值分解(Singular Value Decomposition,SVD)是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域。是很多机器学习算法的基石。本文就对SVD的原理做一个总结,并讨论在在PCA降维算法中是如何运用运用SVD的。 ...
分类:
其他好文 时间:
2018-07-26 18:39:35
阅读次数:
227