一、Evaluating a Learning Algorithm 训练后测试时如果发现模型表现很差,可以有很多种方法去更改: 1. 用更多的训练样本; 2. 减少/增加特征数目; 3. 尝试多项式特征; 4. 增大/减小正则化参数$\lambda$。 那么该怎么去选择采用哪种方式呢? 一般将70% ...
分类:
移动开发 时间:
2020-01-01 23:38:48
阅读次数:
92
二、基本概念 1 有监督学习与无监督学习 根据样本数据是否带有标签值,可以将机器学习算法分成有监督学习和无监督学习两类。有监督学习的样本数据带有标签值,它从训练样本中学习得到一个模型,然后用这个模型对新的样本进行预测推断。有监督学习的典型代表是分类问题和回归问题。 无监督学习对没有标签的样本进行分析 ...
分类:
其他好文 时间:
2019-12-23 16:41:39
阅读次数:
140
监督学习:通过人为地输入带有标签的训练数据集,使计算机训练得到一个较为合适的模型,对未知标签的数据进行预测。常见的监督学习算法:回归和分类。 1.回归(Regression):通常有两个及以上变量,数据一般是连续的,通过训练集变量之间的关系得到一条模拟训练样本的曲线,对未知数据的因变量进行预测,其中 ...
分类:
其他好文 时间:
2019-12-14 23:01:08
阅读次数:
128
监督学习: 监督学习就是分类,把人们已经处理好的训练样本(即已知数据和对应输出)给计算机,计算机通过规律训练出一个最佳模型,再用这个模型对输入的数据进行分类,得出对应的输出。 从而使计算机具有对未知数据进行分类的功能。 特点:目标明确 需要带标签的训练样本 分类效果很容易评估 非监督学习: 非监督学 ...
分类:
其他好文 时间:
2019-12-14 18:49:03
阅读次数:
66
模型评估与选择 经验误差与过拟合 (1)错误率:分类错误的样本数占样本总数的比例 精度:1$ $错误率 (2)误差:学习器的实际输出与样本真实值之间的差异 误差有训练误差和泛化误差两种。训练误差指的是学习器在训练集上的误差,也称为经验误差;泛化误差指的是在新样本上的误差。 (但是,对于训练样本,其分 ...
分类:
其他好文 时间:
2019-11-17 00:59:46
阅读次数:
100
决策树 (decision tree) 是一种常用的有监督算法。 决策树算法有很多类型,其中最大的差别就是最优特征选择的方法不同。最优特征指的是,在每个结点处,如何选择最好的特征(属性)对样本进行分类,这里最佳的意义即经过这步划分,能使分类精度最好,直到这棵树能准确分类所有训练样本。 通常特征选择的 ...
分类:
编程语言 时间:
2019-11-07 19:39:05
阅读次数:
95
支持向量机 (support vector machine, SVM) 是建立在统计学习理论的 VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特点训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折中,以期获得最好的泛化能力。 支持向量机的 基 ...
分类:
其他好文 时间:
2019-11-07 19:35:20
阅读次数:
129
朴素贝叶斯分类器 (naive bayes classifier, NBC) 是一种常见且简单有效的贝叶斯分类算法。对已知类别,朴素贝叶斯分类器在估计类条件概率时假设特征之间条件独立。这样的假设,可以使得在有限的训练样本下,原本难以计算的联合概率 $P(X_1, X_2, \cdots, X_n | ...
分类:
其他好文 时间:
2019-11-07 19:14:57
阅读次数:
106
采用测量不同特征值之间的距离方法进行分类。 KNN 工作原理 1.假设有一个带有标签的样本数据集(训练样本集),其中包含每条数据与所属分类的对应关系。 2.输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较。 计算新数据与样本数据集中每条数据的距离。 对求得的所有距离进行排序 ...
分类:
编程语言 时间:
2019-10-23 22:20:41
阅读次数:
84
1. SVM 原理 SVM 是一种二类分类模型。它的基本思想是在特征空间中寻找间隔最大的分离超平面使数据得到高效的二分类,具体来讲,有三种情况(不加核函数的话就是个线性模型,加了之后才会升级为一个非线性模型): 当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分支持向量机; 当训 ...
分类:
其他好文 时间:
2019-10-18 15:29:42
阅读次数:
105