1 泛化误差 学习方法的泛化能力(generalization ability)是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质重要的性质。 泛化误差反映了学习方法的泛化能力,如果一种方法学习的模型比另一种方法学习的模型具有更小的泛化误差,那么这种方法就更有效。事实上,泛化误差就是所学习 ...
分类:
其他好文 时间:
2020-05-03 20:06:49
阅读次数:
134
1.简介 统计学习方法都是由模型、策略和算法构成的 2.模型 在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。 模型的假设空间包含所有可能的条件概率分布或决策函数。 2.1 决策函数模型 2.2 条件概率 决策函数表示的模型为非概率模型,由条件概率表示的模型为概率模型 3 学习策略 考虑 ...
分类:
其他好文 时间:
2020-04-30 21:22:12
阅读次数:
93
随机森林算法学习最近在做kaggle的时候,发现随机森林这个算法在分类问题上效果十分的好,大多数情况下效果远要比svm,log回归,knn等算法效果好。因此想琢磨琢磨这个算法的原理。 要学随机森林,首先先简单介绍一下集成学习方法和决策树算法。下文仅对该两种方法做简单介绍(具体学习推荐看统计学习方法的 ...
分类:
编程语言 时间:
2020-04-30 11:36:53
阅读次数:
113
1 简介 线性可分问题的支持向量机学习方法,对线性不可分训练数据是不适用的,因为这时上述方法中的不等式约束并不能都成立。 怎么才能将它扩展到线性不可分问题呢?这就需要修改硬间隔最大化,使其成为软间隔最大化。 2 模型 2.1 相关条件 2.2 模型 3 学习策略 4 算法 对偶形式 5 概念扩展 5 ...
分类:
其他好文 时间:
2020-04-29 14:58:07
阅读次数:
56
1 简介 支持向量机(support vector machines> SVM)是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;支持 向量机还包括核技巧,这使它成为实质卜的非线性分类器。支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规 ...
分类:
其他好文 时间:
2020-04-29 12:49:37
阅读次数:
142
1 简介 逻辑斯谛回归(logistic regression)是统计学习中的经典分类方法。 最大嫡是概率模型学习的一个准则,将其推广到分类问题得到最大嫡模型(maximum entropy model )。 逻辑斯谛回归模型与最大嫡模型都属于对数线性模型。 2 模型 2.1 逻辑斯谛分布 2.2 ...
分类:
其他好文 时间:
2020-04-28 17:31:04
阅读次数:
56
1 简介 1.1 介绍 1.2 生成步骤 CART树算法由以下两步组成:(1)决策树生成:基于训练数据集生成决策树,生成的决策树要尽量大;(2)决策树剪枝:用验证数据集对己生成的树进行剪枝并选择最优子树,这时用损失函数址小作为剪枝的标准。 2 算法 2.1 回归树 对回归树用平方误差最小化准则,生成 ...
分类:
编程语言 时间:
2020-04-28 14:36:46
阅读次数:
113
1 简介 决策树模型是树形结构,在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性,分类速度快。学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型。预测时,对新的数据,利用决策 ...
分类:
其他好文 时间:
2020-04-28 13:04:22
阅读次数:
158
1 简介 k近邻法的输入为实例的特征向量,对应于特征空间的点;输出为实例的类别,可以取多类。k近邻法假设给定一个训练数据集,其中的实例类别已定。分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决等方式进行预测。因此,k近邻法不具有显式的学习过程。k近邻法实际上利用训练数据集对一特征向 ...
分类:
编程语言 时间:
2020-04-27 11:22:04
阅读次数:
137
学习资料:《统计学习方法第二版》第一章 一. 机器学习定义 机器学习就是计算机能够利用数据和统计方法提高系统性能的方法。 二. 机器学习分类 机器学习一般可以分为监督学习、无监督学习、半监督学习和强化学习。 三. 机器学习方法三要素 模型+策略+优化算法=机器学习方法 模型 在监督学习中模型就是要学 ...
分类:
其他好文 时间:
2020-04-10 19:48:53
阅读次数:
73