标签:朴素 支持 数据挖掘 构建 准确率 特殊情况 误差 预测 自然语言
1.1 统计学习
统计学习是关于计算机基于数据构建概率模型并用模型对数据进行分析与预测的一门学科。统计学习也成为统计机器学习。
(1)统计学的主要特点:
1、统计学习以计算机及网络为平台,是建立在计算机及网络之上的
2、统计学习以数据为研究对象,是数据驱动的科学。
3、统计学习的目的是对数据进行预测与分析。
4、统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析。
5、统计学习是概率论、统计学、信息论、计算机理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中形成独自的理论体系与方法。
学习:如果一个系统能通过执行某一个过程改进它的性能,就是学习。
(2)统计学习的对象:
统计学习的对象是数据。从数据触发,提取数据的特征,抽象出数据的模型,发现数据中的知识,最后回到对数据的分析与预测中。
统计学习关于数据的基本假设是同类数据具有一定的统计规律,同类数据指的是某种共同性质的数据。
(3)统计学习的目的:
统计学习通过构建概率统计模型实现对数据的预测与分析。
统计学习总的目标就是考虑学习生么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能的提高学习效率。
(4)统计学习方法:
统计学习的方法是基于数据构建统计模型从而对数据进行预测与分析。
分类: 监督学习、非监督学习、半监督学习、强化学习
统计学习在监督学习的情况下可以概括为:
从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的;并且假设学习的模型属于某个函数的集合,称为假设空间;应用某个评测标准,从假设空间中选取最优的模型,使它对已知的训练数据及未知测试数据在给定的评价准则下都有很好的预测,最优模型的选择由算法实现。
统计学习的方法步骤:
1、得到一个有限的训练数据集合。
2、确定包含所有可能的模型的假设空间,即学习模型的集合。
3、确定模型的选择准则,即学习策略。
4、实现求解最优模型的算法,即学习算法。
5、通过学习方法选择最优模型。
6、利用学习的最优模型对新数据进行预测与分析。
(5)统计学习的研究
统计学习研究包括统计学习方法、统计学习理论、统计学习应用。
(6)统计学习的重要性
应用领域:人工智能、模式识别、数据挖掘、自然语言处理、图像识别、语音识别、信息检索和生物信息等计算机领域中。
统计学习科学在科学技术中的重要性:
1、统计学习是处理海量数据的有效方法。
2、统计学习是计算机智能化的有效手段。
3、统计学习是计算机科学发展的一个重要组成部分。
1.2 监督学习
监督学习的任务就是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做一个很好的预测。
(1)基本概念
输入空间:输入所有可能取值的集合称为输入空间。
输出空间:输出所有可能取值的集合成为输出空间。
特征空间:所有特征向量存在的空间。
回归问题:输入与输出均为连续变得的预测问题。
分类问题:输出变量为有限个离散变的预测问题。
标注问题:输入变量与输出变量均为变量序列的预测问题。
联合概率分布:监督学习假设输入与输出的随机变量遵循联合概率分布P(X|Y)。
假设空间:模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间。
(2)问题的形式化
监督学习利用训练数据集学习一个模型,再用模型对测试数据进行预测。在这个过程中需要用到训练集,训练集通常是人工标注的所以称为监督学习。
1.3 统计学习三要素
统计学习三要素:模型、策略和算法。
方法 = 模型 + 策略 + 算法。
模型:
在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布和决策函数集合。
策略:
统计学习的目标是从假设空间中选取最优模型
损失函数:度量模型一次预测的好坏。
风险函数:度量模型平均意义下模型预测的好坏。
统计学习常用的损失函数:
(1)、0-1损失函数
L(Y,f(X)) = { 1, Y ≠ f (X) ; 0 Y = f(x)
(2) 、平方损失函数
L(Y,f(x))= (Y - f(X))2
(3)、绝对损失函数
L(Y,f(X))= | Y - f(X)|
(4)、对数损失函数或对数似然函数
L(Y,f(X))= -logP(Y|X)
损失函数的期望:
Rexp(f) = Ep[L(Y, f(x))] = ∫x*y L(y, f(x))P(x, y)dxdy
期望风险Rexp(f)是模型关于联合概率分布的期望损失。
经验风险Remp(f)是模型关于训练样本集的平均损失。
根据大数定理,当样本容量N趋于无穷时,经验风险Rexp(f)趋于期望风险 Remp(f)。在样本足够多的情况下用经验风险估计期望风险。由于实际中训练样本有限,用经验风险估计期望风险并不理想,需要对经验风险进行矫正。
算法:
算法指的是学习模型的具体算法。
统计学习基于训练数据集,根据学习策略,从假设空间选取最优模型,最后考虑用什么样的计算方法求解最优模型。
1.4 模型的评估与模型的选择
(1)训练误差与测试误差:
假设学习到的模型是Y = f(X),训练误差是模型Y= f(x)的关于训练数据集的平均损失:
Remp (f) = 1⁄N ∑Ni=1 L(yi, f(xi))
N:样本容量
测试误差是Y = f(X)关于测试数据集的平均损失:
etest= 1⁄N ∑Ni=1 L(yi, f(xi))
(2) 过拟合与模型选择
过拟合:是指学习时选择的模型包含的参数过多,以至于出现这一模型对已知数据预测得很好,但对未知数据预测能力很差的现象。
模型的选择:旨在避免过拟合并提高模型的预测能力。
1.5 正则化与交叉验证
正则化:
模型选择的典型方法是正则化。正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化项越大。
交叉验证:
(1)简单交叉验证:
随机的将已给数据集分为两部分,一部分作为训练集,另一部分作为测试集。
(2)S折交叉验证:
随机的将已给数据集切分为S个互补相交的大小相同的子集,让后用S-1个子集数据训练模型,利用余下的子集测试模型。将这一过程对可能的S种选择重复进行,最后选出S此评测中平均测试误差最小的模型。
(3)留一交叉验证:
S折交叉验证的特殊情况S=N,称为留一交叉验证。
1.6 泛化能力
(1)泛化误差
泛化误差就是学习到的模型的期望风险。
泛化能力是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上的重要性质。
(2)泛化误差上界
学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的,简称繁华误差上界。
泛化误差上界的性质:
它是样本容量的函数,当样本容量增加时,泛化上界趋于0。它是假设空间容量的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。
1.7 生成模型与判别模型
生成方法:由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型,
即:生成模型
P(Y|X)= P(X,Y)/P(X)
注:这样的方法之所以成为生成方法,是因为模型表示了给定输入X产生输出Y的生成关系。
典型模型:朴素贝叶斯法、隐马尔科夫模型。
判别方法:由数据直接学习决策函数f(X)或条件概率分布P(Y|X)作为预测的模型。
典型方法:K紧邻算法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法和条件随机场。
生成方法的特点:生成方法可以还原出联合概率分布P(X,Y),而判别方法则不能;生成方法的学习收敛速度快,即当样本容量增加的时候,学到的模型可以更快的收敛于真实模型;当存在隐变量时,仍可以用生成方法学习,此时判别方法就不能用。
判别方法的特点:判别方法直接学习的是条件概率分布P(Y|X)或决策函数f(X),直接面对预测,往往学习的准确率更高;由于直接学习P(Y|X)或f(X),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。
1.8 分类问题
在监督学习中,当输入变量Y取有限个离散值时,预测问题变成分类问题。输入变量可以是离散的也可以是连续的。
分类问题常用的评价指标:精确率和召回率
TP = 将正类预测为正类的数。
FN = 将正类预测为负类的数。
FP = 将负类预测为正类的数。
TN = 将负类预测为负类的数。
精确率 : P = TP / (TP + FP)
召回率: R = TP / (TP + FN)
F1值是精确率和召回率的调和均值:
1/ F1 = 1/P +1/R
F1 = 2TP / ( 2TP + FP +FN)
1.9 标注问题
标注也是一个监督学习问题。可以认为标注问题是分类问题的一个推广,标准问题是更复杂的结构预测问题的简单形式。标注问题的输入是一个观测序列,输出是一个标注序列或状态序列。标注问题的目的在于学习一个模型,使他能够对观测序列给出标记序列作为预测。
注:可能标记的个数是有限的,但其组合所成的标记序列的个数是依序列长度呈指数级增长。
1.10 回归问题
回归属于监督学习,回归用于预测输入变量和输出变量之间的关系,特别是当输入变量发生变化时,输出变量的值随之发生变化。回归模型正是表示从输入变量到输出变量之间的映射的函数。回归问题等价于函数拟合:选择一条函数曲线使其很好的拟合已知数据且很好的预测未知数据
标签:朴素 支持 数据挖掘 构建 准确率 特殊情况 误差 预测 自然语言
原文地址:https://www.cnblogs.com/hujingquan/p/12179600.html