标签:
一 统计学习
统计学习是关于计算机基于数据构建概论统计模型并运用模型对数据进行预测和分析的一门学科。其中“学习”的定义是:如果一个系统能够通过某个过程改进它的性能,这就是学习。
1.1 统计学习对象
统计学习的对象是数据,提取数据特征,抽象出数据模型,再应用到对数据的预测和分析中。
1.2 统计学习目的
统计学习的目的是对未知新数据进行预测和分析。主要是通过构建概论统计模型来实现。因此统计学习研究构建什么样的概率统计模型和如何构建概论统计模型。
1.3 统计学习方法
统计学习方法大致分为:监督学习、无监督学习、半监督学习、强化学习。
以下主要讨论监督学习,其步骤为:得到有限的训练数据集合;确定模型的集合;确定模型选择的准则(学习的策略);实现求解最优模型的算法(学习的算法);通过算法选择最优模型;使用模型预测未知新数据;
二 监督学习
监督学习的任务是学习一个模型,使其能够对任意给定的输入,对相应的输出给予一个很好地预测。
2.1 基本概念
输入空间、输出空间:输入输出可能取值的集合,输入空间和输出空间可以是同一个空间,也可以是不同的空间,通常输出空间远远小于输入空间。
特征空间:每个具体的输入是一个实例,通常由特征向量表示,这时,所有特征向量存在的空间称为特征空间,特征空间的每一个维对应一个特征。有时假设输入空间和特征空间是相同的空间,有时假设两者不同,但本质上模型都是定义在特征空间上的,有一个输入空间到特征空间的映射。
输入实例x的特征向量: x = (x1,x2,...,xn)
训练集:T = {(x1,y1),(x2,y2),...,(xn,yn)}
回归问题:输入变量与输出变量均为连续变量的预测问题
分类问题:输出变量为有限个离散变量的预测问题
标签:
原文地址:http://www.cnblogs.com/tosouth/p/4732067.html