标签:
概念
统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科,统计学习也成为统计机器学习(statistical machine learning).
特点
- 统计学习将数据作为研究对象,是数据驱动的学科
- 统计学习的目的是对数据进行预测和分析
- 统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析.包括监督学习,非监督学习,半监督学习,强化学习等.
概念
从给定的, 有限的, 用于学习的训练数据集合出发, 假设数据是独立同分布产生的; 并且假设要学习的模型属于某个函数的集合, 称为假设空间; 应用某个评价准则, 从假设空间中选取一个最优的模型, 使它对已知训练数据及未知测试数据在给定的评价准则下有最优的预测;最优模型的选取由算法实现.
形式化图形
方法 = 模型 + 策略 + 算法
训练误差
训练误差是模型关于训练数据集的平均损失
测试误差
测试误差是测试数据集的平均损失
泛化能力
通常将学习方法对未知数据的预测能力成为泛化能力
过拟合
如果一味追求提高训练数据的预测能力,所选的模型复杂度往往会比真模型更高
训练误差和测试误差与模型复杂度的关系
正则化
正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项.
交叉验证
将给定的数据进行切分, 将切分的数据集组合为训练集和测试集, 在此基础上反复地进行训练, 测试以及模型选择.
概念
学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力
监督学习方法可以分为
- 生成方法 generative approach.学习联合概率分布, 求出条件概率分布, 作为预测的模型. 包括朴素贝叶斯法和隐马尔科夫模型
- 判别方法 discriminative approach.直接学习条件概率分布. 包括k近邻法, 感知机, 决策树, 逻辑斯蒂回归模型, 最大熵模型, 支持向量机, 提升方法和条件随机场等
比较
1 生成方法可以还原出联合概率分布, 判别方法则不能; 生成方法的学习收敛速度更快; 当存在隐变量时, 仍可以使用生成方法, 判别方法不能继续使用.
2 判别方法直接学习条件概率分布, 学习的准确率更高; 可以对数据进行各种程度上的抽象, 定义特征并使用特征, 可以简化学习问题
概念
监督学习从数据中学习一个分类模型或分类决策函数, 称为分类(classifier), 分类器对新的输入进行输出的预测(prediction), 称为分类(classification).
分类评测指标
混淆矩阵(confusion matrix)
TP 将正类预测为正类数目
FN 将正类预测为负类数目
FP 将负类预测为正类数目
TN 将负类预测为负类数目
不同的度量值
Precision = TP /(TP + FP) 准确率
正样本预测结果数 / 被预测为正的总数Recall = TP /(TP + FN) 召回率
正样本预测结果数 / 正样本实际数FPR = FP /(FP + TN)
被预测为正的负样本结果数 /负样本实际数FNR = FN /(TP + FN)
被预测为负的正样本结果数 / 正样本实际数
标注问题的输入是一个观察序列, 输出是一个标记序列或状态序列.
回归用于预测输入变量和输出变量之间的关系, 特别是当输入变量的值发生变化时, 输出变量随之发生的变化.
标签:
原文地址:http://blog.csdn.net/maxiaotiaoti/article/details/51331528