标签:结构 ack 总结 规律 不能 之间 复杂 好的 fun
一、定义:
监督学习主要包括分类和回归
当输出被限制为有限的一组值(离散数值)时使用分类算法
当输出可以具有范围内的任何树值(连续数值)时使用回归算法
相似度学习是和回归和分类都密切相关的一类监督学习,它的目的是使用相似函数从样本中学习,这个函数可以度量两个对象之间的相似度或关联度
二、监督学习三要素
模型:总结数据的内在规律,用数据函数描述的系统
策略:选取最优模型的评价准则
算法:选取最优模型的具体方法
三、模型评估:
1、训练集和测试集
2、损失函数和经验风险
a、损失函数(loss function):用来度量偏差的程度,记作:L(Y,f(X)). Y为真实结果,f(X)为预测结果,
b、经验风险(Empirical risk):模型f(X)关于训练数据集的平均损失。
经验风险最小化(Empirical risk Minimization ERM):经验风险最小的模型就是最优模型。【样本足够大时,ERM的学习有很好的效果】
3、训练误差和测试误差
训练误差:关于训练集的平均损失
测试误差:关于测试集的平均损失,反映了模型对未知数据的预测能力,这种能力称为泛化能力。
四、模型选择:
1、过拟合和欠拟合
2、正则化和交叉验证
a、正则化(防止过拟合):将结构风险最小化(Structural rick Minimization SRM )的过程。
在经验风险上加上表示模型复杂度的正则化项(regularizer),或者叫惩罚项。
正则化项:一般是模型复杂度的单调递增函数,即模型越复杂,正则化值越大。
b、交叉验证:数据集不足时,可以重复地利用数据。
标签:结构 ack 总结 规律 不能 之间 复杂 好的 fun
原文地址:https://www.cnblogs.com/wjh123/p/11441141.html