标签:机器学习中复杂概念的理解
平均值和数学期望的区别?
均值(mean value)是针对既有的数值(简称母体)全部一个不漏个别都总加起来,做平均值(除以总母体个数),就叫做均值.
但是当这个数群(data group)的数量(numbers)很大很多时,我们只好做个抽样(sampling),并“期望”透过抽样所得到的均值,去预测整个群体的“期望值(expectation value)”.
当抽样的数量很大时候,我们认为抽样得到的均值接近于期望值。
机器学习中概念都有哪些?
损失函数是度量模型一次预测的好坏,就是累加错误和
风险函数是平均损失函数或者叫做期望损失。
经验风险就是指针对训练集的平均损失,它是针对训练集,不包括测试数据。
期望风险是针对整个数据集的平均损失,它是针对整个数据集,包括测试数据。
当样本容量容量N趋于无穷大的时候,根据大数定律,经验风险等于期望风险。
我们都希望求出期望风险,但是不容易求出,所以我们希望通过经验风险来近似期望风险。
通过经验风险最小化原则可以求出最好的模型。(当模型时条件概率分布,损失函数是对数损失函数时,等价于极大似然估计法)
当样本量很小时,经验风险最小化会引起过拟合现象。
结构风险最小化就是为了防止过拟合现象提出的策略。(等价于正则化)
结构风险在经验风险加上模型复杂度的正则化项或者罚项
生成模型和判别模型的区别?
监督学习的任务是学习一个模型,应用该模型,对于给定的输入预测相应的输出。
模型的一般形式为决策函数y=f(x),或者条件概念分布p(y/x)
监督学习分为生成方法和判别方法
生成方法:由数据学习联合分布p(x,y),然后求出条件概念分布p(y/x)做出预测的模型,即生成的模型p(y/x)=p(x,y)/p(x),生成模型方法有:朴素贝叶斯,隐马尔科夫模型。
特点:还原联合分布(判别方法不能),收敛速度快,存在隐变量时,也能学习
判别方法:由数据直接学习决策函数y=f(x)或条件概念p(x,y)来作为预测的模型,即判别模型
有k近邻,感知机,决策树,逻辑斯特回归,最大熵,支持向量机,提升方法,和条件随机场
特点:直接学习条件概念p(x,y),或决策函数y=f(x),直接面对预测,往往学习的准确率更高。可以对数据进行各种程度上的抽象,定义和使用特征,可以简化学习问题。
朴素贝叶斯,贝叶斯网络,马儿科夫,EM等等之类。数学归纳法,推理和演绎。
本文出自 “简答生活” 博客,请务必保留此出处http://1464490021.blog.51cto.com/4467028/1922851
标签:机器学习中复杂概念的理解
原文地址:http://1464490021.blog.51cto.com/4467028/1922851