标签:部分 误差 idt 编号 深度学习 log over 不同的 科学
1.1假设数据集有n种属性,第i个属性可能的取值有ti种,加上该属性的泛化取值(*),所以可能的假设有∏i(ti+1)。再用空集表示没有正例,假设空间中一共∏i(ti+1)+1种假设。
编号 | 色泽 | 根蒂 | 敲声 | 好瓜 |
1 | 青绿 | 蜷缩 | 浊响 | 是 |
2 | 乌黑 | 稍蜷 | 沉闷 | 否 |
一共有3*3*3+1=28种假设。故其版本空间如下:
1.2 http://blog.csdn.net/icefire_tyh/article/details/52065626
1.3通常认为两个数据的属性越相近,则更倾向于将他们分为同一类。若相同属性出现了两种不同的分类,则认为它属于与他最临近几个数据的属性。也可以考虑同时去掉所有具有相同属性而不同分类的数据,留下的数据就是没误差的数据,但是可能会丢失部分信息。
1.4* 还是考虑二分类问题,NFL首先要保证真是目标函数f均匀分布,对于有X个样本的二分类问题,显然f共有2X种情况。其中一半是与假设一致的,也就 P(f(x)=h(x))=0.5。
此时, ∑fl(h(x),f(x))=0.5?2X?(l(h(x)=f(x))+l(h(x)≠f(x)))
l(h(x)=f(x))+l(h(x)≠f(x))应该是个常数,隐含的条件就该是(一个比较合理的充分条件) l(0,0)=l(1,1),l(1,0)=l(0,1)。如果不满足, NFL 应该就不成立了(或者不那么容易证明)。
1.5 问题:试述机器学习在互联网搜索的哪些环节起什么作用
1.百度、搜狗搜索网页,网站相关度排行。
2.网页或者信息推送,推荐系统。
标签:部分 误差 idt 编号 深度学习 log over 不同的 科学
原文地址:http://www.cnblogs.com/zhenglz12/p/7596900.html