码迷,mamicode.com
首页 > 其他好文 > 详细

机器学习学习笔记-绪论

时间:2017-09-26 16:05:12      阅读:213      评论:0      收藏:0      [点我收藏+]

标签:部分   误差   idt   编号   深度学习   log   over   不同的   科学   

  • 根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:“监督学习”和“无监督学习”,分类和回归是前者的代表,聚类是后者的代表。
  1. 预测的若是离散值,学习任务则成为“分类”,涉及两个类别的是“二分类”,涉及多个类别的是“多分类”;
  2. 预测任务对象若是连续值,此类学习任务成为“回归”;
  3. 聚类,是根据训练集的数据内在规律进行划分,不依赖标记信息。
  • 归纳与演绎--科学推理的两大基本手段。
  1. 演绎:从基本原理定律推演出具体状况;
  2. 归纳:从具体的事实归结出一般性规律,即在机器学习中称为从样例中学习;
  3. 广义的归纳学习大体为从样例中学习;狭义的归纳学习要求从训练数据中学习概念,概念学习最基本的是布尔概念学习(即Y或N)。
  4. 归纳偏好
  • 机器学习的发展历程:
  1. 二十世纪五十年代中后期,基于神经网络的“连接主义”;
  2. 六七十年代,基于逻辑表示的“符号主义”;
  3. 二十世纪八十年代,“符号主义学习”--决策树和基于逻辑的学习
  4. 二十世纪九十年代中期前,基于神经网络的“连接主义学习”--BP算法/神经网络
  5. 二十世纪九十年代中期,“统计学习”--支持向量机和核方法
  6. “深度学习”--基于大数据和计算机的发展

1.1假设数据集有n种属性,第i个属性可能的取值有ti种,加上该属性的泛化取值(*),所以可能的假设有i(ti+1)。再用空集表示没有正例,假设空间中一共∏i(ti+1)+1种假设。 

编号  色泽 根蒂 敲声 好瓜
1 青绿 蜷缩 浊响
2 乌黑 稍蜷 沉闷

一共有3*3*3+1=28种假设。故其版本空间如下:

    1. 色泽=青绿 根蒂=蜷缩 敲声=浊响
    2. 色泽=青绿 根蒂=* 敲声=*
    3. 色泽=* 根蒂=蜷缩 敲声=*
    4. 色泽=* 根蒂=* 敲声=浊响
    5. 色泽=青绿 根蒂=蜷缩 敲声=*
    6. 色泽=* 根蒂=蜷缩 敲声=浊响
    7. 色泽=青绿 根蒂=* 敲声=浊响 

1.2 http://blog.csdn.net/icefire_tyh/article/details/52065626

1.3通常认为两个数据的属性越相近,则更倾向于将他们分为同一类。若相同属性出现了两种不同的分类,则认为它属于与他最临近几个数据的属性。也可以考虑同时去掉所有具有相同属性而不同分类的数据,留下的数据就是没误差的数据,但是可能会丢失部分信息。

1.4* 还是考虑二分类问题,NFL首先要保证真是目标函数f均匀分布,对于有X个样本的二分类问题,显然f共有2X种情况。其中一半是与假设一致的,也就 P(f(x)=h(x))=0.5。 
此时, fl(h(x),f(x))=0.5?2X?(l(h(x)=f(x))+l(h(x)f(x))) 
l(h(x)=f(x))+l(h(x)f(x))应该是个常数,隐含的条件就该是(一个比较合理的充分条件) l(0,0)=l(1,1),l(1,0)=l(0,1)。如果不满足, NFL 应该就不成立了(或者不那么容易证明)。

1.5 问题:试述机器学习在互联网搜索的哪些环节起什么作用

1.百度、搜狗搜索网页,网站相关度排行。 
2.网页或者信息推送,推荐系统。 

 

机器学习学习笔记-绪论

标签:部分   误差   idt   编号   深度学习   log   over   不同的   科学   

原文地址:http://www.cnblogs.com/zhenglz12/p/7596900.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!