模型选择问题(Model Selection Problem)
我们在之前得知,通过最小化Ein来选择最好的模型不是一个正确的办法,因为这样可能会付出模型复杂度的代价、造成泛化效果差、造成过拟合的发生。
为了解决这个问题,我们的想法是找一些测试数据来看看哪种模型对应测试数据的效果更好,但是用新的测试数据来作这个事情,实际上是做不到的自欺欺人的办法。
我们对比这两种方式,用训练数据来作选择...
分类:
其他好文 时间:
2015-03-04 22:48:21
阅读次数:
184
奥卡姆剃刀原则(Occam's Razor)
有一句话是这样说的,"An explanation of the data should be mad as simple as possible,but no simpler"。
在机器学习中其意义就是,对数据最简单的解释也就是最好的解释(The simplest model that fits the data is also the mo...
分类:
其他好文 时间:
2015-03-04 22:45:56
阅读次数:
177
这门课以8周设计,分成 4个核心问题,每个核心问题约需2周的时间来探讨.每个约2个小时的录影中,每个小时为一个主题,以会各分成4到5个小段落,每个段落里会有一个后多个随堂的练习.我们在探讨每个核心问题的第二周。关于Machine Learning更多讨论与交流,敬请关注本博客和新浪微博songzi_tea....
分类:
系统相关 时间:
2015-03-04 22:42:18
阅读次数:
421
有了数据,剩下的就是流水线上的活:利用某种机器学习算法学习得到模型,在用模型进行预测,评价模型的性能。1 分割训练集和测试集Python的机器学习包sklearn非常强大,它不仅包含了不论监督学习、非监督学习的算法,同时包括了进行常用预处理和其他流程的函数。分割训练集和测试集的函数虽然很简单,但也包...
分类:
其他好文 时间:
2015-03-04 22:37:23
阅读次数:
837
良性URL数据集:
1,DMOZ
http://rdf.dmoz.org/rdf/
2,alexa
http://s3.amazonaws.com/alexa-static/top-1m.csv.zip
3,chinaz
http://top.chinaz.com/top500?t=48
恶意URL数据集:
1,PhishTank
http://www.phishta...
分类:
Web程序 时间:
2015-03-04 16:56:07
阅读次数:
140
学习机器学习有一段时间了,却连这个最基本的理论问题都没弄懂,这里我简单的阐述一下。 比如这里我有L个度量值集合{X1, X2, X3, ... XL}; 特征选择:从已有的L个度量值中按照一定的标准选择m(m<L)个子集,{X1, X2, X3,... Xm};这m个度量值就是作为降维后的特征。 特...
分类:
其他好文 时间:
2015-03-04 16:34:06
阅读次数:
168
0-9数字识别,NMIST数据的识别。具体代码包括NMIST见附件中。参考资料是TOM的机器学习BP那一章。# coding:utf-8# 没考虑大小端import structimport numpydef loadImages(filename): try: f = open...
分类:
编程语言 时间:
2015-03-04 12:47:23
阅读次数:
560
NumPy函数库是Python开发环境的一个独立模块,而且大多数Python发行版没有默认安装NumPy函数库,因此在安装Python之后必须单独安装NumPy函数库。 在Python shell开发环境中输入下列命令: >>> from numpy import * 如果没报错就表明NumPy函数...
分类:
编程语言 时间:
2015-03-03 22:05:40
阅读次数:
565
过去的新春佳节让程序员们迎来了一个难得的长假休息,但人工智能在假期一直在进步,我们看到了Facebook人工智能负责人Yann LeCun、香港科技大学计算机与工程系主任杨强等人工智能大牛对人工智能热潮的冷静思考,也...
分类:
编程语言 时间:
2015-03-03 12:00:16
阅读次数:
148
本章主要介绍了程序设计语言(c++、Smalltalk、java、c#等面向对象语言使开发员可以自然的实现由面向对象分析和设计产生的模型,LISP和Prolog是人工智能领域中知识表示和专家系统的语言:APL是为数组和向量运算设计的简洁而且功能强大的语言;FORTH是专门为开发微处理器而设计的语言)...
分类:
其他好文 时间:
2015-03-02 18:23:53
阅读次数:
154