机器学习入门教材有许多,入门方式多种多样,我是半路出家,简单总结一下我的机器学习之路。2011年考入北邮计算机研究生学院,主要是NLP方向。之前没有接触过机器学习,本科也不是计算机专业,而是工商管理。
2011年研究生阶段,两节课对我影响很大:
第一节课是计算语言学,最开始了解和接触机器学习,是在上这节课的时候,老师推荐的教材《统计自然语言处理基础》。在老师的课上,有讲到HMM(隐马尔科夫模型),可以用来做序列标注,在NLP(自然语言处理)中可以做分词,语音识别等各种任务。课上的大作业就是实现一个HMM模型,现在还记忆犹新。
另一节课是高级机器学习,推荐教材是 Tom M. Mitchell的《Machine Learning》。课上每个同学都要自己讲一下,对于某一个机器学习算法的认识,每个人一节课的时间。在这个课上,认识了最大熵(Max Entropy),支持向量机(SVM)。因为需要自己讲一节课,所以对自己讲的模型从整体概念上有了大概的了解,现在想起来映像最深的就是SVM。
在这个期间,看了stanford 的机器学习公开课,还有就是 52nlp 的博客,都是非常好的公开资源(coursera 上面有很多其他资源)。
后来慢慢的接触到了更多的自然处理的任务,文本分类、聚类,分词,词性标注,命名实体识别,句法分析,语义角色标记,关系抽取,蕴含推理,文本摘要,自然语言生成,问答系统,情感分析(意见挖掘)等,也自然接触到了更多的机器学习算法,这些问题有一些比较好的工具或者解决的方案,会在另一个专题,NLP专题里面分析。
2012年期间, 师兄师姐们推荐了两本好书:
一本是李航 的 《统计学习基础》,比Mitchell的书更加偏应用;另一本是 pattern Recognition and machine learning,这本书被爱称为神书,比Mitchell的书更加深入。这个时候,我已经是研二,发现被机器学习涉及的庞杂内容越来越感兴趣,自己深入其中,不可自拔。那个时候,对概率统计,最优化方法,以及矩阵等数学理论不是很了解,纯粹是对这个学科的兴趣,坚定了我继续深造的想法,以上就是我入坑的原因。
断断续续看了一些书之后,又找到了一个叫做 机器学习10大经典算法 的文集:(在我微盘里面,点此打开)
里面讲了很多实用的算法,参数估计-EM,模型组合-Adaboost,分类-knn,svm,naivebayes等十个经常用的机器学习算法。看完之后,更加发现了机器学习体系的庞大,以后会慢慢说这些基础算法LDA,CRF之类的,以及介绍各种工具包。
2013年
经过一段时间的阅读,深刻的了解到一句话:书读得越多,越觉得自己无知。一年前发现了水木上的机器学习书单,非常不错,涉及到机器学习的方方面面,但是没有全部读过,个人感觉不可能全部读完。(我的微盘分享)
后来修了一门课,最优化理论,知道了一些最优化的方法:梯度下降,牛顿,共轭梯度,拟牛顿等等。刚觉得对机器学习有点感觉了,Deep Learning非常火了,之前是实验室有师兄一直在做基于GPU的DeepLearning的模型。图像,语音然后是NLP等各领域都被DeepLearning洗牌,NLP里面的词表示已经很火了,于是跟风看了一下DeepLearning。有专门讲DeepLearning的网站,点我。
2014年
谷歌收购了一家名为DeepMind的人工智能初创公司,该公司发了一篇论文,是CNN+增强学习(Reinforce Learning)让机器玩游戏,然后就被收购了。可以认为,增强学习 可能才是让机器自己“学习“的算法框架。不知道你信不信,反正我是信了,因为我导师,已经安排了不少的学生在增强学习方向,听了他们的报告,感觉是挺有意思的。也在ACL上看到有关增强学习的论文,虽然少,但是可能会是一个趋势吧。
一直以来,都没有写博客或者总结,现在是需要好好总结一下以前的学习历程。一次一个算法,慢慢来,我会尽量结合一些已有工具,针对我接触过的任务,做一下分析和总结。
原文地址:http://blog.csdn.net/marscrazy_90/article/details/26150655