由于数学基础很差,一直没有理解LDA的整个核心。到目前为止,也只是理解了皮毛。记录一下关于LDA主题模型相关的学习资料。
LDA主题模型属于编码简单,但是数学功底要求较高的一个机器学习模型,在搜索引擎和广告领域有用到。按照《LDA 数学八卦》作者靳志辉老师的说法,是一个比较简单的模型,前提是需要数学功底扎实。如果统计学基础扎实,理解LDA主题模型基本是一马平川。
理解LDA主题模型,其实包含4大块的内容: 微积分基础,概率论与数理统计基础, 随机模拟算法, 文本建模思路。LDA数学八卦讲解的思路就是微积分-分布函数-随机模拟-文本建模这条主线的。个人认为,如果数学基础比较差的话,光靠《LDA数学八卦》是很难理解清楚LDA主题模型的。出于弥补数学短板的目的,也是出于兴趣,我前后看了一些书。如下的书籍我觉得还是不错的。
《普林斯顿微积分读本》 这本书从高中数学的基本函数开始,到微积分的各种技巧。讲解细致,学习曲线平缓。
如果这本书觉得枯燥,可以配合如下的4本科普入门。
《数学悖论与三次数学危机》
《天才引导的历程:数学中的伟大定理》
《微积分的历程:从牛顿到勒贝格》
《简单微积分 : 学校未教过的超简易入门技巧》
这几本书下来,不敢说理解微积分了,至少看到微积分的那个求和符号会感觉亲切很多。
关于数理统计,有几个个人名不得不提: 陈希儒,吴喜之,茆诗松。
《机会的数学》
《数理统计学简史》
上面两本是科普层面的书,简史中数学推导有点难,但是不妨碍理解整个主线条。接下来就是比较硬的专业书籍了。
《概率论与数理统计教程》(茆诗松)
《概率论与数理统计》(陈希孺)
《数理统计学教程》(陈希孺)
《贝叶斯统计》(茆诗松)
这里面能看懂多少是多少吧,我到现在也只能理解很少的一部分。到这里,就到了LDA数学八卦里面提到的数学不超出《概率论与数理统计》这本书的层级了。其实,陈院士的这本书难度还是颇大的,毕竟立足点高远。就像《高观点下的初等数学》那样,尽管讲解的是初等数学,但是无奈站的太高,只能仰望。 吴喜之教授的几本书,在豆瓣上评价也挺不错的,可以搭配着看。
其实随机模拟是比较简单的。这里推荐一本讲随机模拟的书,尽管里面没有讲Gibbs算法。我是看了这本书,才理解了MCMC算法的基本思路的。个人觉得对于理解MCMC算法非常有帮助。
《随机模拟方法与应用》
看完这本书的几个章节估计就能理解清楚MCMC算法的来龙去脉了。 几乎没有书籍专门讲解MCMC是因为它的内容基本不足以支撑一本书。
《统计模拟》在豆瓣的评价也不错,应该可以搭配着看。
我理解文本建模就是数学建模。各种降低现实问题复杂度的假设,比如词袋模型。其实有了前面的数学基础,这里应该是不需要看什么书来帮助理解的。如果一定要看一下的话,吴军老师的《数学之美》我觉得应该不错。再或者,看一下《统计自然语言处理基础》。
个人觉得,看书没必要严格按照一定的先后顺序,相互印证,配合理解才是王道。
整个路径梳理下来,感觉对于机器学习的模型,最关键的还是数学功底。去年看了一些数学类的书籍,感觉数学还是相当有意思的,关键在于选择合适自己当前水平的书,才能不至于因为难度太大而丧失探索的兴趣和欲望。 李健老师说"重复也是一种力量", 路慢慢其修远兮,呵护培养着兴趣,且行且珍惜吧。
原文地址:https://blog.51cto.com/sbp810050504/2469819