标签:
吴军的这本数学之美从google黑板报到实体书出版应该说一直都是比较火的,吴军博士作为早期加入google的那帮人,一直在搞搜索引擎的方向,除了本身是大牛还跟很多大牛一起共事过,眼界、见识、思维高度也不是一般人能比的。下面是一些凌乱的总结。
1.整个信息论的基础就是数学。如果往更远看,我们自然语言和文字的起源背后都受着数学规律的支配。
2.人们生活的经验作为一种特定的信息,其实是那个时代最宝贵的财富。(读者注:其实现在也是!)
3.信息冗余是信息安全的保障。
4.事实上,他们全靠的是数学,更准确的说是靠统计。
5.统计语言模型,他是今天所有自然语言处理的基础,并且广泛应用于机器翻译、语音识别、印刷体或手写识别、拼写纠错、汉字输入和文献查询。
6.一个句子是否合理,就看看它的可能性大小如何。
7.可以假设一个词由前面N-1个词决定,对应的模型稍微复杂些,被称为N元模型。而实际中应用最多的是N=3的三元模型。
8.数学的简单之处就在于简单的模型可以干大事。
9.一般来讲,根据不同的应用,汉语分词的颗粒度大小应该不同。跟好的方法是让一个分词器同时支持不同层次的词的切分。
10.分词的不一致性可以分为错误和颗粒度不一致俩种,错误又分为俩类,一是越界型错误,一是覆盖型错误。
11.通信的本质就是一个编解码和传输的过程。
12.当自然语言处理的问题回归到通信系统中的解码问题时,很多难题都迎刃而解了。
13.几乎所有的自然语言处理问题都可以等价成通信的解码问题。
14.概率论的发展从(相对静态的)随机变量的研究发展到对随机变量的时间序列s1,s2,s3…………st,…,即随机过程(动态的)的研究。
15.一条信息的信息量和它的不确定性有着直接的关系。
16.合理的利用信息,而不是玩弄什么公式和机器学习算法,是做好搜索的关键。
17.信息的作用在于消除不确定性,自然语言处理的大量问题即使找相关信息。
18.所谓俩个事件的相关性的量化度量,就是在了解其中一个Y的前提下,对消除另一个X不确定性所提供的信息量。
19.所以我们都不赞同中小学只会上学考试的教育方式。我们都同意这样几个观点。首先,小学生和中学生其实没有必要花那么多时间读书,而他们的社会经验、生活能力以及在那时候树立起的志向将帮助他们的一生。其二,中学阶段花很多时间比同伴多读的课程,在大学以后用非常短的时间就可以读完,因为在大学阶段,人的理解能力要强很多。第三,学习是一个人一辈子的过程。第四,书本上的内容可以早学,也可以晚学,但是错过了成长阶段确实无法补回来的。
20.我一直认为,一个人想要在自己的领域做到世界一流,他的周围必须有非常多一流的人物。贾里尼克的幸运之处在于他在年轻的时候就得到了这些大师的指点,以后研究境界上比同龄人高出了一筹。
21.很多时候历史偶然性的背后都有必然的原因。(读者注:吴军博士必然是精通马列原理的……)
22.具体的做事方法就是术,做事的原理和原则就是道。追求术的人一辈子工作很辛苦,只有掌握了搜索的本质和精髓才能永远游刃有余。
23.建立一个搜索引擎大致需要做这样几件事情:自动下载尽可能多的网页;建立快速的索引;根据相关性对网页经行公平准确的排序。
24.今天每个搜索引擎都宣称自己如何聪明、多么智能,其实从根本上讲都没有逃出布尔运算的框框。
25.数学的发展实际上是不断抽象和概括的过程,这些抽象了的方法看似离生活原来越远,但是它们最终能找到适用的地方。
26.2003年,google工程师发明了mapreduce这个并行计算的工具。
27.全球导航的关键算法是计算机科学图论中的动态规划。
28.正确的数学模型可以将一个计算量看似很大的问题的计算复杂度大大降低,这便是数学的妙用。
29.美国人总会倾向于用机器代替人工完成任务。虽然在短期需要做一些额外的工作,但是从长远看可以节省很多时间和成本。
30.视频的匹配有俩个关键技术,关键帧的提取和特征的提取。
31.贝叶斯网络的拓扑结构比马尔可夫链灵活,它不受马尔可夫链的链状结构的约束,因此可以更准确的描述事件之间的相关性。可以讲,马尔可夫链是贝叶斯网络的特例,而贝叶斯网络是马尔可夫链的推广。
32.条件随机场是无向图,而贝叶斯网络是有向图。
33.维特比---他的财富来自于他将技术转换成商业的成功。
34.MapReduce的原理--将复杂的大问题分解成很多小问题分别求解,然后再把小问题的解合并成原始问题的解。
35.后记--世界上最好的学者总是可以深入浅出把大道理讲给外行听,而不是故弄玄虚把简单问题复杂化。(读者注:这是真理!!!)
标签:
原文地址:http://www.cnblogs.com/sfnz/p/4604997.html