码迷,mamicode.com
首页 >  
搜索关键字:数学之美    ( 144个结果
《数学之美》——第四章 个人笔记
第四章 谈谈分词 1 中文分词方法的演变 最早的方法(北航):查字典,可以解决七八成问题,成本不高,效果还行。 随后(哈工大):最少词数的分词理论,即一句话应该分词数量最少的词串。不足之处在于二义性。 郭进(清华):统计语言模型方法,文中有详细的公式说明。就是对一句话可能有S种分法,其中有一种分法出 ...
分类:其他好文   时间:2018-04-24 20:22:27    阅读次数:194
《数学之美》——第五章 个人笔记
第五章 隐含马尔可夫模型 1 通信模型 通信的本质是一个编解码和传输的过程。 典型的通信系统: 包含雅格布森通信的六个要素:发送者(信息源),信道,接收者,信息,上下文和编码。 其中S1,S2,S3,... 表示信息源发出的信号,比如手机。O1,O2,O3,...是接收器接收到的信号。通信中的解码就 ...
分类:其他好文   时间:2018-04-24 20:20:49    阅读次数:152
《数学之美》——第一章 个人笔记
数学之美 第一章 文字和语言 vs 数字和信息 1 信息 通信的原理就是这三个步骤,本质上是一致的,只不过今天的实现形态发生了变化。更技术,更高大上了。 2 文字和数字 语言的越来越丰富,词汇的越来越多,人无法记住所有产生的词汇,所以文字就此诞生,是为了高效记录信息的诉求。 文字也如同语言最初一样, ...
分类:其他好文   时间:2018-04-24 20:19:36    阅读次数:152
《数学之美》——第三章 个人笔记
第三章 统计语言模型 1 用数学的方法描述语言规律 普遍描述:假定S表示某一个有意义的句子,由一连串特定顺序排列的词w1,w2,...,wn组成,(这里应该是特征列表)这里n是句子的长度。现在,我们想知道S在文本中出现的可能性,也就是数学熵上所说的S的概率P(S)。 马尔可夫假设后, 2 延伸阅读: ...
分类:其他好文   时间:2018-04-24 20:17:36    阅读次数:442
leveldb登山之路——bloom
一、什么是布隆过滤器        在数学之美中,有一章是关于布隆过滤器的讲解,内容如下。        在字处理软件中,一个英语单词是否拼写正确;在FBI中,一个嫌疑人的名字是否在嫌疑名单上;在网络爬虫里,一个网址是否已访问过,等等。最直接的方法就是将集合中
分类:数据库   时间:2018-04-13 12:06:41    阅读次数:289
【数学之美笔记】自然语言处理部分(一).md
文字、数字、语言 、信息 数字、文字和自然语言一样,都是信息的载体,他们的产生都是为了 记录和传播信息 。 但是貌似数学与语言学的关系不大,在很长一段时间内,数学主要用于天文学、力学。 本章,我们将回顾一下信息时代的发展,看语言学如何慢慢与数学联系起来的。 信息 最开始的时候,人类会用 声音 来传播 ...
分类:编程语言   时间:2018-04-07 20:00:04    阅读次数:376
文本查重算法SimHash
1.介绍 爬虫采集了大量的文本数据,如何进行去重?可以使用文本计算MD5,然后与已经抓取下来的MD5集合进行比较,但这种做法有个问题,文本稍有不同MD5值都会大相径庭, 无法处理文本相似问题。另一种方式是本文要介绍的SimHash,这是谷歌提出的一种局部敏感哈希算法,在吴军老师的《数学之美》里也有介 ...
分类:编程语言   时间:2018-03-21 15:03:37    阅读次数:161
《数学之美》读书记录【思维导图记录】:第四章,谈谈中文分词
...
分类:其他好文   时间:2018-03-17 19:49:38    阅读次数:198
《数学之美》读书记录:第一章【导图记录】
第一章只是一个入门介绍,主要作为引入,涉及: 通信的原理和信息传播的模型: 信源编码和最短编码: 解码的规则,语法 ...
分类:其他好文   时间:2018-03-10 00:19:25    阅读次数:157
数学之美 (第二版) pdf
下载地址:网盘下载 内容简介 · · · · · · 几年前,“数学之美”系列文章原刊载于谷歌黑板报,获得上百万次点击,得到读者高度评价。读者说,读了“数学之美”,才发现大学时学的数学知识,比如马尔可夫链、矩阵计算,甚至余弦函数原来都如此亲切,并且栩栩如生,才发现自然语言和信息处理这么有趣。在纸本书 ...
分类:其他好文   时间:2018-02-05 21:53:20    阅读次数:694
144条   上一页 1 2 3 4 5 6 ... 15 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!