码迷,mamicode.com
首页 > 其他好文 > 详细

《数学之美》——第一章 个人笔记

时间:2018-04-24 20:19:36      阅读:152      评论:0      收藏:0      [点我收藏+]

标签:保留   fill   sso   基本原理   莎士比亚   不同的   src   世界末日   bsp   

                                数学之美

第一章    文字和语言 vs 数字和信息

1 信息

技术分享图片

通信的原理就是这三个步骤,本质上是一致的,只不过今天的实现形态发生了变化。更技术,更高大上了。

 

2 文字和数字

语言的越来越丰富,词汇的越来越多,人无法记住所有产生的词汇,所以文字就此诞生,是为了高效记录信息的诉求。

文字也如同语言最初一样,会慢慢的增长。因此,概念的第一次概括和归类就开始了。文中栗子:‘日‘本意是太阳 ;日初日落代表一天的时间周期,也就是一天。这种概念的聚类,在原理上与今天NLP或者ML的聚类有很大的相似性。

聚类可能会带来歧义,解决办法,就是通过上下文。但是上下文建立的概率模型再好,也有失灵的时候。这是语言从产生伊始就固有的特点。(有篇论文就是从微博上下文来讨论情感分析的。)

地域等因素的差异,导致文字的不同。但文明间需要交流通信,翻译的需求便由此产生。翻译这件事之所以能达成,仅仅是因为不同的文字系统在记录信息上的能力是等价的。

?文字只是信息的载体,而非信息本身(总感觉像个套话,哈哈)(数字作为载体,现代通信的基础)。

 

??作者通过石碑得到的两个指导意义很赞。

罗塞塔石碑上有三种语言:埃及象形文字,埃及的拼音文字,古希腊文。

技术分享图片

对NLP的两点指导意义:

①信息的冗余是信息安全的保障,同一内容保存三次,只要有一份完整保留,原始信息就不会丢失,对信道编码有指导意义。

②语言的数据,即语料(做个性化词典的预料?),尤其是双语或者多语的对照语料对翻译至关重要,它是我们从事机器翻译研究的基础。

 

与文字类似,数字则是物理资源多到爆炸,你要统计一下才知道的情况下诞生的。这里很有意思,?今天我们为什么用十进制,因为双手一共有十个指头掰(哈哈)。

十个不够用,进位制就出来了。这是人类的一大飞跃,对数量进行编码了。

技术分享图片

(玛雅二十进制,原来太阳纪是这么来的,世界末日?)中国人用‘’个十百千万亿兆‘’,比罗马的编码好多了。(我可以放心说罗马数字很蠢了= =!)

最有效的数字是古印度人发明的‘’阿拉伯数字‘’——0-10,世界通用,原来阿拉伯人=二道贩子!!!原谅我的无知。

?阿拉伯数字的革命性不仅在于它的简洁有效,而且标志着数字和文字的分离。这在客观上让自然语言的研究和数学在几千年里米有重合的轨迹,而且越走越远

 

3 文字和语言背后的数学

楔(xie)形文字——一种拼音文字,带到古希腊,古希腊文字母的拼写和读音紧密结合,容易学习,伴随着马其顿人和罗马人的扩张,随后成为了欧亚非大陆语言体系的主体。因此,所有西方的拼音文字称为罗马式的语言(Roman Languages)

象形文字到拼音文字的一个飞跃:对于常用字短,生僻字长,完全符合信息论中的最短编码原理

原来那时期的口语与今天的白话差别不大(岭南客家话居然基本上保留了古代口语的原貌),但没有纸张,古文就简洁(难刻,龟壳硬= =让我想到了大秦的云梦竹简那老哥—‘喜’),对我们现在人来说就难懂。所以符合今天信息科学(和工程)的一些基本原理,就是在通信时,如果信道较宽,信息不必压缩就可以直接传递;而如果信道很窄,信息在传递前需要尽可能地压缩,然后在接收端进行解压缩。文中用宽带互联网和移动互联网的例子讲的很通俗。

?文中的校验码——字母对应数字,数字组成’校验码’,可以进行检验。

文中有个关于语言学的:到底是语言对,还是语法对。NLP的成就确定了前者,作者还用了莎士比亚做说明。

 

《数学之美》——第一章 个人笔记

标签:保留   fill   sso   基本原理   莎士比亚   不同的   src   世界末日   bsp   

原文地址:https://www.cnblogs.com/NEWzyz/p/8932901.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!