码迷,mamicode.com
首页 > 编程语言 > 详细

数学之美 第1章 文字和语言 vs 数字和信息

时间:2019-01-16 23:54:37      阅读:311      评论:0      收藏:0      [点我收藏+]

标签:image   上下文   ext   压缩   限制   文言文   center   text   color   

参考书籍:《数学之美》 吴军著

语言和数学的产生都是为了同一个目的:记录和传播信息

技术分享图片

1. 文字的起源:当语言和词汇积累到一定程度(记不住)的时候,产生了高效记录信息的需求——>文字。

2. 文字发展的阶段

  • 象形文字(物体的外表):《亚尼的死者之书》;象形文字增加到一定程度(记不住)的时候,概念开始进行概括和归纳,如日即可表示太阳,也可以表示一天(类比机器学习中的聚类);但是由于文字按照意思来聚类,会导致歧义性(文言文解读),通常借助上下文去除歧义
  • 楔形文字/拼音文字(抽象编码的概念):罗马体系文字中常用字短、生僻字长(汉语常用字笔画少,生僻字笔画多)——信息论最短编码原理

3. 翻译的起源:不同文明下的人们需要交流(通信)产生的需求

翻译成立的前提条件:不同的文字系统在记录信息的能力上时等价的。

罗塞塔石碑(三种语言记录)的破译带来的启示:

  • 文字本身的载体(石头或纸张等)不重要,所承载的信息才是最重要的(Information is what matters!)(信息本身的载体也不重要
  • 信息的冗余是信息安全的保障
  • 语言的数据(语料),尤其是双语或者多语的对照语料对翻译至关重要,是从事机器翻译的基础

4. 数字系统:记录物件的数量不断增多产生的需求(承载信息的工具

对数量进行编码:

  • 用不同的符号代表不同的数字概念,如中国人的个十百千万,罗马人的I、V等
  • 制定对应的解码规则,如中国数字的乘法(二百万=2*100*1000),罗马数字的加减法(IV =  V - I)

5. 口语和书面语

  • 日常的白话口语:通信信道宽(讲话快),信息无需压缩,直接传递
  • 精简文言文:通信信道窄(书写慢),信息需要压缩后传递

  注:日常话——>文言文(压缩)——>日常话(解压缩)

  类比视频传输:宽带互联网(宽带传输,高分辨率)和移动互联网(空中频道带宽限制,低分辨率)

6. 《圣经》的抄写:隐含了错误校验的原理

7. 语言和语法

  • 语法:语言的编码和解码规则
  • 语言:尽管词可以被认为是有限且封闭的集合,但是语言是无限和开放的集合

语言研究方法的争论

  • 语言对:从真实的语句文本(语料)出发——现有的自然语言处理方式
  • 语法对:从规则出发

数学之美 第1章 文字和语言 vs 数字和信息

标签:image   上下文   ext   压缩   限制   文言文   center   text   color   

原文地址:https://www.cnblogs.com/hg-love-dfc/p/10280021.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!