读《数学之美》有感

时间：2019-09-01 18:38:59 阅读：98 评论：0 收藏：0 [点我收藏+]

　　刚开始老师让我们看《数学之美》这本书我是表示很不理解的，因为我想又不是语文课，为什么要写读后感，又不是数学课为什么要看数学之美，但是看了之后，我才发现这本书真的很有用。

　　这让我联想到了我大一在实验室装的Moses基于统计的机器翻译系统，在每个机器翻译系统装完后，我们都需要测试BLEU值。BLEU值是用来判断两个句子的相似程度的，举一个简单的栗子：两个句子S1=I learn C++；S2：I learn Java；这两个句子的相似度就是2/3，分子是一个候选翻译的单词有多少出现在参考翻译中（不管是不是在同一句参考翻译中），分母是这个候选翻译的词汇数。为什么说不管是不是在同一句参考翻译中，这是因为BLEU是将一句机器翻译的话语相对应的几个参考翻译作比较，算出一个综合分数，因此不是与一句话相比较，而是与多句参考翻译相比较。为了避免常用词干扰，我们还用了改进的多元精度比较句中某词在每个参考翻译中出现的次数，在将比较得到的结果去最大的，得到最后的BLEU。

　　除此之外还利用了统计模型解决了中文的分词二义性问题，利用统计语言模型算出每种分词后的句子出现的概率，找出其中概率最大的就是最好的分词方法。这又让我联想到了，Moses的安装在Corpus Preparation的过程中。

Tokenize：在单词和标点符号之间插入空格。

Truecasing：每个句子中的单词都被转换为最可能的原型，这有助于减少数据的稀疏性。

cleaning：长句和空语句可引起训练过程中的问题，因此将其删除，同时删除显不对齐句子删除。

技术图片而在语料的预处理过程中，需要先将中文语料进行分词，便于之后利用GIZA++对平行语料进行对齐。