1.EBMT方法1.1 传统的EBMT方法有五个步骤1、先将英文源篇章 分解 为 若干短句。然后再分为若干短语片段(分句)
2、将短语片段在一个英文实例库上进行匹配,得到包含该短语 且 语义最接近(需要语义词典) 的英文实例
3、确定该英文实例对应的中文翻译
4、将英文短语与翻译进行对齐(确定该短语的中文翻译)
5、将中文翻译重组为一个完整的句子(得到翻译结果)
2.句子提取2.1 目...
分类:
其他好文 时间:
2015-05-11 18:02:58
阅读次数:
615
直击现场 在机器翻译技术上,微软的 Skype 业务也算是行业内名列前茅。日前其实时口语翻译技术再次跃升一个台阶,新增了对中文(普通话)的翻译支持。 据美国科技新闻网站 TheVerge 报道,此前,Skype 已经实现了不同语种的人们在语音聊天时,提供实时的口语翻译。Skype 初期支持了英语.....
分类:
其他好文 时间:
2015-04-10 11:06:40
阅读次数:
188
预备知识
语言模型
[摘自 维基百科]
统计式的语言模型是借由一个概率分布,而指派概率给字词所组成的字串:
语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的概率变得很困难,这也是要使用近似的平滑n元语法...
分类:
编程语言 时间:
2015-04-06 15:45:25
阅读次数:
226
RT,蛋疼的MT实验~
伪代码请参见《统计机器翻译》中文版61页。
ps:输入只是参考了书上的例子——三个对齐句对~保证和书上输出的概率相同
该代码还没有经过大规模平行语料的检验。。后续有待优化~
输入:data.e
the house
the book
a book
data.f
das Haus
das Buch
ein Buch
python代码ibmModel1...
分类:
其他好文 时间:
2015-04-01 21:55:58
阅读次数:
335
错误原因: 未配置代理服务器设置的问题, 需要在配置节做如下操作.============================================文章编号: 318140 - 查看本文应用于的产品机器翻译查看机器翻译免责声明逐句中英文参照视图Microsoft 支持页面的机器翻译展开全部 |...
分类:
Web程序 时间:
2015-03-09 20:49:20
阅读次数:
117
将一种语言自动翻译成另一种语言一直以来都是难以攻克的问题。但最近几年,谷歌通过开发机器翻译算法改变了传统的翻译过程,通过谷歌翻译从本质上改变了跨文化翻译交流。
分类:
编程语言 时间:
2015-01-18 22:40:44
阅读次数:
308
本文介绍利用NiuTrans工具进行文白对译的步骤,默认用户已经安装NiuTrans,安装目录为NiuTrans/,以下相对路径基于此目录。文白对译模型训练步骤分为语料预处理、对齐、翻译模型训练、语言模型训练、参数调整四个阶段。一、语料预处理我们拿到的原始数据格式比较杂乱,需要做预处理,最终形成规则...
分类:
其他好文 时间:
2014-11-20 21:57:39
阅读次数:
388
自然语言从它产生开始,逐渐演变成一种上下文相关的信息表达和传递的方式,因此让计算机处理自然语言,一个基本的问题就是为自然语言这种上下文相关特性建立数学模型。这个数学模型就是自然语言处理中常说的统计语言模型,它是今天所有自然语言处理的基础,并且广泛应用与机器翻译、语音识别、印刷体和手写体识别、拼写纠错、汉字输入和文献查询。...
分类:
编程语言 时间:
2014-11-19 01:39:42
阅读次数:
306
自动摘要(利用计算机自动地从原始文献中提取文摘)指代消解语篇分析机器翻译形态学分割命名实体识别自然语言生成自然语言理解光学字符识别标注词性解析问答关系提取破句(又称句界歧义)情感分析语音识别语音分割主题分割与识别分词词义消歧信息检索信息抽取语音处理
分类:
其他好文 时间:
2014-11-16 22:51:19
阅读次数:
202
本文是在Niutrans论坛中的系列教程中总结出来的。1、语料预处理预处理的结果是生成双语分词之后的文件,该步需要注意的是对规则短语,比如数字、日期、网址等,进行泛化处理。可以用正则方法或者其它方法。注意日期中的点和外文人名中的点和网址中的点和句末标点要区分开来,数字和日期也要区分开来。其中变化比较...
分类:
其他好文 时间:
2014-11-04 10:56:25
阅读次数:
216