标签:
原文地址:(2015-12-24)
http://www.npr.org/sections/alltechconsidered/2015/12/24/460743241/machines-lost-in-translation-the-dream-of-universal-understanding?utm_content=buffera952d&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer
早在1954年,科学家第一次公开发表一个可以在人类语言间翻译的机器。后来叫做Georgetown-IBM实验,即可以将句子从俄语翻译为英语的电子脑。
科学家相信全球的翻译器,一旦被开发出来,不仅给美国带来苏联边界的安全,也通过消除语言障碍提高世界和平。
他们也相信这个演变很快就要来临:乔治敦语言学家, Leon Dostert,他开始了与IBM建立者Thomas Watson的合作,他认为未来五年,甚至更少时间人们将会使用电子翻译工具在数个语言之间建立桥梁。
这个过程表明是相当慢的。(很慢,事实上,大约十年之后,这个研究的建立者发起了一个对于它缺少进展的调查。)而且超过60年后,一个真正的实时的全球翻译器——《星球大战》或《来自银河系漫游指南的宝贝鱼》里的la C-3PO仍然是科幻小说里的东西。
这个实现距离到底有多远?专家的意见不同。与很多机器学习的其他领域一样,它决定于电脑多快可以被训练能仿真人类的思想。
Vikram Dendi 说我们非常接近。
Dendi,微软研究院首席技术与策略顾问,跟所有技术者说“站在现在回顾过去,而且说我们真的将科幻小说变成了现实,这真的很酷”。
微软的翻译工作已经生产app,这些app除了实现很熟悉的文字转化为文字,还可以把声音转化为声音,把声音转化为文字。今年最大的推出是Skype Translator,这个记录你在视频聊天中说的话,而且目前可以把它们转变为几种语言的语音或者文字翻译。
微软,当然不是唯一一个。一个叫Voxox的公司做互联网电话聊天的,有一个文字到文字的翻译服务,应用在它的消息app里。谷歌,除了它很常见的文字翻译外,已经在它的翻译app里引进了一个特点,可以使用你的手机摄像机去扫描一个外国文字的图片而且显示出翻译。
促进机器大脑
在几十年来,跳转语言和技术障碍,科学家使用的技术方法众所周知的是神经网络方法,方法中机器被训练去仿真人类思考的方式——在本质上,创造一个我们大脑神经网络的人工版本。
神经元是神经细胞,可以被人类的环境,包括语言刺激。一个人在一个环境存在的时间越长,这个人的神经网络就变得越复杂。
在神经网络方法的帮助下,机器将每一个字转换为它最简单的表达——一个向量,相当于生物网络中的神经元,这个包括每个字的信息,也包括整个句子或文本的信息。机器学习的上下文中,神经网络科学已被开发多年,神经网络尝试越多的翻译,它能在有限的人工帮助的情况下,生产更多准确的结果。
蒙特利尔大学的研究神经网络的计算机科学教授说尽管机器现在可以跟人类一样方式地学习,它们仍面临一些限制。限制之一就是需求数据的绝对量——孩子学习需要的内容远没有机器学习需要的多。
掉队的语言
实现全球翻译器的过程的一个挑战是非常人性的一个。
一些语言,尽管被几百万人使用,但根本没有得到计算机科学一样多的关注。
例如Hausa豪萨语,是在西方和中非被5000万人使用的语言,但是被认为是一个低资源的语言,因为根本没有足够的翻译文件,让电脑科学家使用去线束机器学习。
一些科学家忧虑这些语言将会慢慢灭绝,在这个程度上,机器学习将不会起作用。
麻省理工学院的高级研究科学家 Jim Glass说“什么被覆盖,而且讲得通,是现在最大的语言。直到我们解决那个问题。C-3PO不会成为现实。”,他现在正在研究机器是否能够通过与真人互动学习语言。
在《星球大战》的宇宙中勤奋的 C-3PO机器人检测6百万种形式的沟通,Glass说”我们甚至不能做7000个“
直到那时,他不认为科学家可以真正地说他们很接近拥有一个全球翻译器了。——Anne Li
Bengio 说“机器翻译需要大量的计算和数据;没有任何意义”。但是神经网络方法有希望。它有潜力达到人类水平的表现。它专注于单词或对话的意义。
这个方法打破( builds off )过去机器翻译的方法。
早期,科学家教电脑翻译是通过手动输入每个他们想要翻译的语言对的规则。例如,在俄语中,一个名词后面跟个形容词,计算机要知道翻转它,才能在英语中把形容词仿真名词前面。
一个详细叙述了1954年Georgetown-IBM 试验的新闻稿说两个语言之间的翻译跟模拟导弹分型相比,需要更多的计算机说明。
面对每个语言对中众多的规则和例外,手动输入方法很快变得乏味。
1980年,科学家开始走向基于统计的模型。这个机器被反馈很多人工翻译的材料(例如,从联合国)还有他们自己标识的语言模式和规则。
南加州大学的自然语言研究教授Kevin Knight说在一个句子中出现很多次的单词是一个常见的焦点。“例如,通过学习一大集合的英语-西班牙语文档,每次计算机在西班牙语这边看见banco”,你在英语那边不是看见bank就是bench。“
电脑最终将推断每次它在西班牙语这边找到一个banco de,它可以从它的英语选项中消除bench,因为通常the bank of表示一个金融机构的名称。
测试神经网络
神经网络,在21世纪变成了机器翻译研究的一个流行工具,提高了翻译的质量。机器搜集每个单词更多的信息,而且进行更好的几率分析,来避免听起来不自然的翻译。
这个方法效果怎么样?我决定使用微软的 Skype Translator来做个尝试,这个内核是神经网络。
我通过Skype的视频聊天,连接到Microsoft‘s Olivier Fontana。Fontana用法语问候我,几秒后,一个男性机器人开始把他的声音翻译成英语。 为了加强,我带了NPR的居民(French pro) Caroline Kelly一起。 她说Skype似乎在进行英语->法语时比法语->英语更加流利。
最终,结果惊人地准确,特点是我们谈论关于那些典型的亲属间讨论的话题时,例如暑假的旅游计划。
对于任何的视频会议,这个翻译聊天依靠很给力的网络连接,这个帮助它在重复的ums和ahs中提取笑声和weeding。
翻译变得混乱的地方,我们那时在讨论或者尝试去讨论,Skype Translator背后的科学技术。这个机器拒绝区分对应于"hip-hop" 和"iPhone”的法语单词。
在一个声音到声音的翻译中处理口语,为机器翻译添加了另一层的复杂性,因为除了生产正确的结果,这个电脑也需要检测笑声,结巴,重复和口音。
但是,就像科学家说的,你使用机器翻译越多,它们就会变得越好。微软的 Dendi说“神经网络成为一个动量的创造者。”
Dendi说“没有它,Skype Translator仍然是一个科幻小说的梦想”。
换句话说,不能断言当电子大脑跟人脑一样的时候,机器翻译将会走到哪一步。
Machines, Lost In Translation: The Dream Of Universal Understanding(译)
标签:
原文地址:http://www.cnblogs.com/Qianqian-Dong/p/5093923.html