码迷,mamicode.com
首页 > 其他好文 > 详细

Spoken Language Processing读书笔记之Introduction

时间:2014-11-08 20:51:17      阅读:241      评论:0      收藏:0      [点我收藏+]

标签:des   cWeb   blog   http   io   ar   os   使用   sp   

  为了舒适地学习,我把背景颜色调成了浅绿色(色调:85,饱和度:123,亮度:205)。好了,现在进入正题——令人兴奋的自然语言处理之旅。

  首先,非常感谢那些在Spoken Language Processing(以下简称为SLP)领域做出伟大贡献的科学家们,本书的前言部分提到了众多在该领域杰出的人物,他们为此付出了很多心血。

  本书涉及到的知识点:

bubuko.com,布布扣

  现在大部分电脑都是利用图形用户界面(GUI)实现人机交互,这些电脑缺乏人类基本的能力,如说话、倾听、理解与学习。语音将成为人机交互的其中一个主要方式,其在家庭、手机以及办公方面的应用都大大改变了人们的生活和工作方式。

  那么,为什么要使用语音这种人机交互方式呢?

  举三个方面的例子。

  1. Spoken Language Interface:有时候我们想提高设备的音量,不得不通过各种复杂的操作,如寻找音频控制图标,设置音量等,如果用语音这种人机交互方式,我们就可以 直接说“帮我提高音量到80%”就可以了;对于可穿戴设备来说,最重要的一点就是便携,我们不可能背着一个笨重的键盘,这时就可以用语音来处理如闹钟设置 这种事情。
  2. Speech-to-speech Translation:这个很容易理解,机器版本的同声传译,我坚信总有一天同声传译的同志们会转行的。
  3. Knowledge Partners:看过《钢铁侠》的朋友应该对里面的人工智能管家Jarvis印象深刻,他可以回答你的问题并且处理一些日常事务。人工智能之父Alan Turing提出了一种叫做图灵测试(Turing test)的游戏。

  既然语音这种人机交互方式那么有趣,那么与语音相关的SLP是怎么实现的?

  SLP涉及到三个方面的技术:自动语音识别(以下简称为ASR)、文本转语音(以下简称为TTS)以及自然语言理解。ASR系统将语音转换为文本形式,TTS系统将文本转换为语音,自然语言理解系统将文本变成具体的操作。

  ASR:全称是Automatic Speech Recognition,译作自动语音识别,简称语音识别。框图如Figure 1.1所示。

bubuko.com,布布扣

   举个例子,有一天,闷骚的小明终于鼓起勇气打电话对隔壁女神小红表白了:“你造吗?我宣你恩久了”,此时此刻的小红正在天台上与男神约会,风很大,小红 听不清小明说的话,只听到“你……洗(喜)很久了”,小红骂他流氓;小明莫名中枪,表个白都被骂流氓,还怎么活啊,于是又打了一个电话给同村小花寻求安 慰,说了同样的话:“你造吗?我宣你恩久了”,小花正在愉快地抠脚,听到有人对她表白,她就愉快地答应了:“我知道啊,我也喜欢你很久了”,然后……没有 然后了。

  上面这个狗血的例子中,小明欲向小红表达的是他的仰慕之情,对应的是source-channel模型中的Text Generator,也就是单词序列bubuko.com,布布扣 = “你知道吗?我喜欢你很久了”;当小明用他自认为很帅气的台湾偶像剧腔说出来的时候,就变成了“你造吗?我宣你恩久了”,对应的是Speech Generator,再加上风大的影响,通过Signal Processing后变成了语音序列bubuko.com,布布扣 = “你……洗(喜)很久了”;女神小红根据她听到的单词序列bubuko.com,布布扣 = “你……洗(喜)好久了”判断小明在耍流氓,证明bubuko.com,布布扣bubuko.com,布布扣存在严重的偏差;与之不同的是,由于噪声较小,小花的听到的bubuko.com,布布扣bubuko.com,布布扣偏差较小。

  Figure 1.2展示的是一个典型的语音识别系统所包含的基本成分。

bubuko.com,布布扣

  TTS:全称是Text-to-Speech,可以认为是ASR的反向过程,即将文本转换为与人类相似的语音,有时也称为语音合成(speech synthesis)。为了让声音变得自然,TTS系统仍需解决的是对句子进行适当的音调处理。

  Figure 1.3描述的是一个TTS系统的基本系统架构:

bubuko.com,布布扣

  自然语言理解系统比较复杂,涉及到的领域更为广泛。当用户想订机票、订餐时必须依赖这些公司的数据库,在数据库中搜索机票和餐桌空闲情况、价格等信息,并将结果反馈给用户。Figure 1.4展示的是自然语言理解系统的基本系统架构。 

bubuko.com,布布扣

  这本书也是围绕上面三个技术进行介绍的,除此之外,在书的第一部分会介绍一些基本原理,第二部分会介绍语音处理的相关内容。

  本书的Introduction部分就写到这了,接下来会详细分析上面这些技术的基本原理,敬请期待吧。

 

References: Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, Spoken Language Processing: A Guide to Theory, Algorithm and System Development 2001

欢迎交流,转载请注明出处:http://www.cnblogs.com/s5plus1/p/4083977.html

Spoken Language Processing读书笔记之Introduction

标签:des   cWeb   blog   http   io   ar   os   使用   sp   

原文地址:http://www.cnblogs.com/s5plus1/p/4083977.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!