Spoken Language Processing读书笔记之Introduction

时间：2014-11-08 20:51:17 阅读：241 评论：0 收藏：0 [点我收藏+]

标签：des cWeb blog http io ar os 使用 sp

　　为了舒适地学习，我把背景颜色调成了浅绿色（色调：85，饱和度：123，亮度：205）。好了，现在进入正题——令人兴奋的自然语言处理之旅。

　　首先，非常感谢那些在Spoken Language Processing（以下简称为SLP）领域做出伟大贡献的科学家们，本书的前言部分提到了众多在该领域杰出的人物，他们为此付出了很多心血。

　　本书涉及到的知识点：

bubuko.com,布布扣

　　现在大部分电脑都是利用图形用户界面（GUI）实现人机交互，这些电脑缺乏人类基本的能力，如说话、倾听、理解与学习。语音将成为人机交互的其中一个主要方式，其在家庭、手机以及办公方面的应用都大大改变了人们的生活和工作方式。

　　那么，为什么要使用语音这种人机交互方式呢？

　　举三个方面的例子。

Spoken Language Interface：有时候我们想提高设备的音量，不得不通过各种复杂的操作，如寻找音频控制图标，设置音量等，如果用语音这种人机交互方式，我们就可以直接说“帮我提高音量到80%”就可以了；对于可穿戴设备来说，最重要的一点就是便携，我们不可能背着一个笨重的键盘，这时就可以用语音来处理如闹钟设置这种事情。
Speech-to-speech Translation：这个很容易理解，机器版本的同声传译，我坚信总有一天同声传译的同志们会转行的。
Knowledge Partners：看过《钢铁侠》的朋友应该对里面的人工智能管家Jarvis印象深刻，他可以回答你的问题并且处理一些日常事务。人工智能之父Alan Turing提出了一种叫做图灵测试（Turing test）的游戏。

　　既然语音这种人机交互方式那么有趣，那么与语音相关的SLP是怎么实现的？

　　SLP涉及到三个方面的技术：自动语音识别（以下简称为ASR）、文本转语音（以下简称为TTS）以及自然语言理解。ASR系统将语音转换为文本形式，TTS系统将文本转换为语音，自然语言理解系统将文本变成具体的操作。

　　ASR：全称是Automatic Speech Recognition，译作自动语音识别，简称语音识别。框图如Figure 1.1所示。

bubuko.com,布布扣

　　举个例子，有一天，闷骚的小明终于鼓起勇气打电话对隔壁女神小红表白了：“你造吗？我宣你恩久了”，此时此刻的小红正在天台上与男神约会，风很大，小红听不清小明说的话，只听到“你……洗（喜）很久了”，小红骂他流氓；小明莫名中枪，表个白都被骂流氓，还怎么活啊，于是又打了一个电话给同村小花寻求安慰，说了同样的话：“你造吗？我宣你恩久了”，小花正在愉快地抠脚，听到有人对她表白，她就愉快地答应了：“我知道啊，我也喜欢你很久了”，然后……没有然后了。

　　上面这个狗血的例子中，小明欲向小红表达的是他的仰慕之情，对应的是source-channel模型中的Text Generator，也就是单词序列 bubuko.com,布布扣 = “你知道吗？我喜欢你很久了”；当小明用他自认为很帅气的台湾偶像剧腔说出来的时候，就变成了“你造吗？我宣你恩久了”，对应的是Speech Generator，再加上风大的影响，通过Signal Processing后变成了语音序列 = “你……洗（喜）很久了”；女神小红根据她听到的单词序列 bubuko.com,布布扣 = “你……洗（喜）好久了”判断小明在耍流氓，证明和存在严重的偏差；与之不同的是，由于噪声较小，小花的听到的与偏差较小。

　　Figure 1.2展示的是一个典型的语音识别系统所包含的基本成分。

bubuko.com,布布扣

　　TTS：全称是Text-to-Speech，可以认为是ASR的反向过程，即将文本转换为与人类相似的语音，有时也称为语音合成（speech synthesis）。为了让声音变得自然，TTS系统仍需解决的是对句子进行适当的音调处理。

　　Figure 1.3描述的是一个TTS系统的基本系统架构：

bubuko.com,布布扣

　　自然语言理解系统比较复杂，涉及到的领域更为广泛。当用户想订机票、订餐时必须依赖这些公司的数据库，在数据库中搜索机票和餐桌空闲情况、价格等信息，并将结果反馈给用户。Figure 1.4展示的是自然语言理解系统的基本系统架构。　

bubuko.com,布布扣

　　这本书也是围绕上面三个技术进行介绍的，除此之外，在书的第一部分会介绍一些基本原理，第二部分会介绍语音处理的相关内容。

　　本书的Introduction部分就写到这了，接下来会详细分析上面这些技术的基本原理，敬请期待吧。

References: Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, Spoken Language Processing: A Guide to Theory, Algorithm and System Development 2001

欢迎交流，转载请注明出处：http://www.cnblogs.com/s5plus1/p/4083977.html

Spoken Language Processing读书笔记之Introduction