标签:des cWeb blog http io ar os 使用 sp
为了舒适地学习,我把背景颜色调成了浅绿色(色调:85,饱和度:123,亮度:205)。好了,现在进入正题——令人兴奋的自然语言处理之旅。
首先,非常感谢那些在Spoken Language Processing(以下简称为SLP)领域做出伟大贡献的科学家们,本书的前言部分提到了众多在该领域杰出的人物,他们为此付出了很多心血。
本书涉及到的知识点:
现在大部分电脑都是利用图形用户界面(GUI)实现人机交互,这些电脑缺乏人类基本的能力,如说话、倾听、理解与学习。语音将成为人机交互的其中一个主要方式,其在家庭、手机以及办公方面的应用都大大改变了人们的生活和工作方式。
那么,为什么要使用语音这种人机交互方式呢?
举三个方面的例子。
既然语音这种人机交互方式那么有趣,那么与语音相关的SLP是怎么实现的?
SLP涉及到三个方面的技术:自动语音识别(以下简称为ASR)、文本转语音(以下简称为TTS)以及自然语言理解。ASR系统将语音转换为文本形式,TTS系统将文本转换为语音,自然语言理解系统将文本变成具体的操作。
ASR:全称是Automatic Speech Recognition,译作自动语音识别,简称语音识别。框图如Figure 1.1所示。
举个例子,有一天,闷骚的小明终于鼓起勇气打电话对隔壁女神小红表白了:“你造吗?我宣你恩久了”,此时此刻的小红正在天台上与男神约会,风很大,小红 听不清小明说的话,只听到“你……洗(喜)很久了”,小红骂他流氓;小明莫名中枪,表个白都被骂流氓,还怎么活啊,于是又打了一个电话给同村小花寻求安 慰,说了同样的话:“你造吗?我宣你恩久了”,小花正在愉快地抠脚,听到有人对她表白,她就愉快地答应了:“我知道啊,我也喜欢你很久了”,然后……没有 然后了。
上面这个狗血的例子中,小明欲向小红表达的是他的仰慕之情,对应的是source-channel模型中的Text Generator,也就是单词序列 = “你知道吗?我喜欢你很久了”;当小明用他自认为很帅气的台湾偶像剧腔说出来的时候,就变成了“你造吗?我宣你恩久了”,对应的是Speech Generator,再加上风大的影响,通过Signal Processing后变成了语音序列 = “你……洗(喜)很久了”;女神小红根据她听到的单词序列 = “你……洗(喜)好久了”判断小明在耍流氓,证明和存在严重的偏差;与之不同的是,由于噪声较小,小花的听到的与偏差较小。
Figure 1.2展示的是一个典型的语音识别系统所包含的基本成分。
TTS:全称是Text-to-Speech,可以认为是ASR的反向过程,即将文本转换为与人类相似的语音,有时也称为语音合成(speech synthesis)。为了让声音变得自然,TTS系统仍需解决的是对句子进行适当的音调处理。
Figure 1.3描述的是一个TTS系统的基本系统架构:
自然语言理解系统比较复杂,涉及到的领域更为广泛。当用户想订机票、订餐时必须依赖这些公司的数据库,在数据库中搜索机票和餐桌空闲情况、价格等信息,并将结果反馈给用户。Figure 1.4展示的是自然语言理解系统的基本系统架构。
这本书也是围绕上面三个技术进行介绍的,除此之外,在书的第一部分会介绍一些基本原理,第二部分会介绍语音处理的相关内容。
本书的Introduction部分就写到这了,接下来会详细分析上面这些技术的基本原理,敬请期待吧。
References: Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, Spoken Language Processing: A Guide to Theory, Algorithm and System Development 2001
欢迎交流,转载请注明出处:http://www.cnblogs.com/s5plus1/p/4083977.html
Spoken Language Processing读书笔记之Introduction
标签:des cWeb blog http io ar os 使用 sp
原文地址:http://www.cnblogs.com/s5plus1/p/4083977.html