码迷,mamicode.com
首页 > 其他好文 > 详细

语音笔记:时域分析

时间:2018-04-27 19:56:02      阅读:129      评论:0      收藏:0      [点我收藏+]

标签:比较   连接   笔记   分析   inf   工业   图片   随机   出版社   

  语音信号处理要达到的一个目标,就是弄清楚语音中各个频率成分的分布。做这件事情的数学工具是傅里叶变换,但傅里叶变换要求输入信号是平稳的,而语音在宏观上来看是不平稳的(波形很不均匀)。语音信号特征是随时间变化而变化的,是一个非平稳的随机过程。但从微观上看,虽然语音信号具有时变特征,但在一个短时间内其特征基本保持不变(肌肉运动有惯性,从一个状态到到另一个状态的转变不可能瞬间完成),我们称之为语音的“短时平稳性”。所有对语音的分析和处理必须建立在“短时”的基础上,即对语音信号采用分段处理,每一段成为一帧。通常语音在10~30ms之内是保持相对平稳的,所以帧长一般取为10~30ms,截取后的每一帧信号,便可以做傅里叶变换了。

  下图中这段语音的前三分之一和后三分之二明显不一样,所以整体来看语音信号不平稳。红框框出的部分是一帧,在这一帧内部的信号可以看成平稳的。

技术分享图片

  

  取出来的一帧信号,在做傅里叶变换之前,要先进行“加窗”的操作,即与一个“窗函数”相乘,如下图所示:

技术分享图片

  加窗的目的是让一帧信号的幅度在两端渐变到 0。渐变对傅里叶变换有好处,可以提高变换结果(即频谱)的分辨率。加窗的代价是一帧信号两端的部分被削弱了,没有像中央的部分那样得到重视。弥补的办法是,帧不要背靠背地截取,而是相互重叠一部分。相邻两帧的起始位置的时间差叫做帧移,常见的取法是取为帧长的一半,或者固定取为 10 毫秒。

  对一帧信号做傅里叶变换,得到的结果叫频谱,它就是下图中的蓝线:

技术分享图片

  

  图中的横轴是频率,纵轴是幅度。频谱上就能看出这帧语音在 480 和 580 赫兹附近的能量比较强。语音的频谱,常常呈现出“精细结构”和“包络”两种模式。“精细结构”就是蓝线上的一个个小峰,它们在横轴上的间距就是基频,它体现了语音的音高——峰越稀疏,基频越高,音高也越高。“包络”则是连接这些小峰峰顶的平滑曲线(红线),它代表了口型,即发的是哪个音。包络上的峰叫共振峰,图中能看出四个,分别在 500、1700、2450、3800 赫兹附近。有经验的人,根据共振峰的位置,就能看出发的是什么音。对每一帧信号都做这样的傅里叶变换,就可以知道音高和口型随时间的变化情况,也就能识别出一句话说的是什么了。


参考:
《语音与信号处理》 第三版  哈尔滨工业大学出版社
 知乎 王赟 Maigo

语音笔记:时域分析

标签:比较   连接   笔记   分析   inf   工业   图片   随机   出版社   

原文地址:https://www.cnblogs.com/apak/p/8963620.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!