语音笔记：时域分析

时间：2018-04-27 19:56:02 阅读：129 评论：0 收藏：0 [点我收藏+]

　　语音信号处理要达到的一个目标，就是弄清楚语音中各个频率成分的分布。做这件事情的数学工具是傅里叶变换，但傅里叶变换要求输入信号是平稳的，而语音在宏观上来看是不平稳的（波形很不均匀）。语音信号特征是随时间变化而变化的，是一个非平稳的随机过程。但从微观上看，虽然语音信号具有时变特征，但在一个短时间内其特征基本保持不变（肌肉运动有惯性，从一个状态到到另一个状态的转变不可能瞬间完成），我们称之为语音的“短时平稳性”。所有对语音的分析和处理必须建立在“短时”的基础上，即对语音信号采用分段处理，每一段成为一帧。通常语音在10~30ms之内是保持相对平稳的，所以帧长一般取为10~30ms，截取后的每一帧信号，便可以做傅里叶变换了。

　　下图中这段语音的前三分之一和后三分之二明显不一样，所以整体来看语音信号不平稳。红框框出的部分是一帧，在这一帧内部的信号可以看成平稳的。

技术分享图片

　　取出来的一帧信号，在做傅里叶变换之前，要先进行“加窗”的操作，即与一个“窗函数”相乘，如下图所示：

技术分享图片

　　加窗的目的是让一帧信号的幅度在两端渐变到 0。渐变对傅里叶变换有好处，可以提高变换结果（即频谱）的分辨率。加窗的代价是一帧信号两端的部分被削弱了，没有像中央的部分那样得到重视。弥补的办法是，帧不要背靠背地截取，而是相互重叠一部分。相邻两帧的起始位置的时间差叫做帧移，常见的取法是取为帧长的一半，或者固定取为 10 毫秒。

　　对一帧信号做傅里叶变换，得到的结果叫频谱，它就是下图中的蓝线：

技术分享图片

　　图中的横轴是频率，纵轴是幅度。频谱上就能看出这帧语音在 480 和 580 赫兹附近的能量比较强。语音的频谱，常常呈现出“精细结构”和“包络”两种模式。“精细结构”就是蓝线上的一个个小峰，它们在横轴上的间距就是基频，它体现了语音的音高——峰越稀疏，基频越高，音高也越高。“包络”则是连接这些小峰峰顶的平滑曲线（红线），它代表了口型，即发的是哪个音。包络上的峰叫共振峰，图中能看出四个，分别在 500、1700、2450、3800 赫兹附近。有经验的人，根据共振峰的位置，就能看出发的是什么音。对每一帧信号都做这样的傅里叶变换，就可以知道音高和口型随时间的变化情况，也就能识别出一句话说的是什么了。

参考：

《语音与信号处理》第三版哈尔滨工业大学出版社

知乎王赟 Maigo

语音笔记：时域分析

标签：比较连接笔记分析 inf 工业图片随机出版社

原文地址：https://www.cnblogs.com/apak/p/8963620.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行