标签:比较 连接 笔记 分析 inf 工业 图片 随机 出版社
语音信号处理要达到的一个目标,就是弄清楚语音中各个频率成分的分布。做这件事情的数学工具是傅里叶变换,但傅里叶变换要求输入信号是平稳的,而语音在宏观上来看是不平稳的(波形很不均匀)。语音信号特征是随时间变化而变化的,是一个非平稳的随机过程。但从微观上看,虽然语音信号具有时变特征,但在一个短时间内其特征基本保持不变(肌肉运动有惯性,从一个状态到到另一个状态的转变不可能瞬间完成),我们称之为语音的“短时平稳性”。所有对语音的分析和处理必须建立在“短时”的基础上,即对语音信号采用分段处理,每一段成为一帧。通常语音在10~30ms之内是保持相对平稳的,所以帧长一般取为10~30ms,截取后的每一帧信号,便可以做傅里叶变换了。
下图中这段语音的前三分之一和后三分之二明显不一样,所以整体来看语音信号不平稳。红框框出的部分是一帧,在这一帧内部的信号可以看成平稳的。
取出来的一帧信号,在做傅里叶变换之前,要先进行“加窗”的操作,即与一个“窗函数”相乘,如下图所示:
加窗的目的是让一帧信号的幅度在两端渐变到 0。渐变对傅里叶变换有好处,可以提高变换结果(即频谱)的分辨率。加窗的代价是一帧信号两端的部分被削弱了,没有像中央的部分那样得到重视。弥补的办法是,帧不要背靠背地截取,而是相互重叠一部分。相邻两帧的起始位置的时间差叫做帧移,常见的取法是取为帧长的一半,或者固定取为 10 毫秒。
对一帧信号做傅里叶变换,得到的结果叫频谱,它就是下图中的蓝线:
图中的横轴是频率,纵轴是幅度。频谱上就能看出这帧语音在 480 和 580 赫兹附近的能量比较强。语音的频谱,常常呈现出“精细结构”和“包络”两种模式。“精细结构”就是蓝线上的一个个小峰,它们在横轴上的间距就是基频,它体现了语音的音高——峰越稀疏,基频越高,音高也越高。“包络”则是连接这些小峰峰顶的平滑曲线(红线),它代表了口型,即发的是哪个音。包络上的峰叫共振峰,图中能看出四个,分别在 500、1700、2450、3800 赫兹附近。有经验的人,根据共振峰的位置,就能看出发的是什么音。对每一帧信号都做这样的傅里叶变换,就可以知道音高和口型随时间的变化情况,也就能识别出一句话说的是什么了。
标签:比较 连接 笔记 分析 inf 工业 图片 随机 出版社
原文地址:https://www.cnblogs.com/apak/p/8963620.html