【论文：麦克风阵列增强】Speech Enhancement Based on the General Transfer Function GSC and Postfiltering

时间：2017-06-07 00:39:08 阅读：480 评论：0 收藏：0 [点我收藏+]

标签：hone 介绍 diffuse pos blank ase logs one and

作者：桂。

时间：2017-06-06 16:10:47

链接：http://www.cnblogs.com/xingshansi/p/6951494.html

原文链接：http://pan.baidu.com/s/1i51Kymp

未完待续

前言

　　这篇文章是TF-GSC的改进版。虽然TF-GSC对于方向性干扰的抑制效果不错，对于弥散噪声（diffuse noise，题外话：不同方向directional noise的均值，或者接近这种效果，可以理解为diffuse noise.）TF-GSC性能下降明显，如果diffuse noise还是non-stationary，性能下降就更严重了。本文的思路是在TF-GSC的基础上，引入postfiltering（后置滤波）,文中提到了三种方法：两种基于single channel-1)mixture maximum;2）OMLSA;但如果噪声both diffused and nonstationary，基于single channel的方法不再适用，这时候方法3仍然有效：a new multimicrophone postfilter method。

　　本文主要梳理基于TF-GSC的multimicrophone postfilter method，因为基于single channel的两种方法都是单独使用，后面有时间另写文章整理。

一、OMLSA思想

　　A-利用不存在概率的增强

首先回顾利用absence probability的思路

技术分享

容易推理基于MMSE准则的估计器

技术分享

如果考虑语音存在概率，则估计器扩展为

技术分享

理论上技术分享的值为0，上式简化为

技术分享

　　B-语音不存在概率与最大似然准则估计器ML 结合

例如在语音增强一文中介绍的，基于最大似然准则的估计器为

技术分享

从Y的概率密度形式

技术分享

易知ML是基于语音存在的假设，结合语音存在概率，则基于ML准则的估计器为

技术分享

对于技术分享）的计算可以利用贝叶斯准则

技术分享

这里利用一个假设（也就是约束条件）：噪声服从均值为0，方差相同的复高斯分布。技术分享，此时容易证明噪声幅度服从瑞利分布（相位为均匀分布，且二者独立），

技术分享

H1假设下，技术分享此时

技术分享

关于技术分享的计算参考语音增强一文的最大似然估计。例如假设语音存在/不存在是等可能的，，此时完成了的估计：

技术分享

其中技术分享是a posteriori SNR，是a priori SNR。这个就是一般意义的参数估计了，在语音增强一文也给出了两个实现思路：1）Maximum-Likelihood Method;2）Decision-Directed Approach.至此也就完成了结合不存在概率的语音增强。

　　C-语音不存在概率与最小均方误差估计器MMSE 结合

其实基本思路都是一样的：

技术分享

然后是利用贝叶斯进行概率估计

技术分享

不同点在于这里进行了转化

技术分享

其中

技术分享

其中技术分享，denotes the a priori probability of speech absence for frequency bin k.从而

与ML准则不同的是，只有噪声时，是噪声D的分布，而不是其幅度（其实如果是幅度，也有一套方法，感兴趣可以自己推导推导）。技术分享仍是高斯分布

技术分享

H1时，技术分享且认为D与X不相关，易得

技术分享

代入上面的估计器，有

技术分享

其中技术分享就是，则.进一步求解条件概率

技术分享

其中

技术分享

参数估计的细节与ML中的估计思路一致。从而实现信号的增强：

技术分享

G就是MMSE估计器

技术分享

不同之处是里边的技术分享替换成。

题外话：看看之前的参数估计与此处参数估计的联系

即

不得不佩服，这些理论的研究者真有一套。

　　D-语音不存在概率与对数最小均方误差估计器Log-MMSE 结合（OMLSA）

原理与其他方法一致

技术分享

X的估计器

技术分享

可以进一步写为

技术分享

其中技术分享就是语音增强一文中的对数MMSE估计器。这里要有一点不同了，这里的概率是指数形式，有学者研究这样的增强效果并不比直接LSA更好，所以对其变形

技术分享

还是与其他方法类似：概率相乘的形式。这里的技术分享与MMSE中的一致。至此完成了LSA与语音不存在概率的结合。但这套理论比较粗糙，一些学者（原文见这里，P262）提出了不同的角度：只有噪声时，不再认为严格为0，而是接近0：

技术分享

其中技术分享，第一项就是最开始的LSA与语音存在概率的原始结合，这就是optimally modified log-spectrum amplitude (OMLSA) estimator ,即

技术分享

参数估计的改进（此处没写完，待补充）：

Implementation Issues Regarding A Priori Snr Estimation
Methods For Estimating The A Priori Probability Of Speech Absence

二、论文理论框架

麦克风接收的信号

技术分享

其中m代表第m个麦克，技术分享是TF的时域形式(acoustical transfer function,ATF),对应the stationary noise component，即稳态噪声，对应the transient noise component，即瞬态噪声。对应频域变换

技术分享

其中

技术分享

TF-GSC框架前文已经梳理，这里主要分析 the multimicrophone postfiltering：

技术分享

假设TF-GSC处理之后的信号为Y，则后处理操作

技术分享

其中

技术分享

[找时间再补充，明天要开会，就此打住，休息]

参考

Gannot, Sharon, and Israel Cohen. "Speech enhancement based on the general transfer function GSC and postfiltering." IEEE Transactions on Speech and Audio Processing 12.6 (2004): 561-571.
Loizou, Philipos C. Speech enhancement: theory and practice. CRC press, 2013.

【论文：麦克风阵列增强】Speech Enhancement Based on the General Transfer Function GSC and Postfiltering

标签：hone 介绍 diffuse pos blank ase logs one and

原文地址：http://www.cnblogs.com/xingshansi/p/6951494.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行