工程科学与技术   2022, Vol. 54 Issue (2): 180-187
加性频域分解的生成对抗网络语音去混响
全海燕, 王涛, 郑志清     
昆明理工大学 信息工程与自动化学院,云南 昆明 650500
基金项目: 国家自然科学基金项目(41364002;61861023)
摘要: 混响语音信号包括由路径延迟效应引起的不同频率分量,这些频率分量在频域中进行相关调制。为了降低混响语音在频谱中的高相关性,提出了一种基于加性频域分解的改进生成对抗网络(generative adversarial network,GAN)算法。首先,对混响语音的短时幅度谱进行对数运算,将调制的混响语音幅度谱转换为线性幅度谱,从而对卷积的语音分量进行分解;然后,通过sigmoid非线性函数进行归一化以平衡数据分布,再将解调后的幅度谱应用于深度全卷积网络以训练GAN模型;最后,基于生成模型和判别模型的对抗性学习机制,可以有效学习混响语音和声源语音的分布多样性,指导生成模型更精确地重构增强语音。采用Aishell中文语音数据集进行算法性能验证,分别比较了GAN、FCN和DNN模型有(或无)加性频域分解的去混响性能,并通过语谱图的差异来证明所提方法的有效性。实验结果表明,在4种不同的混响时间参数下,采用加性频域分解的GAN、FCN和DNN模型的PESQ、STOI、LSD评价分数比没有加性频域分解的提高了10%左右。因此,加性频域分解在用于语音去混响时可以有效提高GAN的性能。同时,在非同源测试集下也具有较好的泛化能力。
关键词: 语音去混响    对数运算    加性频域分解    生成对抗网络    
Speech Dereverberation Based on Generative Adversarial Network with Additive Frequency Domain Decomposition
QUAN Haiyan, WANG Tao, ZHENG Zhiqing     
School of Info. Eng. and Automation, Kunming Univ. of Technol., Kunming 650500, China
Abstract: The reverberant speech signal includes different frequency components induced by the effect of path delay. The frequency components are correlatedly modulated in frequency domain. In order to reduce the high correlation of reverberant speech in the spectrum, an improved generative adversarial network (GAN) algorithm based on additive frequency domain decomposition was proposed. Firstly, the short-time amplitude spectrums of the reverberant speech were processed with the logarithmic operation, by which the modulated amplitude spectrums of reverberant speech were converted into the linear ones, and then the convolved speech components were decomposed. After normalized by the sigmoid nonlinear function to balance the data distribution, the demodulated amplitude spectrums were applied to a deep fully convolutional network to train a GAN model. Finally, based on the adversarial learning mechanism of the generative model and the discriminative model, the distribution diversity of the reverberant speech and the source speech were effectively learned, and the enhanced speech signal was accurately reconstructed with the generative model. In experiments, the Chinese speech data set of Aishell was used to test the performance of the proposed algorithm. The dereverberation performances of GAN, FCN, and DNN with (or without) additive frequency domain decomposition were respectively compared and demonstrated by the difference of spectrograms. Experimental results showed that under four different reverberation time parameters, the PESQ, STOI, and LSD’s evaluation scores of GAN, FCN, and DNN with additive frequency domain decomposition are about 10% higher than the ones without additive frequency domain decomposition. In conclusion, the additive frequency domain decomposition can effectively improve the performance of GAN in speech dereverberation application. Generally, the algorithm can be also applied to the non-homologous speech dereverberation.
Key words: speech dereverberation    logarithmic operation    additive frequency domain decomposition    generative adversarial network    

混响是一种常见的自然现象,适度混响能使声音更加饱满立体,但过度混响则有损声音质量,降低可懂度。混响是由声源语音与房间冲激响应(room impulse response, RIR)在时域上卷积产生的,因此,其在时、频域上都存在较高的相关性,这种高相关性在很大程度上制约了现有去混响方法的性能。

深度学习为语音去混响指出了新的研究方向[1]。目前,基于深度学习的去混响方法主要使用频谱映射和时频(time–frequency, T–F)掩蔽[2-3]两种原理。Han等[4-5]通过构建多隐藏层的神经网络将混响语音幅度谱与声源语音幅度谱相映射,能有效抑制混响干扰,但这种映射方式受浅层网络结构和损失函数的影响很难获得更精确的声源语音幅度谱。Williamson[6]、Wang[7]等通过T–F掩蔽的方式,利用深度神经网络(deep neural networks, DNN)训练混响语音幅度谱实、虚部的复数理想比值掩码,再与混响语音频谱相乘来获得声源语音,能提升去混响语音的可懂度,但对于相关性较高的部分仍无法有效抑制混响。Wang等[8-9]利用DNN对多麦克风复合频谱进行映射,会比使用单个通道有明显的改进,但这种方式在实际应用场景中耗费较多硬件资源。由于DNN特征提取能力有限,Ernst等[10]利用全卷积神经网络(fully convolutional network, FCN)[11]来对混响语音频谱进行特征提取,学习到更多声源语音特征,有助于频谱的重构,然而卷积网络也没有去相关的能力。此外,Zhao[12]、Wang[13]等将图形处理中重要的注意力机制应用于去混响处理,在训练过程中能对频带信息间的相关性进行建模,提升模型对声源语音幅度谱的映射能力,该方法虽考虑到相关性的问题,但其可解释性较差。Wu等[14]通过优化语音帧中的帧移位大小和DNN输入的声学上下文窗口大小来获得较好的去混响效果,该方法对于未知混响时间有较好的适用性,但也没有从数据角度上去解决相关性问题。刘斌等[15]采用的联合长短时记忆递归神经网络对混响语音的对数功率谱进行映射,虽能学习上下文的关联,但仍然是对网络模型进行改变。因此,对于降低数据本身层面的相关性研究还较少,这也是制约后续神经网络特征提取性能提升的重要因素。

基于上述问题,本文提出了一种加性频域分解模型的生成对抗网络(GAN) 语音去混响算法。首先,以预先降低混响语音数据本身的相关性为目的,在数据处理阶段引入对数运算,将声源语音与RIR在频域中的乘性关系转换为加性关系,从而实现加性分解;然后,采用GAN[16]对混响中的高维特征分布进行学习,使GAN输出RIR的对数幅度谱估计,再通过简单的减法运算,可有效提高去混响语音的整体质量。

1 加性频域分解模型的去混响原理 1.1 混响数学模型

声音经天花板、墙壁等反射吸收,其幅度和相位产生变化,最后直达声音与反射声音叠加形成混响,其生成过程为:

$ {\,\;\;\;\;\;\;y(t) = \sum\limits_{\tau = 0}^T {h(\tau )} s(t - \tau ) + n(t) = h(t) * s(t) + n(t) } $ (1)

式中,s(t)为声源语音,h(t)为RIR,n(t)为加性噪声,y(t)为混响语音, $ t $ 为总采样时间, $ \tau $ 为卷积过程中中间时刻,“*”表示线性卷积,T为RIR的长度。

由于主要研究混响问题,因此忽略加性噪声的影响,式(1)可简化为:

$ y(t) = h(t) * s(t) $ (2)

式中,h(t)主要受混响时间(reverberation time, RT)影响,RT60表示声源停止发声后,声压衰减60 dB所需要的时间[17],一般在200~1 000 ms内。后文出现的混响时间均为RT60,RT60与房间墙面衰减系数和房间大小等因素有关,其数学公式为:

$ {\text{RT}}_{60}=\frac{0.16\cdot V}{A} $ (3)

式中: $ {\text{R}}{{\text{T}}_{60}} $ 为混响时间; $ A $ 为总吸声量, $ A={\displaystyle \sum _{i=1}^{6}{S}_{i}\cdot{\alpha }_{i}} $ ,其中, $ {S_i} $ 为各墙面面积, $ {\alpha _i} $ 为各墙面吸声系数; $ V $ 为房间体积;“·”为乘法运算。

图1为采用镜像源模型(image–source model, ISM)[18]模拟得到的RIR示意图。

图1 房间冲激响应样例 Fig. 1 Example of RIR

图1展示了镜面反射原理模拟声音在房间内的反射轨迹和能量衰减过程[19]图1中,幅值为1处为直达路径响应,其余各处幅值因能量衰减而逐渐减小。

1.2 加性频域分解去混响模型

基于T–F掩蔽的语音去混响方法通过混响语音的幅度谱值乘以掩蔽估计值来得到去混响语音幅度谱。采用短时傅里叶变换(short-time Fourier transform, STFT)将式(2)转换到频域上为:

$ \boldsymbol{Y}(t,f)=\boldsymbol{H}(t,f)\cdot \boldsymbol{S}(t,f) $ (4)

式中, ${{\boldsymbol{H}}}(t,f) \ne 0$ 。进一步变换式(4)可得:

${\;\;\;\;\;\;\;\;\;\; \boldsymbol{S}(t,f)=\boldsymbol{Y}(t,f)\cdot \dfrac{1}{\boldsymbol{H}(t,f)}\text=\boldsymbol{Y}(t,f)\cdot \boldsymbol{G}(t,f) }$ (5)

式中, ${{\boldsymbol{Y}}}(t,f)$ ${{\boldsymbol{S}}}(t,f)$ ${{\boldsymbol{G}}}(t,f)$ 分别为混响语音短时幅度谱、声源语音短时幅度谱和RIR短时幅度谱倒数(或称为RIR增益),tf分别为帧数和频点。在T–F掩蔽中,掩蔽估计值与混响语音幅度谱相乘正好符合式(5)在频域下的去混响原理。因此,在混响处理过程中计算掩蔽估计值就等同于计算RIR增益,物理意义相当于获得一个RIR逆滤波器,从而实现去相关,但受算法限制,并不能精确获得RIR增益。受加性噪声启发,对式(4)做对数运算,从而进行加性分解,变换如下:

${\;\;\;\;\;\;\;\;\;\;\; \lg {\boldsymbol{Y}}(t,f) = \lg {\boldsymbol{H}}(t,f) + \lg {\boldsymbol{S}}(t,f) }$ (6)

进一步变换式(6)可得:

${\;\;\;\;\;\;\;\;\;\;\; \lg {\boldsymbol{S}}(t,f) = \lg {\boldsymbol{Y}}(t,f) - \lg {\boldsymbol{H}}(t,f) }$ (7)

式中,对等式两边各信号的短时幅度谱做对数运算,从而分别提取出各信号对应的短时对数幅度谱。式(7)的物理意义是利用同态处理进行解相关,将复杂的乘性关系转换为加性关系,不仅能降低整个算法复杂度,更能直接提供弱相关性的数据便于后续网络进行特征提取。

2 加性频域分解模型的语音去混响 2.1 生成对抗网络去混响框架

加性频域分解下的去混响框架如图2所示。图2中,主要包含数据预处理、GAN训练、语音重构3部分。其中:在取对数操作后,采用sigmoid函数将短时对数幅度谱数据归一化到[0,1],此操作能进一步消除奇异值对整体数据的影响。在取指数前,需先采用sigmoid反函数对输出数据逆处理,然后结合混响语音相位谱进行短时傅里叶逆变换(inverse short-time Fourier transform, ISTFT),得到去混响语音。

图2 加性频域分解下的去混响原理框图 Fig. 2 Block diagram of dereverberation under additive frequency domain decomposition

2.2 深度全卷积生成对抗网络去混响原理

本文采用FCN来构建GAN中的生成模型(G)和判别模型(D)的网络结构,整体系统模型如图3所示。

图3 深度全卷积生成对抗网络语音去混响结构图 Fig. 3 Structure diagram of speech dereverberation based on deep full convolutional GAN

图3中,G网络由卷积和反卷积两部分构成。卷积阶段采用多个卷积层逐层提取混响语音对数幅度谱的高维特征;反卷积阶段则利用多个反卷积层对高维特征进行恢复。但网络引入了跳跃连接结构,因此,每层输入不仅来源于上层输出,还包含卷积阶段对应的各层输出,该结构能提供更多的细节信息。每层输出前均采用带泄漏修正线性单元(leakyReLU)[20]作为激活函数,最后一层输出采用Tanh激活函数,将估计值映射到[–1,1]。其G网络结构如图4所示。

图4 生成模型(G)结构图 Fig. 4 Architecture of G

D为一个二分类网络,与G的卷积阶段类似,差异在于其最后一层采用全连接层,并使用sigmoid作为输出层激活函数。此外,为提升整个系统训练的稳定性,在输入前添加了一些噪声 $ {\boldsymbol z} $ 来提高D的训练难度,有利于克服D学习能力太强而抑制G学习的矛盾。

2.3 对抗损失函数

对抗损失函数是决定网络性能好坏的关键,用于描述G和D之间的博弈过程。由于原始GAN采用的交叉熵损失函数在实际使用中会出现训练不稳定等问题,因此,采用Mao等[21]提出的最小二乘损失函数作为本文方法的损失函数,结合式(7),令 ${{\boldsymbol{\hat S}}} = \lg {\text{ }}{{\boldsymbol{S}}}(t,f)$ ${{\boldsymbol{\hat Y}}} = \lg {\text{ }}{{\boldsymbol{Y}}}(t,f)$ ,得:

$ \begin{aligned}[b] \mathop {\min }\limits_D V(D) =& \dfrac{1}{2}{{\rm E}_{{\hat {\boldsymbol S}}~{p_{{\text{data}}}}({\hat {\boldsymbol S}}),\boldsymbol{ z}~{p_{{\text{data}}}}(\boldsymbol{z})}}[{(D({{\boldsymbol{\hat S}}},\boldsymbol{z}) - 1)^2}] + \\ & \dfrac{1}{2}{{\rm E}_{{{\boldsymbol{\hat Y}}}~{p_{{\text{data}}}}({{\boldsymbol{\hat Y}}}),\boldsymbol{z}~{p_{{\text{data}}}}({\boldsymbol{z}})}}[D{({{\boldsymbol{\hat Y}}} - G({{\boldsymbol{\hat Y}}}),\boldsymbol{z})^2}] \end{aligned} $ (8)
$ \begin{aligned} \mathop {\min }\limits_G V(G) = \dfrac{1}{2}{{\rm E}_{{\hat {\boldsymbol Y}}~{p_{{\text{data}}}}({\hat {\boldsymbol Y}}),\boldsymbol{z}~{p_{{\text{data}}}}(\boldsymbol{z})}}[(D({{\boldsymbol{\hat Y}}} - G({{\boldsymbol{\hat Y}}}),\boldsymbol{z}) - 1{)^2}] \\ \end{aligned} $ (9)

式中, $ {P_{{\text{data}}}} $ 为数据分布,E为在 $ {P_{{\text{data}}}} $ 下误差的期望, $ G( \cdot ) $ $ D( \cdot ) $ 分别为G网络和D网络的函数, $ {\boldsymbol z} $ 为服从正态分布N(0,1)的随机噪声矩阵。

此外,由于GAN训练难度高,极难训练出稳定模型,所以,在损失函数V(G)中引入L1正则项来防止过拟合并加快网络收敛,由超参数λ控制,计算生成数据与目标数据差的绝对值。Ernst等[10]也验证了添加L1正则项的有效性。则式(9)修改为:

$ \begin{aligned}[b] \mathop {\min }\limits_G V(G) = & \frac{1}{2}{{\rm E}_{{\hat {\boldsymbol Y}}~{p_{{\text{data}}}}({\hat {\boldsymbol Y}}),\boldsymbol{z}~{p_{{\text{data}}}}(\boldsymbol{z})}}[(D({{\boldsymbol{\hat Y}}} - G({{\boldsymbol{\hat Y}}}),\boldsymbol{z}) - 1{)^2}]{\text{ + }}\\& \lambda \left\| {\left({{\boldsymbol{\hat Y}}} - G\left({{\boldsymbol{\hat Y}}}\right)\right) - {{{\boldsymbol{\hat S}}}}} \right\| \\[-10pt] \end{aligned} $ (10)
2.4 具体算法

加性频域分解下的去混响算法中主要包含前期的加性分解和后期的网络训练两部分。具体伪代码为:

算 法  加性频域分解下的去混响算法

输入:混响语音 $ y(t) $ 、声源语音 $ s(t) $ 、最大迭代次数N

输出:去混响语音 $\tilde s(t)$

1. 计算混响语音短时幅度谱和相位谱: $ ({\boldsymbol Y}(t,f), $ $ \varphi (t,f)) \leftarrow {\rm STFT}(y(t)) $

2. 计算声源语音短时幅度谱: ${{\boldsymbol{S}}}(t,f) \leftarrow {\rm STFT}(s(t)) \text{;}$

3. 根据式(6)进行加性分解: ${{\boldsymbol{\hat Y}}} \leftarrow \lg ({{\boldsymbol{Y}}}(t,f)); {{\boldsymbol{\hat S}}} \leftarrow$ $ \lg ({{\boldsymbol{S}}}(t,f)) $

4. for epoch=1 to N do

5. 根据式(7)转换得: ${{\boldsymbol{\widetilde S}}} \leftarrow {{\boldsymbol{\hat Y}}} - G({{\boldsymbol{\hat Y}}})$

6. 根据式(8)更新D的网络参数: ${\nabla _{{\theta _{\rm D}}}}\dfrac{1}{m}\displaystyle\sum\limits_{i = 1}^m {[{{(D({{\boldsymbol{\widetilde S}}}}}},$ ${\boldsymbol{z}}) - 1)^2 + D{{({{\boldsymbol{\widetilde S}}},{\boldsymbol{z}})}^2}]$

7. 根据式(10)更新G的网络参数: ${\nabla _{{\theta _{\rm G}}}}\dfrac{1}{m}\displaystyle\sum\limits_{i = 1}^m{[{{(D({{\boldsymbol{\widetilde S}}}}}},$ ${\boldsymbol{z}}) - 1)^2]{\text{ + }}\lambda ({{\boldsymbol{\widetilde S}}} - {{\boldsymbol{\hat S}}})$

8. end for

9. ${{\boldsymbol{\widetilde S}}}(t,f) \leftarrow 10^{ {{\boldsymbol{\widetilde S}}}}$

10. 重构去混响语音: $\tilde s(t) \leftarrow {\rm ISTFT}({{\boldsymbol{\widetilde S}}}(t,f),{{\boldsymbol{\varphi}} }(t,f)) 。$

算法中, $ {\nabla _{{\theta _{\rm D}}}} $ $ {\nabla _{{\theta _{\rm G}}}} $ 分别为对G和D的网络参数θGθD进行梯度更新,STFT和ISTFT对应短时傅里叶变换函数及其逆变换函数, ${{\boldsymbol{\hat Y}}}$ ${{\boldsymbol{\hat S}}}$ 分别为混响语音和声源语音的对数幅度谱, ${{\boldsymbol{\varphi}} }$ 为混响语音的相位谱, ${{\boldsymbol{\widetilde S}}}$ 为去混响语音幅度谱。实际训练时,步骤6、7交叉训练,即更新D参数时,固定G参数不变;更新G参数时,固定D参数不变。

3 仿真实验及结果分析 3.1 数据集和评价指标

本文采用Aishell中文语音数据集[22]进行仿真实验。该数据集总时长178 h,共400个说话人,每人大约讲350句话。首先选取500句语音作为训练数据,由数据集中随机选取10人(男女各半),每人各50句话构成。同时为验证本文方法的泛化能力,构建两类测试语音:一类是从训练语音的10人中每人分别提取10句话(与训练语音不重叠)构成100句同源测试语音;另一类是从数据集中重新选取10位说话人,每人10句话构成100句非同源测试语音。然后分别与200、400、600、800 ms混响时间下的RIR卷积获得训练和测试数据集(包括同源测试集和非同源测试集)。

选取3种语音评价指标:1)语音质量感知评估(perceptual evaluation of speech quality, PESQ)[23],指计算语音的感知质量,其值越大越好;2)短时客观可懂度(short-time objective intelligibility, STOI)[24],指计算语音的可懂度,其值在[0,1]之间,越大则表示可懂度越高;3)对数谱距离(log-spectral distance, LSD)[25],指计算语音的频谱差距,其值越小谱失真越小,频谱质量就越高。

3.2 实验设置

训练前,对训练集和测试集采用8 kHz下采样,降低网络复杂度和计算量。分帧时,采用Hamming窗,帧长为32 ms,帧移为8 ms,并对每帧信号进行256点的STFT;再取以10为底的对数获得短时对数幅度谱;最后采用sigmoid函数将数据映射到[0,1]。语谱图分割时,每32帧为一个输入,则输入尺寸为129×32,各输入之间重叠22帧。

表1为采用ISM模型获得不同RT60下RIR的房间参数设置,根据式(3)计算出对应的RT60为200、400、600、800 ms。GAN中G的网络参数设置如表2所示,D同G的卷积阶段网络设置类似。

表1 不同RT60下的房间参数设置 Tab. 1 Setting of room parameters under different RT60

表2 G中各网络参数设置 Tab. 2 Setting of network parameters in G

训练时,采用RMSprop优化算法[26],训练批次设置为50,批处理大小为32,G的学习速率为0.001,D的学习速率为0.000 1。此外,为使得L1正则项与G的损失函数在同一个数量级上,将式(10)中超参数λ设置为500,这是经多次实验后确定的最优取值。若λ太小,网络仍容易发生过拟合;若λ太大,损失值集中在L1上,忽略D对G的反馈作用[27]

在对比实验中,选取基于DNN的乘性频域分解去混响方法[4]、基于FCN的乘性频域分解去混响方法[10],同时再构建基于GAN的乘性频域分解去混响方法。DNN方法中,将每7帧的频谱作为一个网络输入,帧间重叠4帧,输入层和输出层都为903(即129×7)个节点,3个隐藏层都具有1 024个节点,输出层采用Tanh激活函数,其余各层采用ReLU激活函数[28],其他参数同本文方法设置一致。FCN方法中,网络结构和参数设置同本文GAN方法中的G网络相同。GAN方法也与本文方法网络结构和参数设置相同。用于乘性频域分解下方法训练的数据是未取对数前的短时幅度谱数据。此外,为进一步验证加性频域分解算法的优势,额外构建在加性频域分解下的DNN和FCN的去混响对比方法,其网络结构和参数与乘性频域下的方法设置一致。

3.3 实验结果和分析

表3给出同源测试集在RT60为200、400、600、800 ms下6种方法的去混响评价指标得分情况。

表3 同源测试集的 PESQ、STOI、LSD评价得分 Tab. 3 Objective PESQ, STOI, LSD scores of homologous test sets

表3可见:随着RT60增大,6种方法下的评价得分都逐渐降低,但加性频域下的DNN和FCN方法和本文方法的各评价得分均优于乘性频域下各方法的得分,其中,PESQ和STOI分值提升都在10%左右,LSD分值也下降了约10%。原因在于:乘性频域分解类似于T–F掩蔽,而混响语音在时频上相关性较强,因此网络对特征的提取受限;而经加性分解后的频谱数据相关性降低,因此得到的RIR对数幅度谱估计与混响语音数据之间的独立性更强。进一步观察DNN、FCN和GAN方法下的去混响评价得分可知:无论在乘性频域还是加性频域下,DNN的去混响性能要明显差于FCN和GAN两种方法。这是由于DNN的特征提取能力较弱,只能感知全局特征,且参数庞大;而采用卷积方式的FCN和GAN能更好地学习较小的局部特征,训练参数也更少。此外,FCN和GAN的评价得分差距主要体现在PESQ得分上,STOI和LSD得分无明显差距,说明GAN能进一步提升语音的整体感知质量,这主要是因为GAN的对抗学习能学习数据分布多样性,而不再直接依赖损失函数。以损失函数值为目标的模型,只能以输出值与目标值的数学距离作为误差来源;而GAN是计算输出值与目标值的样本分布差异,因此,不再局限于数学距离。上述分析可知,本文方法相较于对比方法有更优的去混响能力,能进一步提升去混响语音的整体质量。

为进一步验证本文方法在不同说话人的混响语音上的泛化能力,表4给出了非同源测试集在加性频域分解下的DNN、FCN方法和本文方法的PESQ、STOI和LSD评价指标得分情况。通过表4可以清晰看出,3种方法的在PESQ、STOI和LSD评价指标得分从高到低依次为本文方法评价指标得分、加性频域分解下的FCN方法评价指标得分、加性频域分解下的DNN方法评价指标得分,这与同源测试集中得分具有相同的变化趋势。通过表4对比表3中加性频域分解及本文方法的评分结果可知,虽然非同源测试集3种方法下的整体得分低于同源测试集下的得分,但从分值来看仍表现出较好的去混响效果。

表4 非同源测试集的 PESQ、STOI、LSD评价得分 Tab. 4 Objective PESQ, STOI, LSD scores of non-homologous test sets

图5展示了本文方法在 PESQ、STOI、LSD 3种评价指标下同源测试集与非同源测试集的得分差值曲线。

图5 同源测试集与非同源测试集的得分差 Fig. 5 Score difference between homologous and non-homologous test sets

图5可知:PESQ得分差值曲线变化明显,说明非同源测试集在感知质量上的恢复要弱于同源测试集,这主要因为神经网络在训练时额外学习了说话人的个性特征,导致训练好的网络对同源说话人的语音更加敏感,得分较高。而STOI和LSD得分差值曲线变化平缓,说明对于非同源测试集,本文方法对混响语音的可懂度和频谱质量也具有很好的提升。

为从频谱细节中更直观地观察去混响语音质量,图6展示了RT60为600 ms的一句混响语音经5种对比方法和本文方法去混响后的语谱图。由图6可知:所有方法在低频部分对混响干扰都有较好的抑制作用(如左下方矩形框部分),而在高频部分中就存在明显差距。图6(d)、(f)、(h)中,这3种方法对小矩形框中高频部分恢复更好,尤其是本文方法对高频部分混响干扰的抑制更显著,使得细节信息恢复更好,框中的声纹恢复更加平滑清晰,更接近于声源频谱。

图6 5种对比方法和本文方法下的测试语音语谱图 Fig. 6 Test speech spectrograms of five comparison methods and proposed method

为验证本文算法的实际去混响性能,从真实环境下录制一段混响语音进行测试,声源语音由一名男性发声,在空间大小为2.0 m×1.4 m×3.0 m的房间内录制。图7分别为实测混响语音与使用4种RT60(RT60为200、400、600、800 ms)下已训练好的本文方法去混响模型的测试语音的语谱图。4种RT60都进行测试是由于无法知道实测环境的混响时间。

图7 4种RT60下的本文方法去混响测试语音语谱图 Fig. 7 Speech spectrograms of proposed method dereverberation test under four RT60

图7可见:本文方法在低频成份上能较好地抑制混响干扰(图7(b)~(e)的左下方矩形框);本文方法在RT60 = 600 ms下对语音高频成分(小矩形框部分)有一定恢复作用,在RT60 = 800 ms下对语音高频成分(小矩形框部分)恢复作用较明显。但受实际环境和噪声等因素干扰,本文方法获得的去混响语音在自然度上存在部分失真。

4 结 论

传统的基于深度学习的语音去混响方法一般是在乘性频域下来实现的,但是这种方式下的神经网络学习的特征数据仍存在较强相关性。为从数据本身上降低相关性,本文提出了一种基于加性频域分解的生成对抗网络语音去混响算法,通过非线性对数运算,将混响语音的频谱相乘调制转换为频谱相加调制,进而使数据中包含的特征独立性更强,更有利于GAN对混响特征数据进行抑制。本文算法是根据混响语音的产生机制,通过简单的数学变化来实现混响语音的解相关,且各变量都有对应物理含义,避免了设计更加复杂的神经网络去从高相关性数据中提取特征。实验结果也表明本文方法可以更好地抑制混响干扰,在不同混响时间下得到的去混响语音质量都有进一步提高,且在实测语音上也有一定的去混响效果。但因对数的饱和效应,高频部分仍存在结构信息损失,说明加性频域分解对于高频成分仍有不足,这也是下一步需要重点研究的问题。

参考文献
[1]
Zhang Xiongwei,Li Yinan,Zheng Changyan,et al. Speech dereverberation:Review of state-of-the-arts and prospects[J]. Journal of Data Acquisition and Processing, 2017, 32(6): 1069-1081. [张雄伟,李轶南,郑昌艳,等. 语音去混响技术的研究进展与展望[J]. 数据采集与处理, 2017, 32(6): 1069-1081. DOI:10.16337/j.1004-9037.2017.06.001]
[2]
Wang Yuxuan,Narayanan A,Wang Deliang. On training targets for supervised speech separation[J]. IEEE/ACM Transactions on Audio,Speech,and Language Processing, 2014, 22(12): 1849-1858. DOI:10.1109/TASLP.2014.2352935
[3]
Shi Wenhua,Zhang Xiongwei,Zou Xia,et al. Time frequency masking based speech enhancement using deep encoder-decoder neural network[J]. Acta Acustica, 2020, 45(3): 299-307. [时文华,张雄伟,邹霞,等. 联合深度编解码网络和时频掩蔽估计的单通道语音增强[J]. 声学学报, 2020, 45(3): 299-307. DOI:10.15949/j.cnki.0371-0025.2020.03.002]
[4]
Han Kun,Wang Yuxuan,Wang Deliang.Learning spectral mapping for speech dereverberation[C]//Proceedings of the 2014 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).Florence:IEEE,2014:4628–4632.
[5]
Han Kun,Wang Yuxuan,Wang Deliang,et al. Learning spectral mapping for speech dereverberation and denoising[J]. IEEE/ACM Transactions on Audio,Speech,and Language Processing, 2015, 23(6): 982-992. DOI:10.1109/TASLP.2015.2416653
[6]
Williamson D S,Wang D. Time-frequency masking in the complex domain for speech dereverberation and denoising[J]. IEEE/ACM Transactions on Audio,Speech,and Language Processing, 2017, 25(7): 1492-1501. DOI:10.1109/taslp.2017.2696307
[7]
Wang Zhongqiu,Wang Deliang. Deep learning based target cancellation for speech dereverberation[J]. IEEE/ACM Transactions on Audio,Speech,and Language Processing, 2020, 28: 941-950. DOI:10.1109/TASLP.2020.2975902
[8]
Wang Zhongqiu,Wang Deliang.Multi-microphone complex spectral mapping for speech dereverberation[C]//Proceedings of the 2020 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP 2020).Barcelona:IEEE,2020:486–490.
[9]
Wang Zhongqiu,Wang Peidong,Wang Deliang. Multi-microphone complex spectral mapping for utterance-wise and continuous speech separation[J]. IEEE/ACM Transactions on Audio,Speech,and Language Processing, 2021, 29: 2001-2014. DOI:10.1109/TASLP.2021.3083405
[10]
Ernst O,Chazan S E,Gannot S,et al.Speech dereverberation using fully convolutional networks[C]//Proceedings of the 2018 26th European Signal Processing Conference(EUSIPCO).Rome:IEEE,2018:390–394.
[11]
Shelhamer E,Long J,Darrell T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640-651. DOI:10.1109/TPAMI.2016.2572683
[12]
Zhao Yan,Wang Deliang,Xu Buye,et al. Monaural speech dereverberation using temporal convolutional networks with self attention[J]. IEEE/ACM Transactions on Audio,Speech,and Language Processing, 2020, 28: 1598-1607. DOI:10.1109/TASLP.2020.2995273
[13]
Wang Helin,Wu Bo,Chen Lianwu,et al.TeCANet:Temporal-contextual attention network for environment-aware speech dereverberation[C]//Proceedings of the Interspeech 2021.Brno:ISCA,2021:1109–1113.
[14]
Wu Bo,Li Kehuang,Yang Minglei,et al. A reverberation-time-aware approach to speech dereverberation based on deep neural networks[J]. IEEE/ACM Transactions on Audio,Speech,and Language Processing, 2017, 25(1): 102-111. DOI:10.1109/TASLP.2016.2623559
[15]
Liu Bin,Tao Jianhua. A research to speech dereverberation method based on BLSTM recurrent neural networks and non-negative matrix factorization[J]. Journal of Signal Processing, 2017, 33(3): 268-272. [刘斌,陶建华. 联合长短时记忆递归神经网络和非负矩阵分解的语音混响消除方法[J]. 信号处理, 2017, 33(3): 268-272. DOI:10.16798/j.issn.1003-0530.2017.03.003]
[16]
Goodfellow I,Pouget–Abadie J,Mirza M,et al.Generative adversarial nets[C]//Proceedings of Advances in Neural Information Processing Systems 27(NIPS 2014).Montreal:NIPS,2014:1–9.
[17]
Yoshioka T,Sehr A,Delcroix M,et al. Making machines understand us in reverberant rooms:Robustness against reverberation for automatic speech recognition[J]. IEEE Signal Processing Magazine, 2012, 29(6): 114-126. DOI:10.1109/MSP.2012.2205029
[18]
Habets E A P.Room impulse response generator[R].Eindhoven:Eindhoven University of Technology,2006.
[19]
Lehmann E A,Johansson A M. Prediction of energy decay in room impulse responses simulated with an image-source model[J]. The Journal of the Acoustical Society of America, 2008, 124(1): 269-277. DOI:10.1121/1.2936367
[20]
He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Delving deep into rectifiers:Surpassing human-level performance on ImageNet classification[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision(ICCV 2015).Santiago:IEEE,2015:1026–1034.
[21]
Mao Xudong,Li Qing,Xie Haoran,et al.Least squares generative adversarial networks[C]//Proceedings of the 2017 IEEE International Conference on Computer Vision(ICCV 2017).Venice:IEEE,2017:2813–2821.
[22]
Bu Hui,Du Jiayu,Na Xingyu,et al.AISHELL-1:An open-source Mandarin speech corpus and a speech recognition baseline[C]//Proceedings of the 2017 20th Conference of the Oriental Chapter of the International Coordinating Committee on Speech Databases and Speech I/O Systems and Assessment(O-COCOSDA).Seoul:IEEE,2017:1–5.
[23]
Hu Yi,Loizou P C. Evaluation of objective quality measures for speech enhancement[J]. IEEE Transactions on Audio,Speech,and Language Processing, 2008, 16(1): 229-238. DOI:10.1109/TASL.2007.911054
[24]
Taal C H,Hendriks R C,Heusdens R,et al.A short-time objective intelligibility measure for time-frequency weighted noisy speech[C]//Proceedings of the 2010 IEEE International Conference on Acoustics,Speech and Signal Processing.Dallas:IEEE,2010:4214–4217.
[25]
Jie Zhang,Zhao Xiaoqun,Xu Jingyun,et al.Suitability of speech quality evaluation measures in speech enhancement[C]//Proceedings of the 2014 International Conference on Audio,Language and Image Processing.Shanghai:IEEE,2014:22–26.
[26]
Nimmani P,Vodithala S,Polepally V.Neural network based integrated model for information retrieval[C]//Proceedings of the 2021 5th International Conference on Intelligent Computing and Control Systems(ICICCS).Madurai:IEEE,2021:1286–1289.
[27]
Pascual S,Bonafonte A,Serrà J.SEGAN:Speech enhancement generative adversarial network[C]//Proceedings of the Interspeech 2017.Stockholm:ISCA,2017:3642–3646.
[28]
Xu Lie,Choy C S,Li Yiwen.Deep sparse rectifier neural networks for speech denoising[C]//Proceedings of the 2016 IEEE International Workshop on Acoustic Signal Enhancement(IWAENC).Xi’an:IEEE,2016:1–5.