基于深度神经网络的声学回声消除方法探讨

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:硕博论文网 点击次数:
论文字数:38966 论文编号:sb2024052910440352466 日期:2024-06-02 来源:硕博论文网

本文是一篇计算机论文,本文主要通过对时序数据这一特性以及近端麦克风、近端语音和声学回声之间的幅度谱相似性进行声学回声消除算法的研究。
第一章 绪论
1.1 研究背景和意义
语音是人类交流和人机交互表达信息的重要传输介质,而通信系统是语音传播的重要媒介之一,通信技术的不断发展为远程会议、办公提供了技术条件,远程视频会议软件(如企业微信、钉钉、Skype、飞书、Zoom等) 的使用量在不断增加,人们之间交流愈发方便快捷,工作效率不断提高,人们在享受远程通信带来的好处的同时,保证良好的通话质量是最基本的要求。如图1.1所示是语音数据流转链路图。当两个用户进行实时语音对话时,每个用户端除了需要对语音数据进行采集和发送以外,还需要对来自对方的语音数据进行接收和播放,在实际应用中,扬声器和麦克风处于同一空间,远端说话者的语音信号传输到近端扬声器形成远端语音,其经过天花板和墙壁等障碍物多次反射后形成声学回声信号,近端麦克风将远端语音信号、声学回声信号以及背景噪声接收并一起传输给远端说话人,导致远端说话人听到自己的声音,再加上信号在网络传输过程中时延的影响,极大的影响了语音通话的质量。回声可分为声学回声和电路回声,电路回声一般存在于有线电话,具有线性和稳定性,比较容易将其消除。声学回声受通话者所处环境的影响较大,具有高延时、非线性的特点,较电路回声更难消除。因此,声学回声消除技术对提升现有通信网络的语音质量和用户体验具有极其重要的研究意义。

计算机论文怎么写
计算机论文怎么写

............................
1.2 国内外研究现状
1.2.1 基于滤波器的AEC研究现状
为了消除回声信号的负面影响,在国外很早就开始了对回声消除的研究,研究人员在上世纪50年代就开展了对AEC技术的研究。AEC问题中应用最广泛的就是自适应滤波算法,其中最早是由Widrow和Hoff在1959 年所提出的最小均方(Least Mean Square, LMS)算法,在自适应滤波器中应用该算法来模拟声学回声信号,将输入的近端麦克风信号减去模拟的声学回声信号达到消除声学回声的目的。该滤波算法通过改进最陡下降算法实现损失函数的最小化,具有结构简单、计算复杂度低和易于实现的优点,从而被广泛用于AEC和系统辨别等领域。然而LMS算法具有跟踪性能较差、收敛过程中容易引入误差以及滤波器的收敛速度较慢等缺陷,影响了其在AEC领域中的实际应用效果[1]。为了提高LMS算法稳定性,每K个采样点才更新一次滤波器权值的分块最小均方算法[2]被提出,该算法将输入数据序列分成若干个数据块后再送入滤波器进行处理,因此具有比LMS算法运算量低的优点,而收敛速度并没有提升。为了增强LMS算法的收敛性能,研究人员对LMS算法进行改进,提出了归一化最小均方(Normalized Least Mean Squares, NLMS)算法[3]。基于NLMS的AEC算法将远端信号的功率归一化,目的就是为了提高该算法的精度以及收敛速度,NLMS算法被广泛应用于自适应均衡、系统识别和AEC等领域。但NLMS算法缺点在于输入相关信号后收敛速度会有明显下降的趋势。为了加快算法的运算速度,研究人员提出了快速最小均方算法[4],较大程度减少了计算复杂度,然而当回声路径较长时,时延较大。递归最小二乘法(Recursive Least Squares, RLS)[5]的跟踪性能和收敛速度都较好,缺点在于算法的收敛速度和跟踪性能在输入信号的自相关矩阵接近奇异矩阵时会急剧恶化。Duttweiler分析回声路径模型后发现回声路径具有稀疏特性,即回声路径中大部分回声能量接近零,只有少部分具有较大值,因此提出了比例NLMS(Proportionate Normalized Least Mean Squares, PNLMS)算法[6],该算法按比例分配滤波器的权值向量大小,使算法对于稀疏的回声路径,在初始阶段拥有快速的收敛速率,但后期收敛速度下降,并且在非稀疏情况下其收敛速度较NLM算法更慢。为了改善这个缺陷,研究人员在PNLMS算法的基础提出了PNLMS++算法[7],在每个采样周期内,通过将NLMS算法和PNLMS 算法之间进行交替来实现收敛速度方面的提升。后续有学者使用准则来计算比例因子提出了MPNLMS算法[8],该算法有效地解决了PNLMS算法后期收敛速度慢的缺陷,然而加大了计算复杂度。同时也有学者提出改进的PNLMS(Improved Proportionate Normalized Least Mean Squares, IPNLMS)算法[9],该算法通过增加计算复杂度以获得更快的收敛速度。
......................................
第二章 AEC的基础算法与理论
2.1 回声的分类
在有线和无线通信系统中,根据不同情况下回声的性质及其产生机理的不同,将回声主要分为两类:电路回声和声学回声。 2.1.1 电路回声
为了传输语音数据,自1876年贝尔发明电话开始,人们建立了公共交换电话网络,其是以模拟技术为基础的电话网络,具有通信费用低的优点而被人们广泛使用。为了控制电话线的成本,用户与用户之间电话线的连接方式采用的是两线制,中心局之间电话线的连接方式采用的是四线制,在这个二线-四线混合电路中,或因电话线属不同型号又或是未使用负载线圈从而使得阻抗失配导致产生电流泄露,以至于部分信号的能量和信道延迟从发送电路一起返回到信号源,使讲话者在接收信号的同时又听到自己刚刚说话的声音,这就是电路回声。电路回声对通话质量具有较大影响,其产生原理如图2.1所示。由于电路回声的线性以及稳定性,用一个简单的线性叠加器就可以实现电路回声消除。
2.1.2 声学回声
根据哈斯效应,当回声到达人耳的时间延迟在5~35毫秒之间时,人耳将无法区分原声与回声;当回声的延迟时间在35~50毫秒之间时,人耳可以感知到回声的存在,但感知到的声音还是来自原声;当回声的延迟时间超过50ms时,人耳可以清晰的辨别出回声的存在。人们日常通话场景中回声示意图如图2.2所示。
当近端说话人与远端说话人进行语音通话时,假定A先说话,此时A说话的声音信号被近端麦克风采集,在电路中变为电信号通过通信网络发至远端并经过扬声器播放出来,此时近端说话人的声音在传播过程中经过远端墙壁和地板的反射后形成声学回声,与此同时远端麦克风将采集到的远端说话人的声音信号和声学回声信号一起通过通信网络传送到近端,使得近端说话人听到自己的声音,同样远端说话人也将通过这种方式听到自己的声音。
......................................
2.2 基于自适应滤波的AEC算法
自适应滤波器通过加载不同的自适应滤波算法,能够实时跟踪随环境变化的目标函数值。评价自适应AEC算法的性能优劣的重要技术指标主要有:初始的收敛速度、计算复杂度、稳态误差和时变系统跟踪性能。
初始的收敛速度是指滤波器权系数向量从初始值向最优解收敛的快慢程度,收敛速度越快,则算法的效率越高;计算复杂度,是指在更新一次滤波器权系数时所需的计算量,计算复杂度愈低,则迭代所需要的时间愈少且功耗愈低;稳态误差,是指当算法进入稳态后滤波器系数与最优解之间距离的远近情况;时变系统跟踪性能是AEC算法随着声学回声路径的改变而进行动态自适应,再次达到稳态所需的时间。
在AEC问题中,自适应滤波器的选择对回声消除的性能好坏起着十分关键的作用。
LMS算法复杂度低,只要2N次加法和2N+1次乘法就可完成自适应回声消除过程且易于实现,能够抑制旁瓣效应,从而被广泛用于AEC和系统辨别等领域,但算法收敛速度较慢且步长是固定的,在使用LMS算法进行自适应声学回声消除的时候,即使输入的只含有语音信号,但其性能依然会受到输入功率或振幅的影响,并且随着滤波器阶数的升高,系统稳定性也随之下降,为改善LMS这个不足之处,科研人员提出一系列改进算法,NLMS算法就是其中一种。
.................................
第三章 结合 BLSTM 与 ResNet 网络的声学回声消除 ................... 28
3.1 AEC算法框架 ........................... 28
3.2 AEC 系统模型 .......................... 29
3.3 BLSTM-ResNet 模型构建 ................... 30
第四章 一种优化训练目标的声学回声消除算法 ................................ 42
4.1 时频掩蔽 .................................. 42
4.1.1 理想比率掩蔽(Ideal Ratio Mask, IRM) ................................... 43
4.1.2 理想幅度掩蔽(Ideal Amplitude Mask, IAM) .......................... 44 
第五章 非线性残留回声消除 ......................... 51
5.1 传统线性自适应滤波与深度学习相结合的AEC系统 .............. 51
5.1.1 算法框架 ............................. 51
5.1.2 卡尔曼滤波器 ................................. 52
第五章 非线性残留回声消除
5.1 传统线性自适应滤波与深度学习相结合的AEC系统
为了解决非线性声学回声残留的问题,研究人员提出了用于RES的滤波器,并将之应用于AEC的输出端以抑制残余的非线性声学回声,然而此方法需要构造复杂的非线性函数,且可能并不能够精确地模拟出非线性残余回声信号的性质。随着时代的发展,深度神经网络的急速发展为研究人员提供了巨大的帮助。深度神经网络具有比传统方法更高的性能,能够用来拟合非线性声学回声的特性。文献[48]提出一种基于DNN的RES增益估计方法,利用神经网络(Neural Network, NN),将远端语音信号与经过声学回声消除之后残余的非线性回声信号进行建模,从而消除残余的非线性声学回声。文献[55]使用多个信号作为DNN的输入,通过掩蔽来计算RES滤波器的系数,有效减少了残余回声。
5.1.1 算法框架
传统自适应滤波器方法能够有效滤除线性回声以及部分噪声,深度学习算法能够对非线性回声进行建模,结合二者优势的同时进行声学回声消除任务是可行的。如图5.1所示为传统线性自适应滤波器与深度学习相结合的AEC处理框架。
首先将远端语音信号x(n)通过卡尔曼滤波器以模拟真实的声学回声路径,由于滤波器是对声学回声信号进行估计的,若采用近端麦克风信号对回声路径进行估计则会导致滤波器无法正确收敛,容易产生回声残留以及近端语音信号失真等问题。双讲检测器根据信号的能量、远端信号与近端信号的相干性来判断此时处于单讲还是双讲状态,从而可以让滤波器更好地跟踪回声的路径,此时滤波器输出模拟的声学回声信号ˆd(n);然后将近端麦克风采集到的语音信号y(n)与ˆd(n)相减得到带有残余的非线性声学回声的语音信号e(n);随后将x(n)与e(n)共同输入到非线性AEC系统,消除残余的非线性声学回声,最终输出预测的近端语音信号sˆ(n)。

计算机论文参考
计算机论文参考

............................
第六章 总结与展望
6.1 论文工作总结
声学回声消除在实时语音通信系统中起到重要作用,传统的基于自适应滤波器的AEC算法如LMS算法、NLMS算法以及卡尔曼滤波算法在处理声学回声的过程中,仅在单讲状态下有较好的效果,而双讲状态下的声学回声处理结果并不能让人感到满意。随着深度学习的火热,为AEC算法研究提供了一条全新的思路,从简单的神经网络再到深层的神经网络,都为了一个目的那就是增强模型的拟合能力以得到更高质量的预测语音。语音信号是时序数据,其上下文之间存在紧密的联系。本文主要通过对时序数据这一特性以及近端麦克风、近端语音和声学回声之间的幅度谱相似性进行声学回声消除算法的研究。本文主要的创新点如下所述:
(1) 提出了一种结合BLSTM与ResNet网络的AEC方法。该方法利用双向LSTM网络对时序数据处理的能力,有效地提取声学回声的时序特征;利用残差连接的形式学习声学回声不同级别的抽象特征以及深度时序特征信息,并且使用深度可分离卷积有效地降低了参数量。所提出的模型在消除声学回声方面取得了较好的效果。
(2) 不同的训练目标引导模型训练的效果也大不相同,设置一个合适的训练目标能够较好地改善声学回声消除的性能,根据近端麦克风、近端语音和声学回声之间的幅度谱相似性,在IBM的基础上进行改进,构造ABM作为ResNet-BLSTM网络的训练目标,与其他掩蔽方法进行对比,ABM引导的模型训练在消除回声的效果上取得了一定的提升。
(3) 提出了线性自适应滤波器与深度神经网络相结合的AEC算法,抑制了重构语音信号中的残留回声。利用自适应滤波器将线性声学回声以及噪声进行初步消除,从而减轻后续神经网络的训练压力;利用深度神经强大的非线性建模能力,以及模型中双向LSTM层针对性地增强模型对时序数据处理地能力,能够更有效地消除残留的非线性回声。并且针对线性自适应滤波器处理音频速度较慢的问题,本文在上述模型的基础上进行改进,提出了时频域结合的AEC算法,在频域中的神经网络能够学习到近端语音信号和近端麦克风信号之间更精确的频谱信息,时域中的神经网络进行端到端的处理,能够学习到近端语音信号和近端麦克风信号之间更准确的时域波形,时频域相结合的方法,有效地提高了模型消除声学回声的能力以及重构语音的质量。
参考文献(略)


如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
QQ 1429724474 电话 18964107217