自训练过完备字典和稀疏表示的语音增强

2022-06-09

崔晓

（郑州师范学院，河南郑州450044）

摘要：提出的算法利用带噪信号进行训练以获得过完备字典，通过设定较大的字典训练阈值，训练过程只对语音信号进行，使得自训练字典与语音信号之间相关性较强。利用该字典和较小的阈值对语音信号进行稀疏表示，进而实现语音增强。仿真实验表明，增强后的信号表示系数稀疏度更强，增强效果在信噪比（SNR）和感知语音质量评估（PESQ）得分方面均有较大改进。

教育期刊网 http://www.jyqkw.com
关键词：正交匹配追踪；迭代阈值；字典训练；语音增强

中图分类号：TN912.3?34 文献标识码：A 文章编号：1004?373X（2015）13?0056?03

收稿日期：2015?01?22

基金项目：郑州市普通科技攻关计划项目（141PPTGG365）；河南省教育厅科学技术研究重点项目（14A510023)

0 引言

语音信号是人类交流过程中最自然、最常用的方式，语音增强能降低噪声提高信噪比，是语音信号预处理的一个重要过程。在稀疏表示中，利用过完备字典中少数原子的线性组合来表示样本信号，其优势是有更大的灵活性和噪声情况下更强的稳定性，因而成为目前研究较多的算法，在语音压缩[1]、识别[2]以及语音增强[3?4]方面均得到较为广泛的应用。在基于稀疏表示的语音增强中，过完备字典的构成起着一个非常关键的作用[5]，良好的字典能够使纯净语音信号的表示更加稀疏，从而与噪声的区分度更为显著。在这个过程中，为了得到更为稀疏的系数，所采用的字典从过完备离散余弦变换、过完备小波变换等固定字典到参数化字典设计，进而采用自适应字典学习算法训练字典，使字典与被处理信号之间的相关性增强[6?7]。文献[8]利用纯净信号训练字典，将语音激活检测估计的噪声作为重构阈值，对含噪语音进行稀疏分解，将系数与字典重构得到无噪的语音信号。然而，在语音增强处理的过程中目标语音是受到噪声污染的，纯净语音只能是其他语音信号。本文算法利用阈值正交匹配追踪（OMP）和K奇异值分解算法（K?svd）直接对含噪语音进行字典训练，得到的字典与语音信号有更强的相关度，因而得到的表示系数更为稀疏，在语音增强时取得更好的效果。

1 带噪语音信号的稀疏重构

对于一个适合的过完备字典D，语音成分在其上的系数是稀疏的，而白噪声则不具备这种特性。当已知噪声方差σ2 的情况下，在进行原子选择时通过设定与其有关的恰当的阈值ε，可以控制只从带噪信号中选出与纯净语音相关的系数，而摒弃与噪声有关的系数以实现语音增强。

2 阈值正交匹配追踪算法

在信号的稀疏表示中，由于字典的过完备性，x 在由D 构成的冗余基上的稀疏表示系数A 的求解是一个非常困难的过程。快速稳定的稀疏分解与重构算法起着重要的作用，OMP属于贪婪方法的一种，在精度要求相同的情况下，OMP 由于更快且更容易实现而得到广泛的应用。

为得到最优的稀疏表示结果，OMP 使第k 个残差Rk 与当前信号的近似值yk 正交，此时该残差与当前yk的任意一个原子都线性无关，从而在之后的分解过程中，不会出现之前yk 中已经选择过的原子，因此是最优的。传统的OMP 先将选中原子进行正交化处理，然后再将残差在这些正交原子基上进行分解，以保证残差与所选中的全部原子正交。改进算法在信号投影过程中，将原信号在所选中的所有原子的列空间进行正交投影，所得残差与这些被选中的原子都正交[9]。本文采用的阈值正交匹配追踪算法中，设定迭代结束的阈值条件，当原始信号与重构信号的残差小于该阈值时，停止迭代。

本文阈值正交匹配追踪算法描述如下：

（1）稀疏编码阶段。对给定的训练样本y ，利用阈值正交匹配追踪从当前的字典D 中选择最佳原子，求出稀疏表示的系数A 。

（2）字典更新。针对步骤（1）得到的稀疏系数A，更新字典中每一列即各个原子。K?svd算法通过对残差矩阵进行奇异值分解，用最大特征值所对应的向量更新字典的一列，同时更新该列相对应的系数A 的行元素，为保证系数的稀疏性，在奇异值分解计算时只用与待更新字典的列有关的残差信号[10]。

4 提出算法描述及性能评估

4.1 算法描述

综前所述，本文提出的语音增强算法可描述为：（1）噪声方差估计。对观测到的带噪语音信号利用其前3 000个样本估计噪声方差σ2 。

（2）字典训练。设定字典训练阈值ε1 = k1 M σ 作为K?svd字典训练时阈值OMP的迭代结束条件，初始化字典选择过完备离散余弦基，利用分帧后带噪语音信号训练字典D。

（3）稀疏增强。设定稀疏表示阈值ε2 = k2 M σ ，对分帧后带噪语音信号根据步骤（2）训练的字典和ε2采用阈值OMP分解，得到估计的纯净语音信号系数A。

（4）语音合成。由x = DA 计算增强后的分帧语音信号，最后通过迭代相加法（OLA）得到增强的语音。

在带噪语音字典训练和语音信号分解的过程中，均通过阈值OMP 求解系数。反复实验表明，为使训练的字典只与语音信号相关，步骤（1）中k1 取值为1.6，即设置较大的迭代阈值；在语音增强中，要获得较大的信噪比和失真度较小的语音，k2 值设定为1.05，此时迭代阈值比噪声略大。由于自训练的字典与语音信号较强的相关性，在纯噪声区系数为0，而带噪语音区则只得到纯净语音的分解，从而达到语音增强的目的。

4.2 提出算法的性能评估

实验采用中国科学院自动化研究所开发的CASIA98?99语音测试库，从中选取女生语料5人次和男生语料5人次作为纯净语音，为便于仿真处理，所有语音采样率转换为fs =8 000 Hz。所加噪声为计算机随机产生的白噪声，信噪比分别为-5 dB，0 dB，5 dB，10 dB，15 dB，20 dB。仿真帧长取为128，字典中原子个数为384，字典冗余度为3，字典训练时帧移为2，迭代次数为3次，稀疏增强时帧移为8，对提出算法进行仿真。

4.2.1 波形图与语谱图比较

如图1所示，从上至下依次为一段原始纯净语音信号、加5 dB 噪声信号以及用提出算法增强后的信号对比。图1（a）为信号随时间变化的波形图，图1（b）为图1（a）语音信号随时间变化波形图与相对应的信号语谱图。

时域波形图和语谱图显示，语音信号几乎被5 dB白噪声淹没，尤其是语谱图，仅有少量语音可见。然而经增强处理的信号，信噪比则达14.42 dB，语音波形与原始信号极为相似，语谱图也较为清晰。表明提出的算法对即使受较强噪声污染的信号依然有较好的处理能力，这对于语音识别和通信预处理而言非常重要。

4.2.2 对比实验性能测试

为进一步研究提出算法的性能，将提出算法与文献[8]中算法增强效果进行比较。测试方法为10种语音信号在不同信噪比下测试数据的平均值作为实验结果，主要测试增强后的信噪比（SNR）、感知语音质量评估（PESQ）得分以及稀疏程度比较，其中稀疏程度通过增强信号每帧非0系数的个数平均值来反映，该值越小表明增强信号的能量集中在较少的系数，因而稀疏程度越高。对比结果见表1。

表1中数据显示，在语音增强过程中，使用带噪信号本身训练字典，所得的信噪比与对比算法均有提高，最大提升值是15 dB时的1.43 dB，从PESQ得分的角度和增强信号的稀疏程度来看，提出算法除了-5 dB输入信噪比的信号外，均有所提升，最大PESQ得分提升值是15 dB时的0.20，最大稀疏程度提升值是15 dB 时的2.31。究其原因，对于-5 dB 而言，过大的噪声使得训练字典所用的语音成分较少，所得字典与语音的相关度较小，因而提升效果不如对比算法。

5 结论

本文在字典训练阶段利用带噪语音信号自身进行训练，通过设置较高的阈值，只对语音成份进行训练得到过完备字典。在增强阶段通过设置稍高于噪声方差的迭代阈值，利用自身训练字典与语音信号之间较强的相关性，得到更为稀疏的表示系数，获取纯净的增强语音。仿真结果表明，提出算法能显著地抑制背景噪声，在信噪比和PESQ得分方面均优于对比算法，可以提高语音信号的质量，在微处理器速度日渐提高的情况下不失为一种更佳的选择。

教育期刊网 http://www.jyqkw.com
参考文献

[1] 王天荆，郑宝玉，杨震.基于自适应冗余字典的语音信号稀疏表示算法[J].电子与信息学报，2011，33（10）：2372?2377.

[2] LI W F，ZHOU Y，POH N，et al. Feature denoising usingjoint sparse representation for in ? car speech recognition [J].IEEE Signal Processing Letters，2013，20（7）：681?684.

[3] 周小星，王安娜，孙红英，等.基于压缩感知过程的语音增强[J].清华大学学报：自然科学版，2011，51（9）：1234?1238.

[4] 程经士.压缩感知理论在语音信号去噪中的应用[J].现代电子技术，2012，35（7）：84?85.

[5] 赵慧民，倪霄.压缩感知的冗余字典及其迭代软阈值实现算法[J].电路与系统学报，2013，18（1）：59?64.

[6] SIGG C，DIKK T，BUHMANN J M. Speech enhancement usinggenerative dictionary learning [J]. IEEE Transactions on Audio，Speech，and Language Processing，2012，20（6）：1698?1712.

[7] 李轶南，张雄伟，曾理，等.改进的稀疏字典学习单通道语音增强算法[J].信号处理，2014，30（1）：44?50.

[8] 孙林慧，杨震.基于数据驱动字典和稀疏表示的语音增强[J].信号处理，2011，27（12）：1793?1800.

[9] TROPP J，GILBERT A. Signal recovery from random measure?ments via orthogonal matching pursuit [J]. Transactions on In?formation Theory，2007，53（12）：4655?4666.

[10] AHARON M，ELAD M，BRUCKSTEIN A. K?SVD：an algo?rithm for designing overcomplete dictionaries for sparse repre?sentation [J]. IEEE Transactions on Signal Processing，2006，54（11），4311?4322.

作者简介：崔晓（1972—），女，河南孟州人，硕士，讲师。主要研究方向为通信信号处理。

上一篇：基于MVC模式的在线考试测评系统的设计与实现

下一篇：双卡双待移动终端锁网方案研究

首页

学术期刊

期刊百科

论文指导

论文中心

关于我们

自训练过完备字典和稀疏表示的语音增强

延伸阅读：

相关阅读：

论文中心 更多

最新期刊 更多

先发表后付款不成功可退款

缔冠期刊网

自训练过完备字典和稀疏表示的语音增强

延伸阅读：

相关阅读：

先发表后付款 不成功可退款

缔冠期刊网

先发表后付款不成功可退款