书书书
收稿日期:20150121;修回日期:20150310 基金项目:江苏省自然科学基金资助项目(BK20131107);国家自然科学基金资助项目
(60973095)
作者简介:茅正冲(1964),男,江苏启东人,副教授,硕导,主要研究方向为机器人视听觉识别;龚熙(1989),男,江苏江阴人,硕士研究生,主
要研究方向为声纹识别及应用(806277351@qq.com).
基于压缩感知的语音增强识别系统
茅正冲,龚 熙
(江南大学 轻工过程先进控制教育部重点实验室,江苏 无锡 214122)
摘 要:针对传统压缩感知(CS)方法抗噪性能差的问题,提出了一种新的基于压缩感知的语音增强识别系统。
该系统在用正交匹配追踪(OMP)算法重构语音信号时设定相关度阈值和语音恢复阈值,并对迭代算法进行改
进,不仅有效恢复了纯净语音信号,实现了语音增强,并且减少了重构的计算量;再将重构恢复的信号通过 Gam
matone
滤波器组提取特征参数 GFCC,并在高斯混合模型中匹配。仿真实验表明,将这种方法应用于声纹识别系
统,系统的识别率及鲁棒性都有明显提高。
关键词:压缩感知;正交匹配追踪;抗噪算法;识别系统
中图分类号:TN9123 文献标志码:A 文章编号:10013695(2016)02045004
doi:10.3969/j.issn.10013695.2016.02.031
SpeechenhancementrecognitionsystembasedonCS
MaoZhengchong,GongXi
(KeyLaboratoryofAdvancedProcessControlforLightIndustryofMinistryofEducation,JiangnanUniversity,WuxiJiangsu214122,China)
Abstract:Inviewofthepoorantinoiseperformanceoftraditionalcompressivesensing,thispaperproposedanovelspeech
enhancementrecognitionsystembasedoncompressivesensing.Theproposedsystemsetsimilaritythresholdandspeechsignal
recoverythresholdinorthogonalmatchingpersuit
(OMP)algorithm,andimprovedtheiterativealgorithm,whichnotonlyre
storedtheenhancedspeechsignal,butalsoreducedtheamountofcalculation.ThenitextractedfeatureparametersGFCCofthe
enhancedspeechsignalbyGammatonefilterbank,andmatchedthebestresultinGaussianmixturemodel.Simulationexperi
mentsshowthatthismethodobviouslyimprovestherecognitionrateandrobustnessinspeakerrecognitionsystem.
Keywords:compressivesensing(CS);orthogonalmatchingpursuit(OMP);antinoisealgorithm;recognitionsystem
!
引言
压缩感知(CS)作为近些年新兴的信号处理技术,是一种
在采样过程中利用较少数据就能有效提取信号信息,然后通过
重构算法从采样信息中恢复原信号的方法
[1]
。语音增强是指
对带噪语音信号进行处理,降低噪声的干扰,恢复出较纯净的
语音。所以,压缩感知与语音增强的本质是类似的。CS理论
由于其边采样边压缩的特性使其具有了巨大的吸引力和应用
前景,研究领域已经涉及到了雷达、无线传感、医学等领域。文
献[
2]将压缩感知理论运用到了随机调制雷达信号处理中,为
随机调制雷达的低旁瓣信号处理提供了全新思路。文献[3]
将合成聚焦与 CS理论结合,解决了 B超成像过程中数据量大
的问题。
信号的稀疏性是压缩感知的前提和基础,但是正如语音和
图像等信号它们本身并不是稀疏的,但可以通过某种变换在其
变换域中得到一个稀疏的信号以此来适用压缩感知。语音信
号通 常 可 以 转 换 到 离 散 变 换 域 (
discretecosinetransform,
DCT)、小波域等变换域来获得稀疏信号。文献[4]对语音信
号在 DCT域能显示出的近似稀疏性提出语音信号 DCT域压缩
感知。文献[5]利用语音信号自身构造了一种自相关观测矩
阵,在同等重构性能下压缩率比其他随机矩阵更低。文献[
6]
在压缩感知的重构阶段设定相似度阈值来进行语音增强,该算
法对非人声噪声有一定抗干扰作用。文献[7]提出了离散余
弦小波包变换的语音信号压缩感知,构造出了更加稀疏的变换
基,提高了重构的性能。
针对不同噪声环境下 CS理论难以恢复有用语音信息的
问题,提出了一种基于压缩感知的语音增强识别系统。在通过
OMP算法重构有用语音信息时,根据语音信号和干扰噪声在
DCT域稀疏性的不同设置相关度阈值来限制迭代的次数,让
尽可能少的噪声分量恢复出来。而在现实生活中绝大多数情
况下会受到人声背景噪声的干扰,如办公室、茶餐厅、超市等,
当背景噪声掺杂周边人语音信号时,仅设置相关度阈值不能有
效恢复纯净语音信号,因为此时背景噪声同样具有不错的稀疏
性。所以本文提出设置第二个门限阈值,即语音恢复迭代阈
值,以此来抑制人声背景噪声的回复。在重构过程中,如果低
于此阈值,则迭代停止。由于原始
OMP算法迭代计算量大,本
文对重构部分也作了一定改进,减少了计算量。这种双门限阈
值的正交匹配追踪算法能够应对多种噪声环境场合,有效实现
语音增强,提高了系统最后的识别率,扩大了压缩感知在语音
去噪领域的适用性。
第 33卷第 2期
2016年 2月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol33No2
Feb.2016