经时频掩码的欠定混叠信号的盲提取

2012-08-06 07:57肖明高峰孙功宪谢胜利
通信学报 2012年8期
关键词:掩码时频矢量

肖明,高峰,孙功宪,谢胜利

(1. 广东石油化工学院 广东省石化装备故障诊断重点实验室,广东 茂名 525000;2. 华南理工大学 电子与信息学院,广东 广州 510640)

1 引言

欠定盲信号分离的特征是混叠信号个数少于源信号个数,解决欠定盲信号分离的基本策略是基于稀疏表示的两步法[1~9]。两步法分为矩阵估计和源估计2个步骤。矩阵估计最具有代表性的算法有DUET[5]、TIFROM[6]和 MRISSI[7],源估计最具代表性的算法有最短路径法[3]、l0-范数解[8]、l1-范数解[9]和DUET算法[5]。其中,二进制时频掩码方法是欠定系统解混的重要方法,它与最短路径法、l1-范数解、l0-范数解有明显的区别:它要求源信号相互不重叠,即在时频域的每个频率点都仅有一个源信号。虽然实际混叠并不能保证该条件,但是可以近似地视为源信号相互不重叠。DUET算法正是利用了二进制时频掩码,取得了很好的分离效果。在非完全稀疏的情况下,改善源信号恢复性能,一直是一个挑战性问题,DUET算法也需要进一步地改善。

本文针对上述问题,融合DUET算法和非完全稀疏信号的盲提取算法[10,11],提出了基于时频掩码的盲提取算法。该算法先通过时域盲提取方法形成2个新的混叠信号,再经时频掩码方法提取源信号,以此类推,逐一提取每个源信号。最后,用几个语音信号的实验来验证算法的性能和实用性。

2 盲提取矢量

在无噪声和回波的时候,所接收到的n个混叠信号x(t)为

其中,矩阵A是线性混叠矩阵,s(t)是m个源信号的矢量。本文仅考虑 2个混叠信号的情况( 2n= ),混叠信号矢量为混叠矩阵为

式中角度θk表示第k个源方向的方向角,而源方向为矩阵A的列矢量 ak=[cosθks in θk]T( k = 1 ,2,… ,m ),符号 [· ]T表示矩阵的转置。

根据非完全稀疏情况下的盲提取算法[10],提取第j个源信号,需要先确定源方向 aj的法矢量:

则 bjaj=0,用法矢量 bj乘以混叠信号矢量可得到不包含第j个源的新混叠信号:

又设

则信号x0(t)含有第j个源信号,并存在其他源的干扰。于是引入系数λ,设即用信号y1(t)来降低干扰。现计算信号y2(t)的平均功率:

其中,E[·]是数学期望。在式(7)中,为了希望y2(t)中的干扰最小,必须使其功率最小,即

易得:

将式(9)代入式(6)得

再将式(4)、式(5)代入式(10)得

式中jw是源信号的提取矢量。这里的最小干扰是在源信号保持源信号完好不变的情况下的最小干扰,所以y2(t)仍然包含较大的干扰。

将jb和jw组成了非奇异矩阵对混叠信号和混叠矩阵进行线性变换。线性变换后,混叠信号变为 y (t) = [y1( t) y2( t )]T,混叠矩阵变为

更新后的混叠信号和叠矩阵所具有的特征:①第j个源信号为提取源,在2个混叠信号中,前一个混叠信号不含提取源,后一个混叠信号的提取源成分非常强,非提取源的干扰已经被抑制。②非提取源的散落点已经远离提取的源信号方向T[0 1];③更新是一个线性变换,源信号仅仅按比例被缩小或放大,其波形没有变化。

以上3个特征将确保后续的时频掩码方法有更好的源提取效果。同时,从式(12)可知,提取矢量与源信号幅度强弱有关,在不等幅的情况下,混叠信号的更新能够更加有效地抑制非提取源的干扰。

下面以SiSEC2008[11]提供的混叠矩阵和源信号为例,观察混叠矩阵和混叠信号更新后的变化情况。SiSEC2008提供的源方向角度分别为70°、50°、37.5°和 22.5°,源方向用实线在图 1中标注。因为相邻2个源方向的角平分线是确定时频掩码的分界线,所以作它们的角平分线,角度分别60°、43.75°、30.0°和-53.75°,用虚线表示。SiSEC2008提供的源信号为4个女讲话声,在实验1中,4个女声的功率相同,在实验2中,缩小第2、3个源信号的幅度为实验1中的0.3倍。根据式(3)和式(12),计算法矢量jb和提取矢量jw,然后更新混叠矩阵和混叠信号。4个源信号有4个提取矢量,需4次更新混叠矩阵和混叠信号。

图1 4个源方向

观测2组实验中源方向的变换情况,对比图2和图 3可知,因为源信号强度不同,所以更新后的源方向发生了变化,其角度变化参见表 1。同样,对比图4和图5中信号的实部和虚部的散落图可知,源方向的变化与源信号的强度有密切关系。

图2 实验1中4次更新后的源方向

表1 源方向角(°)的比较

图3 实验2中4次更新后的源方向

图4 实验1中4次更新后的源方向和散落图(Re表示复数的实部)

在图4中,散落点沿4个源方向较均匀分布;在图5中,散落点主要集中在第1、4个源方向附近。

在文献[10]中,不完全稀疏性的盲提取算法,仅依赖自己的源方向,在本文中,源提取的前提是在混叠矩阵已经被估计。

经上述变换更新混叠信号和混叠矩阵,最后还需要经时频掩码方法逐一提取源信号。下面引入二进制时频掩码方法提取源信号的方法。

图5 实验2中4次更新后的源方向和散落图

3 经时频掩码的盲提取

本节介绍二进制时频掩码盲提取方法,其时频掩码方法的详细理论参见文献[5]。

在时频域中,其混叠模型为

其中,X(k,τ)是在时频域更新后的混叠信号,S ( k,τ)是在时频域的源信号,更新后的混叠矩阵的第j个源方向为 aj=[0 1]T。如果将混叠矩阵A以列 ai表示,式(16)可为

其中, ai=[cosφis in φi]T, Si( k,τ)是S(k,τ)的第i个元素。

信号在时频域的稀疏性含义:在很多时频点上,仅有一个源信号非零,其他源信号为0或较小,稀疏性也称为不重叠性。

根据经时频掩码解混的DUET算法[5],源信号必须是不重叠或近似不重叠,即在任意时频点(k,τ),仅仅存在一个源信号是非零,其他源是零或很小。假定第j个源在时频点(k,τ)上满足该条件,则从式(17)可得

于是第j个源为

从式(19)可知,DUET算法中源的估计为接收信号矢量在源方向的投影。

对于非完全稀疏的情况,在一些时频点上,存在2个或多个源信号是非零,则混叠信号矢量与源方向不一致,仅仅是靠近源方向。此时,DUET算法先检查每个时频点的混叠信号矢量最靠近哪一个源方向,以确定哪一个源信号为非零。

确定源信号的时频掩码是采用混叠信号矢量在每个源方向的投影。设在ja上投影值最大的时频点的集合即其中符号表示复数的模。因此,确定第j个源信号的时频掩码:

源信号的估计:

则第j 个提取源的估计:

该算法是以计算提取矢量和确立时频掩码方法为核心,故称之为经时频掩码的盲提取(BE-TFMask, blind extraction via time-frequency mask)。BE-TFMask算法概括如下:

1) 估计混叠矩阵;

2) for j=1:n

按式(3)和式(12)计算提取源的法矢量 bj和提取矢量 wj;

按式(14)和式(15),更新混叠信号和混叠矩阵;

按式(20),确定提取源的时频掩码的集合Ωj;

按式(22),提取第j个源信号。

end

4 实验与结果

4.1 性能评价指标

源信号估计性能的评价采用 E. Vincent所提出的方法。该方法已经作为SiSEC2010年语音分离的评价方法[11~13]。E. Vincent将估计信号与源信号 sj( t)的误差投影成了目标成分干扰成分和人造成分即

并利用最小方差投影设计一个FIR滤波器(详见文献[11,12]),得到信号与失真的比率 (SDR,signal to distortion ratio)、信号与干扰的比率(SIR,signal to interference ratio)和信号与人造成分的比率(SAR, signal to artifacts ratio),即

在实验中,直接调用 SiSEC2008提供的MATLAB函数bss_eval_sources.m。

4.2 实验1

源信号(4个女声语音、4男声语音信号)和混叠矩阵都来自SiSEC2008,混叠矩阵为

源方向角度分别为 70°、50°、37.5°和 22.5°。在混叠矩阵的估计中,实验使用 MRISSI算法[7],混叠矩阵估计的角度偏差分别为0.017°、0.015 6°、0.211 7°和 0.121 2°。

在源信号的估计中,实验进行了 DUET和BE-TFMask算法仿真,其性能指标列于表2中。从表2的结果可知,BE-TFMask算法的SDR和SAR 2项指标有明显的改进,表明BE-TFMask算法的性能果优于DUET算法。

4.3 实验2

本节中的源信号和混叠矩阵与实验1中相同,混叠信号的波形如图6所示,源信号与估计信号的波形如图7所示。

图6 混叠信号波形

图7 源信号与估计信号波形

在混叠信号中,第 2、3个源信号的幅度缩小为原幅度的 0.3倍。混叠矩阵的估计采用 MRISSI算法[7],它的角度偏差分别为0.133 9°、0.073 2°、0.034 7°和 0.078 9°。

表2 在实验1中DUET和BE-TFMask算法的SDR、SIR和SAR

表3 在实验2中的DUET和BE-TFMask算法的SDR、SIR和SAR

在源信号的估计中,实验进行 DUET和BE-TFMask算法仿真,其性能指标列在表3中。从表3的结果可知,在SDR和SAR 2项指标有明显的改进,它表明BE-TFMask算法的性能优于DUET算法,也体现了 BE-TFMask算法在源信号不等幅度的情况下有更优越的性能。

5 结束语

本文讨论了非完全稀疏信号的源恢复问题,提出了一个基于时频掩码的盲提取算法。算法吸取了盲提取算法和时频掩码的优点,用线性变换更新了混叠信号和混叠矩阵,改进了盲提取算法和时频掩码方法。实验仿真的结果证实了 BE-TFMask算法的性能和实用性。

[1] LEE T W, LEWICKI M S, GIROLAMI M, et al. Blind source separation of more sources than mixtures using overcomplete representations[J]. IEEE Signal Processing Letter, 1999,6(4): 87-90.

[2] ZIBULEVSKY M, PEARLMUTTER B A. Blind source separation by sparse decomposition in a signal dictionary[J]. Neural Computation,2001,13(4): 863-882.

[3] BOFILL P, ZIBULEVSKY M. Underdetermined blind source separation using sparse representations[J]. Signal Processing. 2001, 81(11):2353-2362.

[4] DELGADO K K, MURRAY J F, ENGAN K, et al. Dictionary learning algorithms for sparse representation[J]. Neural Computation, 2003,15(2): 349-396.

[5] YILMAZ O, RICKARD S. Blind separation of speech mixtures via time-frequency masking[J]. IEEE Tran on Signal Processing. 2004,52(7):1830-1847.

[6] ABRARD F, DEVILLE Y A. Time-frequency blind signal separation method applicable to underdetermined mixtures of dependent sources[J]. Signal Processing , 2005, 85(7):1389-1403.

[7] 肖明,谢胜利,傅予力. 基于频域单源区间的具有延迟的欠定盲分离[J].电子学报,2007,35(12):2279-2283.XIAO M, XIE S L, FU Y L. Underdetermined blind delayed source separation based on single source intervals in frequency domain[J].Acta Electronica Sinica, 2007, 35(12): 2279-2283.

[8] VINCENT E. Complex nonconvex LP norm minimization for underdetermined source separation[A]. Proc Int Conf on Independent Component Analysis and Blind Source Separation (ICA)[C]. Madrid, Spain,2007.430-437.

[9] LI Y, AMARI S, CICHOCKI A, et al. Underdetermined blind source separation based on sparse representation[J]. IEEE Transactions on Signal Processing, 2006, 54(2): 423-437.

[10] 谢胜利, 孙功宪, 肖明等. 欠定和非完全稀疏性的盲信号提取[J].电子学报,2010, 38 (5): 1028-1031.XIE S L, SUN G X, XIAO M, et al. Underdetermined and incompletely sparse blind signal extraction[J]. Acta Electronica Sinica, 2010,38 (5): 1028-1031.

[11] VINCENT E, ARAKI S, BOFILL P. The 2008 signal separation evaluation campaign: a community-based approach to large-scale evaluation[A]. Proc ICA[C]. Paraty, Brazil, 2009. 734-741.

[12] EMIYA V, VINCENT E, HARLANDER N, et al. Subjective and objective quality assessment of audio source separation[J]. IEEE Trans on Audio, Speech and Language Processing. 2011, 19(7): 2046-2057.

[13] SHOKO A, ALEXEY O, VIKRHAM G. The 2010 signal separation evaluation campaign (SiSEC2010): audio source separation[A]. Proc ICA Latent Variable Analysis and Signal Separation[C]. Saint-Malo Cedex, France, 2010. 114-122.

猜你喜欢
掩码时频矢量
一种适用于高轨空间的GNSS矢量跟踪方案设计
矢量三角形法的应用
低面积复杂度AES低熵掩码方案的研究
基于稀疏时频分解的空中目标微动特征分析
基于布尔异或掩码转算术加法掩码的安全设计*
基于矢量最优估计的稳健测向方法
三角形法则在动态平衡问题中的应用
《计算机网络技术》的几个重点课题的教学分析
基于掩码的区域增长相位解缠方法
基于时频分析的逆合成孔径雷达成像技术