基于TDOA的声源定位模型中阵列位姿与定位误差之间关系的研究

2014-07-20 03:08仲维灿刘贺洋祖丽楠
河北工业大学学报 2014年5期
关键词:正四面体远场麦克风

孙 昊,仲维灿,刘贺洋,祖丽楠

( 河北工业大学 控制科学与工程学院,天津 300130 )

基于TDOA的声源定位模型中阵列位姿与定位误差之间关系的研究

孙 昊,仲维灿,刘贺洋,祖丽楠

( 河北工业大学 控制科学与工程学院,天津 300130 )

基于声达时间差(TDOA)和正四面体麦克风阵列的声源定位模型中,影响定位的精度的因素除了阵元安装的位置误差、时间延迟和环境噪声之外,还受到阵列自身位姿的影响,麦克风阵列位姿的不确定,其直接导致声达时间差的不确定,进而影响定位结果.以全范围内声源目标定位为应用背景,利用基于RBF神经网络声源定位模型研究麦克风阵列位姿的不确定对声源定位误差产生的影响.

声达时间差;声源定位模型;阵列位姿;RBF 神经网络

0 引言

基于麦克风阵列的语音信号处理技术早已成为研究的热点,具有广泛的实际意义和应用前景[1].运用麦克风阵列进行声源定位是语音信号处理领域的重要内容,麦克风阵列是指由若干个麦克风按照一定的几何结构排列而形成的阵列,该阵列可以接收空间声源信号,并对接收到的声源信号进行空时处理.基于麦克风阵列的声源定位技术早已在军事侦察,雷达和机器人听觉定位等方面得到了广泛的应用[2].

基于声达时间差的麦克风阵列声源定位技术分为两个步骤进行,首先估计阵列中阵元间声达时间差(TDOA);然后利用已获取的 TDOA,结合阵元的空间坐标求出声源的位置[3].然而,根据麦克风阵列的模型和声源传播模型构建的声源定位模型是一组复杂的非线性方程,一般的方法是通过求解方程组得到时延和声源坐标的数值关系.但是在解方程组的过程中进行简化运算,从而约减得到近似的结果.但是当声源位于近场时,即当阵列中麦克风之间的距离相对于声源到阵列的距离不能忽略时,此时假设和约减就不能成立了,这样也减少了声源定位模型的适用范围.然而人工神经网络不仅提供了解决复杂的非线性问题的方法并且可以按照给定的精度逼近复杂的非线性系统[4].因此,可以应用神经网络表达这种复杂的非线性方程,实验表明该算法运算速度快、声源定位精度高、鲁棒性好.

本文采用正四面体麦克风阵列,利用基于 RBF 神经网络声源定位模型,研究全范围内(即目标声源在近场及远场的环境下)麦克风阵列位姿的不确定对定位的方位角和俯仰角的误差产生的影响.正四面体阵列具有结构简单,性能优良的特点,相对于平面阵列此阵列对于二维和三维空间内的目标声源具有良好的定位性能[5].

1 三维麦克风阵列定位模型

假设目标声源目标 S ,空间坐标为 x,y,z ,阵列由 4 个全向型麦克风组成正四面体结构,其中每个麦克风之间的距离即正四面体的棱长 a=0.24m.图1 表示正四面体麦克风阵列模型.

声源 S 在平面上的投影为 S',是 OS'与 x 正方向的夹角,为声源的方位角是与轴正方向的夹角,为声源的俯仰角.则4个麦克风在三维空间中坐标分别为 M1(3a/3,0,6 a/12),M2(3 a/6,a/2,6 a/12),M3(3 a/6,a/2,6 a/12),M4(0,0,6 a/4).假设目标声源 S到原点的距离为r,水平距离为 L.以麦克风 M4为参考点,d10为声源 S 到麦克风 M1的声程,d21,d31,d41表示声源 S 到麦克风 M1与到麦克风 M2, M3,M4的距离差.c表示声音传播速度,则有 di1=SMiSM1=c × ti1,ti1表示目标声源到达麦克风 Mi和 M1的时间差,其中(i=2,3,4).

图1 正四面体麦克风阵列模型Fig.1 The regular tetrahedronmicrophonearraymodel

2 基于RBF神经网络的定位模型

2.1 RBF 神经网络的结构

径向基RBF(RadialBasisFunction)神经网络作为一种特殊类型的单隐层前馈神经网络,它采用局部接受域来执行整函数映射的功能[6].RBF 神经网络结构简单、训练时间短、学习和收敛速度快、具有最佳的逼近性质,目前广泛应用于模式识别领域,目标预测和工程插值计算[7].

基于 RBF 神经网络的定位模型中输入层的 3 个数据是声源到达麦克风 M1和 Mi的声达时间差 ti1(i=2,3,4),网络的输出是声源的位置,即方位角,俯仰角和距离.声源定位模型中采用 RBF 神经网络,主要利用了 RBF 神经网络的高度非线性映射的特性,它可以映射出时延值作为网络的输入、声源位置作为网络输出两者之间的关系[10].网络的隐含层非线性激活函数选用高斯函数,实现输入层和隐含层之间的非线性变换,输出层对应为声源的坐标位置,选择适当的学习算法进行训练,获取相应的网络参数[11].

2.2 RBF 神经网络的训练数据选择与归一化处理

图1 所示的麦克风阵列是正四面体结构,阵元 M1,M2,M3,M4位于以为球心,以 o 为半径的正四面体外接球的球面上.实验中,选取神经网络训练的输出数据即声源的位置位于以 o 为球心,半径为 4.3m 的球的上半球球面上,声源在 xoy 平面上投影以 o 为圆心,半径 0.3m 到 4.3m 间隔为 0.4m 的 10 个同心圆圆周上,在同一个圆周上相邻两个声源投影的间隔为 20,总 180 组位置坐标.取声速为 340m/s,根据定位模型和声源位置的几何关系,计算时间差,得到 1 800 组的输入及输出数据作为神经网络训练数据.测试数据的选择:在训练数据声源位置取值的上半球内,以半径 0.3m 到 1.5m 的同心球环内的点为近场声源位置,1.5 m 到 4.3m 的同心球环内的点为远场声源位置;在近场和远场所属的四个象限内每个象限分别随机生成的 25组位置坐标,并计算时间差,近场和远场分别选取 100 组作为神经网络的测试数据,用来检测神经网络定位模型的性能.

训练和测试数据采用最大最小法进行归一化处理.数据的归一化处理是利用神经网络进行预测前必须完成的,其目的是为了避免由于数据的维数不同和数量级的差异而引起神经网络预测产生较大的误差[12].

3 阵列位姿的不确定对定位误差的影响

3.1 MATLAB 仿真及分析

声源定位采用基于RBF神经网络以实现对目标声源的跟踪为目的,预测出方位角和俯仰角,确定目标声源的空间方向从而实现对声源的跟踪.为了验证设计的网络在远场和近场对声源的定向情况,分别选取远场和近场测试样本各 100 组数据,用已训练好的RBF网络进行预测,实验结果如图2、图3 和图4 所示.

图2 远场声源测试误差Fig.2 Far-field sound source testerror

图3 近场声源测试误差Fig.3 Near-field sound source testerror

图2 为远场声源 100 组预测数据的方位角和俯仰角的预测误差,其中方位角的误差范围为 ± 0.6 °之间,俯仰角的误差范围为 ± 0.6 °之间.图3 近场声源为 100 组预测数据的方位角和俯仰角的预测误差,其中方位角的误差范围为 ± 2°之间,俯仰角的误差范围为 ± 2°之间.

分析2:由知,焦点F(1,0)为△ABC的重心,设A、B、C在抛物线y2=4x上的横坐标分别为x1,x2,x3,则x1+x2+x3=3×1=3.根据抛物线的焦半径公式,=+(x1+x2+x3)=3+3=6

对比图2和图3可知,相比于近场声源,定位模型对于远场声源的定向精度较高,这是由于声源在近场环境中,阵列中阵元间的时延值之间的差值相对较小,神经网络的拟合与预测能力也有限.

图4 远场声源定位距离误差Fig.4 Far-field sound source localization error distance

图4 为远场声源 100 组数据的距离预测误差,由图2和图4可知,即使声源位于远场、方位角误差很小的情况下,RBF神经网络定位模型对声源距离的预测误差也很大.这是因为实验中,麦克风阵列属于小型阵列,阵元间的距离仅为 0.24 m,远小于阵列与声源之间的距离,因此,基于RBF神经网络的定位模型无法对声源距离参数做出准确的预测,故文中只对方位角和俯仰角误差做出分析.

上述 MATLAB 仿真实验证明了基于 RBF 神经网络的声源定位模型,在输入相应的时延数据的条件下,无论目标声源是处于远场还是近场的环境下,都可以比较精确的预测其方位角和俯仰角,从而,说明了该定位模型的适用性强、定位精度高.

利用基于RBF神经网络的声源定位模型研究麦克风阵列位姿的不确定对声源目标定位精度产生的影响是下一步进行的工作.首先研究声源在近场情况下,麦克风阵列位姿的不确定对声源定位的方位角和俯仰角误差的影响,取声源与阵列的水平距离 L=0.5m,实验结果分别如图5 和 6 所示.

图5 近场声源方位角误差Fig.5 Near-field sound source azimuth error

图6 近场声源俯仰角误差Fig.6 Near-field sound source pitch angle error

为了进一步验证声源在近场情况下,研究麦克风阵列位姿的不确定对定位的方位角和俯仰角误差的影响,取声源与阵列的水平距离 L=1m,实验结果分别如图7和8所示.

由图8对比图6可知:当声源在近场的环境下,阵列位姿的不确定对俯仰角误差的影响比较大;随着声源和阵列之间距离的增大,影响的程度在逐渐的减小.

为了研究声源在远场情况下,麦克风阵列位姿的不确定对定位的方位角和俯仰角误差的影响,取L=2m,实验结果分别如图9和 10所示.

由图9可知:相比较于声源在近场时,当声源位于远场的情况下,方位角误差也呈现出规律性的变化,但是麦克风阵列位姿的不确定对方位角误差的影响比较小;当阵列与声源之间的夹角的为 0°、± 60°、± 120 °、± 180 °时,此时声源的方位角误差最小;在方位角一定时,随着俯仰角的增大,方位角的误差只是略有增大.

图7 近场声源方位角误差Fig.7 Near-field sound source azimuth error

图8 近场声源俯仰角误差Fig.8 Near-field sound source pitch angle error

图9 远场声源方位角误差Fig.9 Far-field sound source azimuth error

图10 远场声源俯仰角误差Fig.10 Far-field sound source pitch angle error

由图10可知,相比较于声源在近场时,当声源位于远场的情况下,俯仰角一定时,误差也呈现出规律性的变化,但是麦克风阵列位姿的不确定对俯仰角误差的影响比较小.

3.2 仿真结果分析

由图5~图10可知:在全范围声源目标定位中,当声源位于近场的情况下,麦克风阵列的位姿的不确定对方位角和俯仰角的定位误差的影响比较大,随着阵列和声源的距离的增大,影响的程度而逐渐的减小;当声源位于远场时,阵列位姿的不确定对方位角和俯仰角的定位误差的影响都比较小.

3.3 定位模型的性能评价

为了验证上述根据理论值仿真所得出阵列位姿的不确定对定位精度产生影响的结论,采用实验室环境作为实验数据采集环境,采集声达时间差,利用实测值进行仿真.实验室房间大小为8m×6m×3m,数据采集平台包括:正四面体麦克风阵列、数据采集卡、激光测距仪、卷尺、音箱等,声源音频内容为发令枪声.

测试声源在 xoy 平面上投影以 o 为圆心,半径 0.5m和 1.2m 的 2 个同心圆圆周上,在同 1 个圆周上相邻两个声源投影的间隔为 4 °,音箱固定在支架上,声源相对高度约为 0.07m,2 个同心圆周上声源的俯仰角分别为 82.3 °和 86.8 °,每个圆周取样 90 组数据,测试数据共 180 组,激光测距仪的测量精度为 ±1.5mm.数据记录表格如表1和表2所示.

表1 声源在半径为 0.5m 的圆周上时的声达时间差值Tab.1 Sound sources in a 0.5m radiusof the circum ference of the time difference ofarrival

表2 声源在半径为1m的圆周上时的声达时间差值Tab.2 Sound sources in a 1m radiusof the circum ference of the time differenceof arrival

采用已建立的基于RBF神经网络的声源定位模型验证上文阐述的麦克风阵列位姿的不确定对声源目标定位精度产生影响的结论,实验结果分别如图11 和 12 所示.

由图11 可知,声源位于半径 0.5m 圆周上,俯仰角为 82.3 °时,根据实测数据可得出:阵列位姿的不确定对方位角误差的影响比较大,误差范围为 4°~4°,并且误差也呈现出规律性的变化;俯仰角误差范围 4°~ 2°;对比图5和图6中俯仰角为90°时的仿真曲线可以看出利用理论值和实测值仿真所得的结论是相似的.

由图12可知,声源位于半径 1 m 圆周上,俯仰角为 86.8 °时,根据实测数据可得出:此时方位角的误差范围为 2°~ 2°,并且误差也呈现出规律性的变化;俯仰角误差范围 1.5 °~0 °;对比图7 和图8 中俯仰角为 90 °时的仿真曲线也可以看出利用理论值和实测值仿真所得的结论是相似的.

图11 声源位于半径为 0.5m圆周上的定位误差Fig.11 Sound sources in 0.5m radiusof the circum ference of the localization error

4 结论

本文首先设计了一种基于 RBF 神经网络声源定位模型,利用 MATLAB 仿真实验证明了其适应性强和精确度高.然后,利用该模型研究了麦克风阵列位姿的不确定对声源定位中方位角和俯仰角误差的影响,最后利用实验平台测得数据进行了验证,从而说明了结论的可靠性.但是由于单次定位的局限性以及神经网络拟合能力有限,该模型并不能很好地预测声源的空间距离.因此,如何实现对空间距离的准确预测及阵列位姿的不确定对定距产生的影响是下一步要做的工作.

图12 声源位于半径为1m圆周上的定位误差Fig.12 Sound sources in 1m radiusof the circum ferenceof the localization error

[1] 金光明,谢植,张传义.基于麦克风阵列多声源定位的新方法 [J].东北大学学报:自然科学版,2012,33(6):769-773.

[2] 李晓飞,刘宏.机器人听觉声源定位研究综述 [J].智能系统学报,2012,7(1):9-20.

[3] 王震.基于互功率谱相位时延估计的声源定位系统研究 [D].天津:天津大学,2010.

[4] 国蓉,何镇安.基于多级神经网络的被动声定位算法研究倡 [J].计算机应用研究,2011,28(6).

[5] 陆灏铭,陈玮,刘寿宝.基于麦克风阵列的声源定位系统设计 [J].传感器与微系统,2012,31(4):79-81.

[6] 彭显刚,胡松峰,吕大勇.基于 RBF 神经网络的短期负荷预测方法综述 [J].电力系统保护与控制,2011,39(17):144-148.

[7] 乔俊飞,韩红桂.RBF 神经网络的结构动态优化设计 [J].自动化学报,2010,36(6):865-872.

[8] 张雨浓,李克讷,谭宁.中心-方差及权值直接确定的 RBF 神经网络分类器 [J].计算技术与自动化,2009,28(3):5-9.

[9] 雷升锴,刘红阳,何嘉,等.动态 K-均值聚类算法在 RBF 神经网络中心选取中的应用 [J].信息系统工程,2011 (6):83-85.

[10]Arslan G,Sakarya F A.A unified neural-network-based speaker localization technique[J].IEEE Transactionson Neural Networks,2000,11(4):997-1002.

[11]Arslan G,Sakarya F A,Evans B L.Speaker localization for far field and near field wideband sources using neural networks[J].Proc IEEE EURASIPWorkshop on Nonlinear Signal and Image Processing,1999,2:569-573.

[12] 杨鹏,邢钰姣,孙昊,等.基于 BP 神经网络的正四面体阵列声源定向研究 [J].传感器与微系统,2012,31(5):8-9.

[责任编辑 代俊秋]

Research on the relationship between the array pose of sound source localizationmodelbased on TDOA w ith localization error

SUN Hao, ZHONG Wei-can, LIU He-yang, ZU Li-nan
( School of Control Science and Engineering, Hebei University of Technology, Tianjin 300130, China )

The precision of sound source localizationmodel based on the time difference of arrival(TDOA)and tetrahedralm icrophone array is affected notonly by the installation location of the array element error,time delay and ambientnoise,butalso by themicrophonearray pose.Theunpredictability ofarray pose causesdirectly theuncertainty of time difference of arrival,and it influences further the results of localization.Taking the full range of the target sound source localization application as thebackground,the RBF neuralnetworkmodelof the sound source localization were used to research them icrophone array pose uncertainty on the impactof sound source localization error.

time difference of arrival;sound source localizationmodel;array pose;RBF neuralnetwork

1007-2373(2014)05-0008-07

TP242.6

A

10.14081/j.cnki.hgdxb.2014.05.002

2014-04-08

国家自然科学基金(61305101);河北省自然科学基金(F2014202121,F2010000137)

孙昊(1979-),男(汉族),讲师,博士.

猜你喜欢
正四面体远场麦克风
GRAS发布新12Bx系列、支持TEDS的测量麦克风电源模块
Binaural Rendering based on Linear Differential Microphone Array and Ambisonic Reproduction
椭偏高斯光束经过非线性介质后的远场衍射图样
基于仿真与实测的列车远场气动噪声分析
麦克风的艺术
某种阵列雷达发射通道远场校准简易方法
麦克风
战斗部远场水下爆炸对舰船冲击损伤评估
构造正四面体巧解立体几何问题
正四面体外接球和内切球的半径的求法