电声伪装语音的音高模式比对研究

2012-04-24 10:37张红兵
中国刑警学院学报 2012年1期
关键词:变声基频声调

张红兵

(中国刑警学院 辽宁 沈阳 110035)

电声伪装语音的音高模式比对研究

张红兵

(中国刑警学院 辽宁 沈阳 110035)

伪装语音是司法语音检验领域常见的检材形式,给话者鉴别带来诸多困难。本文针对电声伪装语音,通过图谱和数据分析的方法得出多个语音库变声前后的基频变化规律,结果表明变声前后的基频存在着线性关系,可借助汉语音高模式比对的方法实现电声伪装语音的话者鉴别。

伪装语音 音高模式 归一化 话者鉴别

基频作为语音检验领域最为重要的声学特征之一,在话者鉴别工作中有着不可或缺的应用价值。汉语是声调语言,声调是具有区别意义的音高变化,音高的不同不会引起声调的变化,音高变化的不同才会引起声调的变化。由于不同人的音域不同,并且在具体的司法语音检验过程中,由于检材的易伪装性以及所附带的信道信息、话音提取方式等因素不同,话者基频极易发生某种程度上的变异,从而否定了基频数据的可比性。其中伪装语音作为司法语音检验领域常见的检材形式,对其进行话者鉴别尤为困难,电声伪装是目前比较典型的个性化语音伪装方式之一。

通过变声软硬件技术对说话人的自然语音进行个性化伪装,导致一般的受话者很难识别发音人的身份、年龄甚至性别,严重影响了司法语音检验的鉴定效果,给司法鉴定工作带来很大麻烦。本文针对电声伪装方式,重点研究变声前后语音特征的变化规律,根据这一声学特征变化规律,并结合汉语音高模式理论,深入分析话者变声前后基频数值变化的规律性,进而比对两者音高模式曲线是否存在差异。通过比对音高模式为此类语音的话者鉴别提供科学有效的方法。

1 汉语音高模式

普通话中的音高变化不同,形成了普通话的四个声调,汉语的音高变化承载了丰富的语音、语言学信息,这些复杂的变化,也反应了说话人的音高特点。一般用调形和调值来描写汉语声调,调形是声带颤动时基频变化形态的反映,从声调的最低音到最高音是基频的变化范围,即声调调域。汉语音高的变化存在着诸多的内部差异,为了分析其各种个性特征,有必要对音高变化做详细的分解,这样才能得出个体声调的具体差异。

话者基频由于伪装发生某种程度上的变异,从而否定了基频数据的可比性。针对上述问题,对于话者音高特点的比较,研究者曾经提出声调格局的理论,即通过测量不同测量点的基频数据,进行归一和相对分析,用曲线表征话者四种声调的变化格局,从而在一定程度上避免了外界因素对基频的干扰。

1.1 基频获取与处理

目前关于基频提取的方式方法有很多,个别采用简单地直接选取音节区域求平均值,或者测量某次谐波频率值,再除以谐波数后作数据分析;要么是利用复杂的算法提取基频,并考虑抗噪性等诸多因素。前者操作虽然简单,但测量误差较大,对于基频比较意义不大;后者提取精度较高,但需要复杂的算法运算以及后期大量的数据处理,况且无论采用哪一种算法所求得的基音周期轨迹,都与真实基音轨迹不可能完全吻合。基于此,笔者采用Praat软件对基频进行标注和测量分析,同时对所得到的曲线做人工调整,保证曲线的平滑。

图1 Praat基频标注分析图

在经过抽取和平滑后的音高曲线上平均选取10个采样点,分别测量其基频数值。针对同一声调,用长度平均值(L)做归一化处理,选取L±20%长度范围内的曲线作为测量对象,以避免基频时长问题带来的影响。

图中圆点表示程序分析出来的该时点的基频值,如果基频值较为工整,没有突起突落的现象,基本可以认定分析结果是正确的;如果有基频点游离于整体之外,需要特别注意和修改,基频值提取错误通常发生在基频段的起始和结束位置附近,另外如果基频比较低或者周期性不明确,需要事先对可疑点的基频值进行核查,以保证其误差在4Hz以内,同时辅助以窄带语图进行准确测量。

直接测量的基频数据有一定的浮动范围,不符合话者整体发音的音高特点,目前较科学的方法是结合赵元任的五度标调法以及声调格局的T值计算公式,把各基频数据归一化到5度值范围内。在对基频进行曲线平滑过程中发现,除了阴平曲线外的其他几类曲线都出现断点区域,因此以阴平均值作为基准参考值来形成音高曲线模型较为准确。

1.2 音高模式曲线拟合

通过数据测量以及五度归一化处理后,所生成的基频数据可以直接通过Excel软件进行多次拟合,以解决极值、拐点以及最小曲率半径等问题,从而形成平滑的音高模式曲线。通过对音高模式图直观的观察比较,可以很容易地总结话者的音高水平和特点。除了比较其整体形态变化外,还可以通过参数描述等方式来具体比对分析,例如:模式中音高上限值、下限值、阴平均值、各曲线的起始值、曲线上升段和下降段的斜率等。另外需要特别注意的是曲线的“弯头段”和“降尾段”,考虑到发音起始点和结束端稳定性问题,在比对分析的时候需要做适当修正。

2 实验及其分析

通过选择不同话者进行不同声调语料库的正常与伪装发音,分析伪装前后基频数值的变化规律,并利用各自语料库拟合出音高模式曲线,利用比较分析音高模式曲线形态和音高模式参数的方法,研究分析音高模式曲线形态的稳定性,以及利用音高模式进行话者鉴别的可行性。

2.1 实验语料及设计

实验选择3男一女四个发音人,分别针对四个声调各100个音节进行正常发音和电声伪装发音,建立8个各400库容的语料库,A、B、C、D、AW、BW、CW、DW。录音环境选择专业录音棚,以保证较高的信噪比。

利用前面所述方法分别拟合出8语料库的音高模式曲线,然后进行话者自身和话者间的模式形态及参数比较。

2.2 实验结果分析

2.2.1 不同话者相同语料内容的音高模式比较。图2为从四个话者正常发音语料库中抽取的音高模式曲线。

图2 四个话者正常发音音高模式曲线

表1 四个语料库的音高模式参数

比较四个模式图可以看出不同话者的模式曲线有一定的差异。A、C相对于B、D在上声结尾处有弯曲,表现出前两位话者在上声结尾处有收音现象;A、C相对于B、D的阳声与去声交叉点有明显差异,前者在4值以上,其中C更高,而后两者在4值以下,D尤为明显,表现出他们阳声的上升速度或去声的下降速度有差异;另外各个话者阳、上、去四线交叉组成的空白区形状也有较明显差异。上述分析结果证明话者间的音高模式曲线存在本质差异。

2.2.2 伪装前后基频数值分析

使用变声器分别对四个发音人变低声和高声,测量变声前后基频数值并进行统计分析,统计标准差均在0.05以下。结果表明变声伪装语音前后基频值有很强的相关性,之间存在很强的线性比率关系,变声后可以通过倍数关系恢复到原声水平。

表2 四个话者变声后基频数值变化表

2.2.3 同一话者相同语料伪装前后的音高模式比较。图3、图4分别是从B和BW语料库分别抽取的音高模式曲线。

图3 正常音高模式

图4 伪装音高模式

两模式图虽然存在些许差异,但从整体形态和各音高模式参数的比较分析来看,伪装前后的音高模式未发生质的改变,曲线形状基本相同,曲线间的相对位置关系也较为相似,模式中音高上下限(音域)基本都处于6.1-1.7之间,各曲线的起始值基本相同;上声和去声结束端有一定差异,是由于话者发音时尾音稳定性不够以及测量误差等原因。两个模式曲线各方面特征表现一致,说明话者伪装前后各声调发音的变化规律相同。因此,利用音高模式进行话者鉴别的方法适用于变声伪装语音。

3 结论

汉语作为声调语言,对其音高的相关比对分析,是司法语音检验过程中实施话者鉴别工作的重要方面,特别是针对伪装语音时,汉语音高模式的比较分析更能客观准确地体现话者的音高变化规律。

本文结合五度标调法和声调格局理论,通过Praat和Excel等常规软件实现了话者音高模式的测量和拟合抽取。在对各语料库变声前后基频数值统计分析的基础上,分析得到变声前后语音基频存在较强的线性比率关系,进而在变声前后的曲线形态和模式参数等方面分别比较了同一话者相同语料伪装前后的音高模式。综合分析实验结论,总结出话者自身音高模式存在着相对稳定性,不同话者间存在着明显的音高模式差异性,可以通过比对音高模式曲线形态和参数差异的方法,辅助进行电声伪装语音的话者鉴别。

1.江太辉.一种改进的语音基频轮廓提取算法[J].五邑大学学报(自然科学版),2002年6月

2.焦立为.汉语方言声调格局的类型学研究[J].南开语言学刊,2007年第2期

3.宋蔚巍,杜新宇.三次曲线拟合的一种简便方法[J].信息技术,2008年6月

4.冯青青.哈尔滨方言声调格局的实验研究[J].辽宁工程技术大学学报(社会科学版),2008年5月

5.张桂清,金怡珠,刘红伟,崔效义.电子伪装语音的变声规律研究[J].证据科学,2010年10月

猜你喜欢
变声基频声调
融合CNN和Transformer编码器的变声语音鉴别与还原
语音同一认定中音段长度对基频分析的影响
基于时域的基频感知语音分离方法∗
声调歌
拼音宝宝扛声调
桥面铺装层对中小跨径桥梁基频影响分析
木星地
坐着轿车学声调
单韵母扛声调
基于深度学习算法的真人变声设备的设计与实现