基于DTW距离的普通话儿化音变差异分析

2023-06-15 18:00段嘉华冉启斌梁煜珠许可

现代语文 2023年3期

段嘉华冉启斌梁煜珠许可

摘要：为了量化儿化音变对音节的改变量，基于动态时间规整算法，計算汉语普通话儿化音节音变前后最小对立对之内的声学距离（EX）、重复同一未发生儿化音变音节之间的距离（NIN）和重复同一儿化音节之间的距离（EIN），并将EX距离与NIN、EIN距离的差值EX-NIN、EX-EIN作为衡量儿化音变对声学距离改变量的参数。结果表明，EX距离显著大于NIN距离和EIN距离。不同发音人儿化音变改变量之间具有一定的人际差异。从不同词项、未儿化韵母和儿化韵的角度来看，均能得出拼合型儿化韵音变量总体大于融合型音变量的结论。其中，[i]-[i?r]的儿化改变量显著大于其他元音。在儿化音节属于不同声调时，上声时长最长，因此儿化音变量最大；去声时长最短，所以儿化改变量最小。单音节词的儿化音变改变量显著大于双音节词的改变量。性别与框架句对儿化音变改变并没有显著影响。

关键词：儿化；普通话；声学距离；动态时间规整算法

一、引言

总的来说，普通话儿化音变是一个综合复杂的过程。李思敬认为，[?]儿系字韵母是一个复合元音[1]（P103）。王理嘉、贺宁基则认为，北儿化韵的卷舌成分并不是一个在时间序列上单独存在的音素成分，而是贯穿于整个韵母的一种卷舌色彩[2]（P36）。刘新中等从发音生理角度出发，认为儿化的实质是一个音节中主要元音卷舌带来的儿音音色[3]（P90）。

在声学上，一个元音最重要的特征就是第一、第二共振峰，儿化卷舌的动作使元音第三共振峰降低，从而靠近第二共振峰，因此，F2-F3的间距就是儿化色彩的重要声学特征。如果卷舌动作的舌头形状使声腔分出三个部分，则F2与F3相对靠近；如果只有两个声腔，则距离较大。

关于儿化的分类，王理嘉、贺宁基根据听感和声学实验，以及韵母儿化后的实际发音，将北京话的儿化分为[ar]、[?r]、[ur]和[?r]四类[2]（P39）。如果按照鲍怀翘将[?r]类归并入[?r]类的做法，则可以分为三类，与舌尖上翘最高位置的类型一致[4]（P106）。李思敬将儿化韵分为两个大类：一种是拼合型，一种是化合型[1]（P112-137）。石锋在李、王、贺的基础上，将儿化韵依声学表现分为三类：拼合型、融合型和鼻化型，其中，鼻化型是与拼合、融合共现的鼻化形式[5]。拼合型发音是卷舌动作接续在主元音之后，融合型发音是卷舌动作与音节主元音同时开始。本文主要是基于王理嘉、贺宁基（以下简称“王贺类”）和石锋（以下称“石类”）对儿化韵的分类而展开的。

本实验旨在研究普通话音节在儿化音变前后的差异度，力图探究儿化音节音变前后的声学距离（Acoustic Distance）。关于汉语语音声学距离的测量，陈赛界定了汉语声母间的声学距离为各类声母间的类间距离，各声母样本间的声学距离为各样本间的类内距离，将每一个声母样本的所有帧的6种时域特征向量相加再除以帧数，得到的特征向量作为该声母样本的声学描述，并对归一化后的声学特征计算类间和类内的距离[6]（P14-19）。Mielke采用了DTW算法，计算了58个音素之间的声学距离，并使用邻接树（Neighbor-Joining Tree）法、主成分（Principal Components）分析法，绘制了58个音素的分类及分布情况[7]。Kelley等学者则比较了词汇的DTW声学距离与语音邻域密度在量化语音词汇差异上的效果，认为声学距离比语音邻域密度更能描述词汇对比的效果，更倾向于使用声学差异性而非语音邻域密度来描述词汇差异[8]。

动态时间规整（Dynamic Time Warping，简称“DTW”）算法，将两个声音文件看作同等长度，把声音波形转换为梅尔频率谱，寻找两个声音之间的最短路径，从而得到它们之间的距离。DTW算法主要适用于数个音素组成的语音片段之间或单个词之间的距离计算。本实验选择DTW算法，主要在于量化儿化这一音变对音节改变所产生的影响，并从中发现一些影响因素，同时，排除人为因素的介入，从更加客观的声学角度出发来进行计算。目前的语音处理领域中，计算语音相似度的主流算法主要是基于神经网络模型，如RNN、CNN等，或者是一些统计模型，如GMM、SVM等。这些方法都取得了不错的效果，但是这些模型不仅需要前期大量数据的输入以获得训练，还需要人为的筛选分类等数据处理工作，这样就会有失客观，并且与音变量化的目标有一定距离[9]（P42-53）。

本文所研究的“声学距离”，就是基于不同音频MFCC特征的并采用DTW算法计算的数值结果，通过这种方法，来量化儿化音变对未发生儿化音变音节的改变量。DTW算法在语音距离计算方面得到了一系列应用。冉启斌采用DTW算法来计算不同语言之间词汇的声学距离，并将其作为一种语言分类的方法[10]；韩璐璐、王鸿宇、梁煜珠分别采用DTW距离计算汉语普通话声母、韵母、声调的距离，并在此基础上用作一种聚类分类的手段[11]-[13]。

二、实验设计

（一）实验对象与材料

本实验共有10名发音人，5名男性，5名女性，均为南开大学在校学生。年龄在21到25岁之间，平均年龄为23岁。为了保证发音人的普通话标准程度，选取的发音人均为北方官话母语者，并且从小学开始就受到良好的普通话教育。其中，3名来自山东省，2名来自辽宁省，其他分别来自天津、黑龙江、河北、河南、山西各地。

本实验的研究对象为普通话儿化音节与非儿化音节之间的距离。语料选择均为普通话中实际存在的词，通过儿化音变使一个词的意义改变，形成音变前后只有单一变化的音节对立对（最小对立对），如“盖—盖儿”，以保证音节对立对的声韵调中只有儿化的音变，没有其他的变量。

虽然普通话的所有音节都可以儿化音变，但在词汇层面只依靠儿化来区别意义的最小对比对在普通话中并不多。在本实验的语料中，共涉及到17种声母、22种非儿化韵母、14种儿化韵母。声母中的发音方法涉及到塞音、擦音、塞擦音、鼻音、边音，普通话中的发音部位从双唇到软腭音都有覆盖；韵母则涉及到单元音、二合元音、三合元音，鼻韵尾和非鼻韵尾，前元音与后元音、高元音和低元音、圆唇元音和非圆唇元音都有覆盖。从王贺类的角度来看，语料中则包含了这四种儿化韵；从石类分法来看，三种类型也均出现在语料中。

本实验设计的语料中有单音节词和双音节词两种。为了自然地呈现音变的特征，除了每个詞的单独发音外，还将每个词都放入“我读～这个词”的框架句内。为了降低发音状态对发音声学特征的影响，每个词均出现3次，并且所有的词在录音时随机显示。因此，本实验共有40个对立对，由于每对2个词，实际上共有80个词。每个词包含单独发音和出现在框架句内两种情况，共160个不同发音单元，每个发音单元出现3次，最终每名发音人有480次发音，10名发音人共有4800个原始音频文件。

本实验中，非儿化词与儿化词最小对立对语料，具体如表1所示：

本试验中，目标音节的声母、儿化前韵母、儿化后韵母、两种儿化分类以及声调的情况，具体如表2所示。其中，普通话四个声调分别用“T1、T2、T3、T4”表示，零声母用“j”表示。

（二）实验材料与方法

在南开大学语音实验室中，利用电脑外接电容麦克风，并使用“北语录音（byly）”软件进行录音。声音保存格式为.wav，采样率为44100Hz，存储位数是16位，单声道录制。录音结束后，使用Praat脚本对声音材料进行处理。首先进行人工标注，然后切出目标音节，分别在每名发音人各自的样本集中，计算每个音节对立对内两两之间的声学（DTW）距离，标记为“EX”。无框架和加上框架句的同一对音节分开计算，不同框架句条件的音频没有交叉计算。为了比较儿化音变对声学距离的改变量，同时还计算了同一个发音人同一个词的目标音节在音变前重复三遍之间的距离，标记为“NIN”；以及同一个发音人同一个词的目标音节在音变后重复三遍之间的距离，标记为“EIN”，并将它们作为参考值。EX距离与NIN距离的差值EX-NIN、EX距离与EIN距离的差值EX-EIN，均可以作为衡量儿化音变对声学距离改变量的参数，并把EX-NIN与EX-EIN之和的平均值定义为儿化音变改变量。

儿化距离计算的单位是整个目标音节。DTW可以对不同音段进行动态规整，用于衡量不同长度的时间序列之间的相似度，能够有效解决录音过程中实际音段长度不等的问题。计算的结果使用R语言tidyverse包等进行基本的数据处理，并生成相应的折线图。将距离结果与多种分类变量相联系，考察不同分类变量数据是否存在显著差异。

三、结果与分析

关于EX距离，10名发音人的总体平均值约为135，总体的标准差为35，最小值52，最大值342。关于NIN距离，10名发音人的总体平均值约为77，标准差为16，最小值35，最大值187。关于EIN距离，10名发音人的总体平均值约为80，标准差为17，最小值41，最大值286。总体儿化音变改变量（EX-NIN与EX-EIN之和的平均值）为57。EX距离显著大于NIN和EIN距离，从标准差和最大值情况来看，NIN和EIN距离的离散程度相对较小、数值更加稳定。这可能是由于EX距离主要是由儿化音变产生的，而音变又会增加音频声学表现的不稳定性。

我们对10名发音人儿化音变的距离数据进行了统计，具体如图1所示：

图1中，发音人的命名方式为“P＋F（女）/M（男）＋编号”。其中，EX、NIN、EIN距离的平均值以及EX-NIN、EX-EIN值，采用五种不同的点线类型表示，并标出了每点的具体数值。图1中的横坐标为发音人，纵坐标为距离平均值及平均值差，数据以EX-NIN与EX-EIN之和的平均值从小到大依次排序。可以看出，每名发音人的NIN和EIN距离总体上相差不大，但是EX距离普遍大于前两者，平均值差值在35～73之间。这里以EX-NIN与EX-EIN之和的平均值作为标准，评价儿化音变相对原音节的改变量，因此，发音人PF3儿化音变的改变量最小，发音人PM5的改变量最大。

我们对40个词项的声学距离进行了统计，具体如图2所示：

从图2可以看出，40个词项的声学距离平均值差值从7到150都有存在。比较明显的是，不同词的儿化音变改变量差距较大，“理”这个词显著大于其他词，与最小的距离差值达到143；而其他词的距离从7逐渐增加到97。其中，儿化韵属于[ar]类的词音变量分布在中高部分，儿化韵属于[ur]类的词音变量分布在中低部分，儿化韵属于[?r]类的词音变量分布比较分散。同时，[ar]类词的距离总体大于[ur]类词的距离，也就是说，拼合型儿化韵音变量总体大于融合型。

我们对22种未儿化韵母的声学距离进行了统计，具体如图3所示：

其中，a图以王贺类填充纹理，b图以石类填充纹理，其平均值差值在14～125之间。值得注意的是，[i]这个韵母的儿化改变量显著大于其他韵母，与最小的距离差值达到了111，呈现出一种明显的二分趋势；其他韵母的距离从14逐渐增加到73。儿化后为[ar]类的韵母呈现两分的态势，其中，无韵尾的[a]、[ia]、[ua]元音音变量最小，有韵尾的元音音变量较大；儿化后为[ur]类的韵母音变量较小；儿化后为[?r]类的韵母音变量则呈现分散的局面。以石类来观察，拼合型音变量总体大于融合型的音变量，融合型中的[ou]、[?]两个韵母比较特殊，音变量较其他的元音稍大。

我们对14种儿化韵母的声学距离进行了统计，具体如图4所示：

其中，a图以王贺类填充纹理，b图以石类填充纹理，其平均值差值在27～125之间。值得注意的是，[i?r]这个韵母的儿化改变量显著大于其他的韵母，与最小的距离差值达到了98，也具有明显的二分趋势；其他韵母的距离从27逐渐增加到73。[?r]类儿化韵音变量总体大于[ur]类儿化韵音变量，[ar]类儿化韵呈现分散的局面。以石类来观察，拼合型音变量普遍大于融合型音变量，融合型中的[our]、[?r]两个儿化韵音变量较其他融合型的稍大。

我们对不同声调的声学距离进行了统计，具体如图5所示：

从图5可以看出，不同声调的声学距离的平均值差值在49～66之间。其中，上声的音变量最大，去声的音变量最小。儿化程度与声调有一定关系，据杨青、曹文的研究，阳平卷舌单音节“儿”、上声卷舌单音节“耳”的共振峰动程较大，去声卷舌单音节“二”相对较小[14]（P52-56）。刘新中等认为，音节的时长会强化儿化的效果，时长足够长，停留在目标位置的时间就长，儿化的程度就被加强；时间较短，儿化的效果也就会被弱化，如去声音节[3]（P89）。这就解释了上声音变量最大、去声音变量最小的原因，即不同声调的时长不同而影响儿化共振峰动程大小不同，上声时长最长，因此儿化音变量最大；去声时长最短，所以儿化改变量最小。

语料中有单音节的词和双音节的词，我们也对不同音节数量的声学距离进行了考察。研究发现，双音节词的平均值差值为50，单音节词的平均值差值为62，因此，单音节词的儿化音变改变量显著大于双音节词的改变量。

我们还对不同性别的声学距离与不同框架句有无情况的声学距离行了考察。研究发现，男性的平均值差值为53，女性的平均值差值为60，女性的儿化音变的改变比男性的稍大，但实际上并没有显著差异。有框架句的平均值差值为54，无框架句的平均值差值为59，无框架句的儿化音变的改变比有框架句的要大，但两者的差值并不明显。因此，性别与框架句对儿化音变改变并没有显著影响。

四、讨论

基于音变的量化数据，上文从多个语音学的角度分析了可能影响儿化音变量大小的因素，并且得到了拼合型儿化音变总体大于融合型儿化音变改变量的结论。从韵母和儿化韵角度考察时，可以明显观察到[i]-[i?r]的儿化改变量显著大于其他元音，而[a]-[ar]的儿化改变量小于其他元音。从儿化的分类角度来看，就相关数据而言，王、贺的分类没有石的分类更聚合。

（一）[i]-[i?r]儿化改变量显著大于其他元音，[a]-[ar]儿化改变量小于其他元音

比较突出的表现是，[i]-[i?r]的儿化音变量显著大于其他的元音，这是由于[i]元音舌位最高最前不方便直接卷舌，而要加上完整的[?r]元音来构成卷舌色彩，音节核从[i]替换为[?]，并且原来的[i]进一步弱化为一种音节首近音，因此，[i]-[i?r]的儿化音变量会非常大。同样是发生了韵核替换的[?]-[?r]，其儿化音变量并不大，处于居中的位置，这可能是因为[?]元音的舌位及共振峰与[?]元音都很相似。

在[ar]类儿化韵中，无韵尾的[a]、[ia]、[ua]元音儿化音变量最小，其他有韵尾的[ar]类儿化韵元音音变量较大。这可能是因为无韵尾的[ia]、[ua]元音中韵头的[i]、[u]并不是饱满的元音，而是近似于近音，因此对整个音节的声学距离影响不大，并且普通话元音[a]是处于舌位居中的位置，[ar]儿化韵实际上也没有到[?r]的舌位高度，而是[?r]的位置，因此，它实际是[ɑ?]-[?r]的變化，儿化音变的改变量较小。

（二）拼合型总体大于融合型音变量，石类分法结果更聚合

结合图2、3、4来看，[ur]类整体音变量较小，[ar]类除无韵尾的元音整体音变量偏大，[?r]类的音变情况较为离散。如果将[?r]类儿化韵、[?r]类儿化韵与[ar]类合并，就是石类中的拼合型，语料中的鼻化型也是属于与拼合型共现的情况。如此比较，除了几个离散在外的元音，整体上呈现出拼合型儿化韵音变量大于融合型儿化韵的音变量的结果，聚合效果更佳。由此可知，这种二分法不失为一种更强的、更本质的归纳儿化韵的方法。

石锋指出，拼合型和融合型的区分并不是绝对的，而是一种优势选择的趋势[15]（P77-90）。所有儿化韵一开始都是拼合型的，之后一部分发展到了融合型。这个过程不仅有先有后，也是因人而异的，存在一个拼合型到融合型的连续统。因此，在本实验的语料中，[i]-[i?r]的儿化改变量显著大于其他元音，可能是因为[i]-[i?r]儿化完全处于连续统的拼合型一端，其他拼合型的儿化韵则因人因音的缘故，也许会有一部分融合型的发音，所以音变改变量平均降低，这也证明了[i]-[i?r]儿化在儿化类型连续统上的特殊地位。

五、结语

本实验使用DTW算法来量化儿化音变对音节的改变量。结果表明，EX距离显著大于NIN和EIN距离；同时，相比于EX和EIN距离，NIN距离的离散程度相对较小、数值更加稳定。这可能是由于EX、EIN距离都有儿化音变的参与，而音变会使音频的声学表现更加不稳定和趋于多变。在现实生活中，即使是同一个人，也不可能存在两次发音完全相同的情况，NIN距离实际上可以被认为是一种“个人随机差异”，即同一名发音人用同样的文本内容在不同时间下的不同发音之间的声学距离。

总之，不同发音人儿化音变改变量之间具有一定的人际差异。从不同词项、未儿化韵母和儿化韵的角度来看，均能得出拼合型儿化韵音变量总体大于融合型音变量的结论，其中，[i]-[i?r]的儿化改变量显著大于其他元音。在儿化音节属于不同声调时，上声时长最长，因此儿化音变量最大；去声时长最短，所以儿化改变量最小。单音节词的儿化音变改变量显著大于双音节词的改变量。性别与框架句对儿化音变改变并没有显著影响。

前人研究儿化，主要是着眼于音系、词汇或语法上念儿化的条件，探究儿化音变的声学关联物与儿化的感知线索。儿化作为一种复杂综合的音变方式，各种不同的语音特征相互影响，综合呈现为儿化音变，分析各个离散的参数特征的表现，或许会忽视了其相互之间的影响作用。本文则从计算声学距离即频谱差异的角度出发，将儿化音变对音节的改变量予以量化，把语音看作一个整体而相互比较，而不是把音高、音强、共振峰、谐波差、声调等特征分离开来，这也许能为语音研究中的其他复杂综合音变提供一种较为可行的新思路和新方法。

参考文献：

[1]李思敬.汉语“儿”[?]音史研究[M].北京：商务印书馆，1986.

[2]王理嘉，贺宁基.北京话儿化韵的听辨实验和声学分析[A].林焘，王理嘉，等著.北京语音实验录[C].北京：北京大学出版社，1985.

[3]刘新中，梁嘉莹，周一民.普通话儿化音色的决定因素：主要元音和鼻韵尾[J].广东技术师范大学学报， 2022，（2）.

[4]吴宗济，林茂灿主编.实验语音学概要[M].北京：高等教育出版社，1989.

[5]石锋.北京话儿化韵的声学表现[J].南开语言学刊， 2003，（2）.

[6]陈赛.汉语声母声学距离与感知距离关系的研究[D].天津：天津大学硕士学位论文，2014.

[7]Mielke，J.A phonetically based metric of sound similarity[J].Lingua，2012，（2）.

[8]Kelley，M.C. & Tucker，B.V.Using acoustic distance and acoustic absement to quantify lexical competition[J].Journal of the Acoustical Society of America，2022，（2）.

[9]熊思兰.面向认知的语言距离计算[D].哈尔滨：哈尔滨工业大学硕士学位论文，2018.

[10]冉启斌.基于词汇声学距离的语言计算分类实验[J].民族语文，2020，（3）.

[11]韩璐璐.汉语普通话声母的声学距离与分类[J].南开语言学刊，2021，（2）.

[12]王鸿宇.汉语普通话韵母的声学距离分析[J].南开语言学刊，2021，（2）.

[13]梁煜珠.汉语普通话单字调的声学距离与分类[J].南开语言学刊，2021，（2）.

[14]杨青，曹文.儿韵的构音方式和实际音值[A].李爱军主编.中国语音学报（第七辑）[C].北京：中国社会科学出版社， 2017.

[15]石锋.北京话儿化韵十题[A].石锋编著.银龄集[C].天津：南开大学出版社，2020.

An Analysis on the Difference of Vowels Rhotic Change in Mandarin Based on DTW Distance

Duan Jiahua，Ran Qibin，Ling Yuzhu，Xu Ke

（School of Literature， Nankai University， Tianjin 300071， China）

Abstract：The Dynamic Time Warping algorithm is used in this experiment， as a quantitative method， to calculate the acoustic distance within the minimal pairs before and after the rhotic change in Mandarin （EX）， the distance between repeating the same non-neutral tone syllables （NIN） and the distance between repeating the same neutral tone syllables （EIN）. In the meantime， EX-NIN distance （the difference between EX distance and NIN） and EX-EIN distance （the difference between EX distance and EIN） are used as a parameter to measure the amount of the acoustic distance of neutral tone sound change. It is shown that the EX distance is significantly greater than the NIN distance and the EIN distance. The results showed that the EX distance was significantly greater than the NIN distance and EIN distance. There were some interpersonal differences between the amount of rhotic sound change of different speakers. From the perspectives of different lexical items， non-rhotic vowels， and rhotic vowels， all of them could conclude that the overall amount of collocated rhotic sound variables was greater than the fused sound variables， in which the amount of [i]-[i?r] rhotic change was significantly greater than that of other vowels. When rhotic syllables were in different tones， the T3 tone duration was the longest， therefore， its rhotic sound variables were the largest， and the T4 duration was the shortest， therefore， its amount of rhotic change was the shortest. The amount of rhotic change was significantly greater for monosyllabic words than for bisyllabic words. Gender and frame sentences did not significantly affect rhotic change.

Key words：rhotic vowel；mandarin；acoustic distance；Dynamic Time Warping algorithm

基金項目：国家社会科学基金重大项目“中国境内语言核心词汇声学数据库及计算研究”（19ZDA300）

作者简介：1.段嘉华，男，南开大学文学院硕士研究生；

2.冉启斌，男，南开大学文学院教授，文学博士；

3.梁煜珠，女，南开大学文学院博士研究生；

4.许可，女，南开大学文学院博士研究生。