汉语普通话腭裂语音数据库的搭建与应用

2020-04-14 12:44马平川毛渤淳郭春丽于晨浩李若琳何凌尹恒

华西口腔医学杂志 2020年2期

马平川毛渤淳郭春丽于晨浩李若琳何凌尹恒

1.口腔疾病研究国家重点实验室国家口腔疾病临床医学研究中心四川大学华西口腔医院唇腭裂外科，成都 610041；2.四川大学电气信息学院，成都 610065

腭裂是最为常见的颅颌面先天性畸形，根据最新调查显示，我国非综合征性新生儿颅颌面裂的发生率为1.67∶1 000[1]。腭裂的影响主要表现为裂开的硬软腭使口鼻腔联通，出现了腭咽闭合不全，进而导致患者在发音时无法保持口腔压力，出现鼻腔额外共鸣或者在发压力性辅音时气流从鼻腔溢出的现象，导致了以高鼻音为主要特征的语音障碍的出现[2]，严重影响患者的正常发音交流[3]。目前腭裂治疗的最基本方法是通过手术修复腭部裂隙重建腭咽结构，恢复腭咽功能，使患者获得正常的腭咽闭合，进而消除高鼻音，获得正常共鸣。患者术后是否获得正常的腭咽闭合功能是评价手术效果的核心指标。目前临床上通过对高鼻音的评估来诊断腭咽闭合功能。高鼻音可分为不同的等级，并以此反映腭咽闭合不全的程度[4]。因此高鼻音的等级是患者术后腭咽闭合功能评估的核心指标，从而评价手术效果，并根据腭咽功能的结果，决定患者后期的治疗方向是选择二期手术还是进行语音治疗，以帮助患者达到正常的语音功能。

目前临床上对高鼻音的诊断与评估主要依靠临床专业语音师的主观听觉感知，其结果受到语音师自身水平、主观状态等因素的影响较大[5]，目前语音师的判听依然被公认为是诊断腭咽闭合程度的金标准，因此各语音师之间只有保持了水平一致性，才能保证语音治疗与临床治疗的标准统一性，治疗结果才具有可比性[6]。但是目前国内整个言语治疗专业和人员的培养都处于起始阶段，尚无成熟的培训教学体系，语音师大多缺乏专业性和系统性的培训。特别是对于专科语音师，临床缺乏合适并足够的语音样本帮助语音师感受与学习腭裂语音的特点，导致语音师对腭裂语音特征缺乏直观了解，辨听能力低，在腭裂语音的评估过程中诊断结果不一致，并最终影响腭裂患者的治疗效果。此外，随着国家对唇腭裂等先天疾病的关注，越来越多的腭裂语音研究从简单的治疗方法和特征探讨逐渐深入到语音的微观分析，这些都需要高质量的数据库支持。

目前已知的腭裂语音数据库是美国的American Cleft Palate-Craniofacial Association（ACPA）协会公共开放数据库，但是该数据库仅提供少量的腭裂语音的短句，同时这些语音样本制作与剪辑较为粗糙，形式较为简单，研究者与学习者仅能够从表面体会与感受腭裂语音的听感，并不能够完全学习掌握腭裂语音的诊断与判定要点和精髓以及腭裂高鼻音的形态表现[7-9]。同时由于英语与汉语在语言结构与组成上的巨大区别[10]，该数据库无法应用于汉语普通话腭裂语音研究，参考与应用价值十分有限。目前尚无面向科研与教学工作开放的同类汉语普通话腭裂语音数据库供专业人员使用，且现有的一些研究所使用的语音样本没有统一的采样标准，样本结构混乱，这也使目前相关的科研成果的产出并不顺利。因此，为了发展语音师的教学培训及病理语音相关的科学研究，建立汉语腭裂患者语音数据库势在必行。本课题组充分了解腭裂患者临床治疗过程中的需求，经过多次与临床相关专业医生探讨与核实，确定了本数据库的目标与用途，计划以最为关键的高鼻音指标作为突破口，以高鼻音等级划分作为归类依据，使用相关音频软件作为辅助，以元音辅音的音节剪辑分割作为特点，成功建立了该数据库。

1 材料和方法

1.1 硬件

选择四川大学华西口腔医院语音治疗中心的专业录音室作为录音地点，录音室装配有专业的隔音与消音材料。收音设备采用了专业的录音及采音设备，具体如下。1）语音采集储存系统，包括处理器酷睿I7-7820/主板GA-X99-UD4/内存32 GB GDDR5 PCI-E/硬盘500 GB固态硬盘/显卡GTX1080 Tian显存12 G/显示器：处理器I7-7700，频率4.2 GHz，4核8线程16 g运行内存/电源1 000 W/散热器：Tt冰核水冷套装/4副耳机：AKG Y50BT/3个移动硬盘：希捷Bar racuda 2 TB 72064MB SATA3/声卡型号：rme ucx/收音麦克风：LEWITT品牌LCT940型号1台。2）移动语音采集分析系统，包括surface book一台（i7/16 GB/512 G/独显）、Apollo品牌移动声卡Twin Duo。这些硬件设备均参考了其他类似语音录音室的硬件设备，并且经过相关测试，能够顺利且合格地完成音频的录制，不会对样本产生明显的失真与效果损失，使志愿者的声音样本达到最大质量的采集。

在样本采集的过程中，使用超级捕快白金版软件输出样本音频。使用Adobe Audition CS6、格式工厂（Format Factory）4.3.0.0处理与剪辑音频文件，最终输出为WMV格式的音频文件。本研究所选用的软件可以最大限度地保证录制语音质量不受到损失，且输出格式多样。其中Adobe Audition软件拥有强大的音频编辑与格式转换的功能，且可以看到具体的声波形态，工作效率高，使用灵活方便。选择导出参数为44 100 Hz 32位，转换质量高。

1.2 评估材料

根据长期临床经验，四川大学华西口腔医院语音治疗中心建立了“四川大学华西口腔医院语音治疗中心普通话构音测量表”（表1、2）。该测量表充分考虑普通话构音结构和腭裂语音特性，包含了较为完整的腭裂语音单元，共包含了21个辅音与3个基本元音（/a/、 /i/、 /u/）外加另一个常用元音（如/o/、/ao/、/e/、/iu/等）组合而成的84（21×4）个常用词组、32个音素（14个短句）和10个数字（0～9）。保证了测试内容包括汉语普通话中基本的元音和辅音。此量表内容的设置充分参考了中国台湾长庚医院颅颜中心的国语构音测量表，结合汉语普通话使用习惯，进行修订而成，并且在此基础上添加了14条句子加以补充扩展，形成了完整的四川大学华西口腔医院语音治疗中心普通话构音测量表的词语表和句子表。

表 1 四川大学华西口腔医院语音治疗中心普通话构音测量词语表Tab 1 Mandarin speech measurement vocabulary of Speech Therapy Center of West China Hospital of Stomatology, Si- chuan University

表 2 四川大学华西口腔医院语音治疗中心普通话构音测量句子表Tab 2 Mandarin speech measurement sentences of Speech Therapy Center of West China Hospi -tal of Stomatology, Sichuan University

1.3 样本收集

样本采自2016年5月—2018年3月前来四川大学华西口腔医院语音治疗中心的就诊者与志愿者共768例。样本采集前征得被采集者同意，测试者被带入四川大学华西口腔医院语音治疗中心录音室，并使用该中心专业的录音设备与采音软件，被采集者在隔音良好的专业录音室顺序朗读四川大学华西口腔医院语音治疗中心普通话构音测量表中所有的词语和句子，采样频率为44 100 Hz。同时收集患者年龄、性别及治疗阶段等信息。音频样本采集完成后，赋予其统一样本ID号。

1.4 音频数据处理与标注

原始数据收集之后，由四川大学华西口腔医院3位有8年以上工作经验的专业语音师进行语音辨听标注[11]，3人独立听取全部语音资料，并且进行高鼻音的分级（正常、轻度、中度与重度4个级别）[12]，取2位及以上语音师一致的结果；对于3位语音师都不一致的样本，挑选出其录音后由3位语音师共同对其进行重新判听与定级，取最后一致的评判结果。直至所有的样本全部进行了严格的分度和评判，以达到结果的客观与准确。

随后工作人员将由语言工作站采集到的原始WMV格式文件导入格式工厂软件（Format Factory 4.3.0.0）中，转换为WAV格式音频保存。将保存的WAV格式音频导入Adobe Audition CS6软件中，检查筛选左右声道声音大小基本相同的样本，左右声道声音差异大的样本选择联系患者进行重新录制或删去此样本。依据所听到的词语与声波形态分别将全部语音样本剪辑成单个子音频文件并保存，导出参数为44 100 Hz 32位。剪辑过程中保证每个子音频前后至少0.5 s无语音，即相对静音状态。各子音频按其词语拼音命名，如词语“爸爸”命名为“baba”，“爬楼梯”命名为“palouti”，方便数据库的词语数据被MATLAB等软件取用。剪辑词语音频的工作由7位熟练使用Adobe Audition CS6软件的四川大学华西口腔医学院本科生完成，在剪辑之前所有的工作人员均统一经过训练与培训，并且统一采用上文所述的剪辑标准与流程，并由另2位检查人员随机检查命名情况与音频剪辑质量。然后将标注后的音频与剪辑并完成命名的子音频共同存入数据库，录入其标注信息，包括年龄、性别、高鼻音程度、背景噪音大小、ID号、备注。

2 结果

数据库纳入被采集者共768人，其中儿童456人（男227，女229），成人312人（男178，女134）；正常共鸣369人，轻度高鼻音155人，中度高鼻音102人，重度高鼻音142人。包括64 512个词语（768×84）、24 576个音素（768×32）、7 680个数字（768×10）。音频命名分类完成，可以直接被MATLAB等软件分类提取使用。每个患者语音样本均被统一归类放置在该患者ID的目录之下，按照语音师评判的结果放入不同的等级（正常、轻、中、重高鼻音），分类清楚、结构清晰。所有样本已放入四川大学华西口腔医院唇腭裂生物信息数据库平台。

3 讨论

3.1 汉语普通话腭裂语音数据库的意义

对腭裂高鼻音的辨别与分级是腭裂语音评估和腭咽功能诊断的核心内容，有着重要的指导意义。但目前国内对于语音师缺乏专业的系统教育培养，语音师的水平参差不齐，尤其语音评估这一依赖听觉感知的特殊技能，评估的基础是对病理性语音的充分认识和感知，目前尚无相应的教学语音样本，对各种病理语音的描述都来自于国外文献，抽象的理论描述无法落实到相应的客观语音样本，无法满足语音师的培养要求。如果建立包括多种病理语音表现的腭裂语音数据库，势必能大大提升语音师的临床技能培养水平，并且在语音研究领域内提供确切的数据样本，支持科研发展。尽管ACPA提供了4份不同年龄的高鼻音英文短句，但是由于英语与汉语的音节本身的结构差异，仅能提供一个高鼻音的粗略概念，无法落实到每一组辅音元音，无法对普通话音节评估提供帮助。只有部分研究涉及了汉语语言相关的理论[13-14]。由于声母与韵母是汉语语音组成中最小的单元，因此声/韵母分割成为汉语语音研究重要的处理步骤[10]。这也是本研究对于样本预处理的根据所在。

3.2 本汉语普通话腭裂语音数据库的特点与优势

1）本研究的所有样本均来自四川大学华西口腔医院唇腭裂外科的患者及志愿者，在配置有专业隔音设施与消音设备的录音室中使用专业采音器材录制完成，音频样本质量较高，背景杂音少，语音质量较高，能够最大程度地展现腭裂语音的语音特征，保证本数据库中数据的保真性，使其具有极高的价值。同时由于在录音过程中对于录音者的语音语调的控制尽量符合普通话的发音，本样本对于汉语语言具有普遍性与实用性。2）本数据库内容丰富，语音样本较好地反映了汉语普通话的构成特征，并不是简单的音频文件的集合，包括词组和句子以及声母与韵母，将汉语拆分为最小的结构单元来进行后续的使用，其后续的应用价值十分巨大；3）数据库中收录的语音均由富有经验的语音师进行判定，共分为了4级（正常、轻度、中度、重度）的腭裂高鼻音语音，分类清晰准确，能够展现各个级别腭裂语音的特征。对于样本来源的信息和特征标注十分明确，信息充足，使用者能够充分结合本样本来源的背景与条件进行学习与研究，增加研究的可信度与学习的效率，实用性极强。4）本研究旨在建立完整的腭裂语音汉语普通话数据库，其中对于高鼻音的收录分类与标注只是前期的一部分工作，随着进一步工作的开展，后期腭裂语音的其他特征语音也会逐渐收录进数据库，包括塞音、擦音、鼻辅音等具有特征的腭裂异常语音，具有极强的扩展性，便于今后的进一步完善。

3.3 汉语普通话腭裂语音数据库的临床应用

本研究所做的汉语普通话腭裂语音数据库应用范围广泛，实用性高，主要可以应用于以下领域。

3.3.1 用于语音师的教学与培训本数据库能用于腭裂病理语音的相关人员的培训教育等[6]，有助于我国语音治疗的进一步发展。由于国内尚无相应的腭裂语音数据库与资料，对于语音师的培训与教学也没有建立一个完善的体系与流程，缺乏标准化培训模式，评估能力参差不齐。本数据库样本收录广泛，标注与分级完整、准确，能让使用者准确而真切地感知腭裂语音患者的高鼻音特征，提高自己对于腭裂病理语音的判定与分级能力，有助于建立我国完善的语音师教学培训体系。该数据库已经应用于口腔言语病理学继续教育培训课程，已对全国30多个省市的66家省市级医院和医科院校共76位语音师进行过培训。

3.3.2 用于科研工作的数据来源目前的大多数腭裂语音相关的科学研究使用的样本存在来源不全，样本质量较差，分级与判定不准确、剪切不完整等问题，使得相关的研究进展缓慢。本研究中数据库的样本来源科学分级准确、音质较高，可用于各种科学研究。目前本数据库中的样本已被用于多项语音相关的电子信号识别的科学研究，如谭洁等[15]在本数据库的基础之上利用提取声学特征参数结合K—最近邻分类器，实现对腭裂声门塞音的自动识别；陈盼弟等[16]使用基于隐马尔科夫模型和线性预测倒谱系数的腭裂语音辅音省略自动识别算法，实现了对腭裂语音辅音省略的自动识别。而目前有不少研究[13,15,17-19]的开展使得汉语的言语信号转换与腭裂语音的高鼻音识别技术日益成熟，这些研究中大部分数据来源于本数据库，这证明本数据库在病理语音研究上的实用性与可靠性。

3.4 展望

后续研究除了高鼻音之外，腭裂语音的判别与评估还存在其他的指标与特征，本课题组也正在继续完善其他腭裂语音特征性错误，如声母省略、鼻漏气，并逐步纳入其他指标，如多种替代、代偿性构音等，最终形成包括各类异常表现的腭裂语音数据库。

在唇腭裂治疗领域中，序列治疗已经成为了大家的共识，而腭裂语音的准确判断与分级是这一过程的基础，同时随着语音识别计算机技术的不断发展，相关的科学研究也必将如火如荼地开展，本研究所建立的腭裂语音数据库为这些发展与进步提供了基础，不仅能够用于对临床语音师的规范化、标准化培训与诊断，还可以应用于临床研究当中，必然在今后的腭裂语音治疗发展中有着重要意义，发挥更大作用。

利益冲突声明：作者声明本文无利益冲突。