临床听力学测试材料的数字化录音和处理

2014-03-16 10:22蔡小兵

医疗卫生装备 2014年7期

冀飞，刘岩，蔡小兵，郗昕，蒲卫

临床听力学测试材料的数字化录音和处理

冀飞，刘岩，蔡小兵，郗昕，蒲卫

目的：应用数字化方法进行临床听力学测试材料的开发和处理。方法：利用音频处理软件Cool Edit对编制好的中文言语听力学测试材料进行数字化的录音以及降噪、响度均衡、建立校准音等处理，以数字化的载体代替传统的磁带对材料进行储存。结果：形成了一套便于标准化的言语听力学测试材料音频文件，包括总计30张汉语普通话单音节测试词表，每张词表包括25个单音节词测试项。调整后，各表响度的整体均方根为（-20.7±0.13）dB。同时，还摸索出了一套可行的数字化词表开发方法。结论：数字化录音是最佳的临床言语听力学测试材料录制方法。测试材料的保真度、动态范围、信噪比均可通过数字化录音和处理加以提高；录音内容更加容易被调取和储存；信号强度的控制也更加灵活。使用Cool Edit进行临床听力学测试材料的制作，提高了测试材料的准确性和标准化。

听力学；录音；数字化

0 引言

听力损失是影响人民生活质量的重要疾病，由战场或武器噪声导致的听力损伤也会严重影响战斗指令传达。因此，着眼于听觉言语评估和干预、康复的临床听力学作为新兴临床学科在我国取得了长足发展。对听力损失程度的诊断以及干预效果的评估都需要综合手段。传统的纯音听力测试仅反映听觉敏感程度，对言语交流的障碍程度反映不足，因此，言语测听越来越受到重视。言语测听必须符合受试者的语言种类。中文言语测听起步于20世纪60年代[1-2]，后续有多位学者进行了中文听力言语测听材料编制的相关工作[3-5]。早期的一些中文言语测听材料多以磁带形式录制和播放，物理特性上的局限使得这种方式在某种程度上限制了中文言语测听的标准化以及对临床结果的判读。数字录音和计算机技术的兴起对中文语言测听起到了推动作用。本文将专业音频处理方法应用于汉语言语单音节测听词表的录音和后期降噪、测试项分割、响度均衡等处理，形成一套标准化的言语测听材料音频文件。

1 数字化录音

本文所述工作在Windows XP操作系统下使用CoolEditpro 2.0完成。Cool Edit可完成包括录音、后期处理、混音、多轨音频制作等音频处理功能。录音之前，经语料收集、难度均衡、音位平衡等步骤编制好单音节测听词表的文本[6-7]。词表为汉语单音节测试词表30张，每张单音节词表包括25个单音节词测试项。使用Lenovo X220计算机、Sound Blaster声卡、B&K声级计（A频率计权、“快”时间计权）和4 134声场型传声器在本底噪声不高于30 dB（A）的隔声室内进行录音。声级计、传声器、播音员位于隔声室内，其余设备位于控制室。录音控制人员通过监听耳机和对讲系统对播音员予以提示和控制。

录音之前，首先调试Cool Editpro 2.0的录音电平。调整混音器（windows recordingmixer）控制面板上的滑块，使得发音时电平指示VU表显示一格红色标记。正式对一个词表录音时，新建一个立体声波形文件（分辨率16 bit、采样频率44 100Hz）。点击录音按钮开始录音。为备后续降噪处理之需，先录制10 s左右隔声室本底噪声（即空白信号），然后提示播音员开始朗读文字材料。每张词表录制完成后，按编号分别保存为.wav格式文件。

2 音频文件处理

原始数字音频文件尚不能直接在临床使用，须经降噪、测试项分割、响度均衡等处理，并配以校准音，方可形成依托于言语听力计的临床诊断与评估测试材料。

2.1 降噪

合格的言语测听CD应保证信噪比足够高。除在录音过程中保持环境本底噪声足够低以外，还须对音频文件进行后续降噪处理。本文使用Cool Edit的采样降噪法进行降噪，即首先对录音环境噪声进行频谱特征采样，继而从原始音频信号中滤除具有该噪声特征的信号。

首先，提取噪声样本的特征。在每个音频文件开始预留的噪声区选中一段波形最平稳的噪声样本，从“效果”菜单里选择降噪（noise reduction）功能，主要参数为：噪声衰减量80%、精度10、平滑量10。点击“获取特征轮廓”按钮。选中整个音频波形，再次进入降噪界面完成降噪。部分文件需反复进行上述降噪过程，但为避免对原始音的破坏，噪声衰减量和平滑量需做一定调整。

2.2 测试项分割

临床上，言语测试的测算单位称为测试项。根据不同内容的材料，测试项可以是单音节字、双音节词、句子等。本研究中，测试项为单音节字。本文所述材料的录音以及降噪处理是以词为单位进行的。每个表中包含25个单音节测试项，各测试项之间的自然间隔和响度可能不一致。在进一步的处理中，须将各测试项进行分离，对测试项响度进行均衡并使用等长的静音间隔重新连接，形成标准的测试材料。测试项分割方法如下，打开一个降噪处理后的.wav词表文件。预先设置好有效信号的电平范围，使用Cool Edit的“自动标记（auto cue）”功能，按照设置范围自动分析文件。然后，使用“搜索片段并标记（find phrase andmark）”功能，根据信号电平变化将每个测试项识别为一个片段，标记出开始和结束的时间位置。检查无误后，选中所有测试项，采用批处理方式将各测试项按顺序分别保存成独立的音频文件。所有30组测试表均作此处理。

2.3 响度均衡

国家标准GB/T 17696—1999中规定，言语测听材料的最小测试项的言语级强度与整体材料的平均值相差应不超过±1 dB[8]。根据实际录音强度和分辨率的要求，设定本材料平均均方根强度为-20 dB（以采样单位为基准，下同）。打开一个分割保存好的测试项文件，使用分析菜单下的“统计”功能测得该测试项的平均均方根强度。然后，使用“放大”功能，根据预先设定的统一强度值（-20 dB）和平均均方根强度的差值，给予测试项相应的放大倍数。所有测试项均分别作此均衡调整。响度均衡处理结束后，使用Cool Edit“接续打开”功能，将同一测试词表的25个测试项连成1个音频文件。通过批处理方式在每个测试项开始和结束的位置插入2.5 s静音，总共形成30个词表音频文件。测量各词表文件的总体时长平均均方根强度，对各测试项强度进行微调，使之与平均强度之差小于±3 dB。

2.4 校准音的创建

每个测试材料之前需配以校准音，以便临床测试中依托言语听力计控制言语信号强度。本材料校准音信号包括：（1）1 kHz窄带噪声（时长60 s）；（2）1/3倍频程窄带噪声（时长15 s）；（3）250Hz、500Hz、1 kHz纯音（时长均为60 s）。校准音信号的产生使用Cool Edit的“产生信号”功能。不同频率窄带噪声校准音使用可视化均衡器功能，通过对给定时长的白噪声进行1/3倍频程滤波获得。所有校准音的均方根强度均依照上述响度均衡方法调整为-20 dB。

3 结果

经过上述数字化音频处理，形成了响度均衡的音频文件。整套汉语普通话单音节测试词表共30张，每张单音节词表包括25个单音节词测试项。调整后，各表的整体均方根强度为（-20.7±0.13）dB（如图1所示），符合国家标准规定。经过处理的测听文件，经过信度和效度的检验后可供临床测试使用[9-10]。

4 讨论

言语测试在耳科学、听力学中的重要性日益增大。特别是人工耳蜗植入在我国逐渐广泛开展之后，对于植入手术后，听力言语康复效果的评估迫切需要标准化的中文言语测听材料。言语测试材料的标准化，涵盖了2个方面内容：（1）测试内容的标准化，即测试材料应能准确且稳定地反映测试对象的言语识别能力，具有通用参照价值。言语测听材料的标准性主要体现在测试表的组织和声学控制上。（2）测试方法的标准化，即测试材料内各测试项的刺激强度、时间间隔等参量应依据一定原则进行声学处理，以便使用量化的形式表达测试结果。

图1 响度均衡后各词表整体均方根强度

测试内容的标准化要求测试所使用的材料的测试项可代表日常言语交流中最常用的字、词、句，且各种语音元素的相对出现频率均与实际交流的出现频率相同或相近。本文的汉语普通话单音节测试词表，在编写过程中参照了汉语音位一维概率分布，总共涉及了489个音节，其声、韵、调的分布频次与文献统计的实际应用频次相对应，且全部750个测试字均在汉语普通话常用2 500字范围内。测试内容标准化的另一个重要方面就是测试材料经过临床的测试信度测试，以保证言语测听材料的测试稳定性和可重复性[10]。

测试方法标准化的重要方面是测试方式和载体的标准化。测听材料以言语声波的形式传递给受试者，因此发音环节对测试结果的标准性有很大影响。常见的2种给声方式分别是监控下的口语发声和播放录音。使用传统的口语发声方法在进行言语识别测试时，发音人的发音方式、强度和语气不能精确地保持稳定，且可能随着受试者的反应，下意识地调整发音或给出视、听觉线索，得到的结果变异度较大。采用录制好的材料进行言语测听，可以保证比较好的测试信度。录音材料可以很好地控制所有的测试项以同样的强度和发音方式念出，避免测试者主观因素，具有可重复性，有利于标准化。录音介质很重要。乙烯唱片和模拟磁带都曾被应用于言语测试材料录制，但这二者具有声音颤抖、音质和音调失真、不便长期保存等不足。现阶段，CD和计算机软件等数字化方法已被公认为是言语测听的最佳方法。测试材料的强度动态范围、言语信号保真度、信噪比均可通过数字方式获得扩展和提高。播放设备廉价，录音内容更加容易调取和储存；对测试信号强度的控制也更加便捷[11]。

通过计算机可以很容易调整语音材料中声学线索的强弱，并能够去除对声学线索造成干扰的细微杂音。Nissen等报道在开发双音节词表时，将每一个双音节词的RMS强度调整到与1 kHz校准音强度相同，以使其可听性尽量等价[12]。本文亦采用了数字化方式进行临床言语测试材料的录音和后处理，特别是应用专业音频处理软件Cool Edit在录音、文件降噪、响度均衡、校准音创建等几个方面进行了尝试。测试项中包含声学线索的多少与测试材料录制的方式有关。录音方式和介质会影响测试材料所包含的声学信息的数量，进而影响测试材料的冗余度。录音方式、发音人的发音状态、声强、音高和发音节奏的变化都会影响最终录音材料的难度。录音时，可通过调整发音人距离录音麦克风的远近来调整录音强度。测试材料的长时间均方根频谱特性则主要由发音人的发声特性决定。一些无法在录音过程中解决的，诸如录制噪声问题、测试项的响度均衡问题以及测试表整体强度的统一和控制问题，都通过Cool Edit进行了统一的后期数字化处理。本文结果显示，计算机化的录音和后处理，利用计算机的快速批量运算能力，节省了词表的整体开发时间，提高了测听词表材料的准确性和标准化。这表明数字化已经成为中文言语听力测试的发展趋势。

[1]蔡宣猷.言语测听法[J].中华耳鼻咽喉科杂志，1963，9（1）：8-14.

[2]程锦元.汉语测听词表的编选[J].中华耳鼻咽喉科杂志，1966，12（2）：106-111.

[3]沈晔，王书鑫.一个言语测听材料的编制[J].心理学报，1983，15（3）：316-328.

[4]顾瑞，李兴启，陈桂芬.交错扬扬格词试验和竞争语句试验[J].中华耳鼻咽喉科杂志，1988，23（2）：97-99.

[5]张华，曹克利，王直中.汉语最低听觉功能测试（MACC）的编辑和初步应用[J].中华耳鼻咽喉科杂志，1990，25（2）：79-82.

[6]冀飞，郗昕.一组普通话音位平衡单音节字表的文字编撰[J].中华耳科学杂志，2007，5（4）：417-426.

[7]JIFei，XIXin，CHEN Ai-ting，et al.Development of a mandarin monosyllable testmaterialwith homogenous items（I）：homogeneity selection[J].Acta otolaryngologica.2011，131（9）：1 012-1 016.

[8]GB/T 17696—1999 声学测听方法第3部分：言语测听法[S].

[9]Stanley A G.Essentials of Audiology[M].New York：Thieme MedicalPublishers，Inc.，1997：253-286.

[10]冀飞，郗昕.影响言语测听的若干因素[J].中华耳科学杂志，2008，6（1）：50-55.

[11]Kamm C，Carterette EC，Morgan D E，etal.Use of digitized speech materials in audiological research[J].JSpeech Hear Res，1980，23（4）：709-721.

[12]Nissen S L，Harris R W，Jennings L J，et al.Psychometrically equivalentmandarin bisyllabic words for speech reception threshold testing inmandarin[J].Int JAudiol，2005，44（7）：379-390.

（收稿：2013-07-31 修回：2013-12-09）

Digital recording and processing of clinical speech audiometrymaterial

JIFei1,LIU Yan2,CAIXiao-bing2,XIXin1,PUWei3
(1.Departmentof Otorhinolaryngology and Head-Neck Surgery,General Hospital of the PLA,Beijing 100853,China; 2.Division of Healthcare,Security Bureau of General Staff Departmentof the PLA,Beijing 100017,China; 3.Center ofMedical Information of the PLA,Beijing 100842,China)

Objective To realize digital development and processing of clinical speech audiometry material.Methods Cool Edit audio processing software was used for digital recording and processing of Chinese speech audiometry material, involving noise reduction,loudness balancing and calibration sound determining.Then digital carrier replaced conventional tape to store the material.Results A set of audio files for speech audiometry material was developed, including 30 mandarin monosyllable thesaurus charts with 25 test items concerned in each.General RMS of the charts was-20.7±0.13 dB after adjustment.A set of feasible method for developing digital thesaurus chart was put forward. Conclusions Digital recording behaves well for clinical speech audiometry material,with the fidelity,dynamic range and SNR improved greatly.The recording contents can be accessed and stored easily,and the signal intensity can be controlled flexibly.Cool Edit can be used to process clinical speech audiometry material,with the accuracy and standardization enhanced.[Chinese Medical Equipment Journal，2014，35（7）：42-44]

audiology;recording;digitalization

R318.6；R764.04

1003-8868（2014）07-0042-03

10.7687/J.ISSN1003-8868.2014.07.042

军队医药卫生科研基金课题（11BJZ33）；全军军事医学计量科研专项课题（2012-JL1-028）

冀飞（1978—），男，博士，助理研究员，主要从事临床听力学和医用声学计量方面的研究工作；刘岩（1973—），男，副主任医师，主要从事老年医学方面的研究工作。

共同第一作者：冀飞，刘岩对本文有同等贡献，均为第一作者

100853北京，解放军总医院耳鼻咽喉-头颈外科（冀飞，郗昕）；100017北京，解放军总参谋部警卫局保健处（刘岩，蔡晓兵）；100842北京，解放军卫生信息中心（蒲卫）

蒲卫，E-mail：puwei0108@sina.com