汉语语音合成系统中影响合成自然度的主要技术因素探析

2020-01-19 13:19刘新红吴树兴

消费电子 2020年12期

刘新红吴树兴

【关键词】韵律;语义;语音合成自然度;技术因素

一、引言

目前，语音合成技术发展迅速，合成的语音产品在各个领域被广泛应用，这种应用依托于信号与信息处理技术的不断发展和语言本体研究的不断深入，其目标就是要不断满足人们对人机交互的各种需求。尽管目前所合成语音不再是生硬地机器声，但模式仍然固定，缺乏自然声音的流畅感，语气语调同质化。当前，语音合成的效果与模拟具有真人个性特征和情感的语音的最終目标还有一定距离。在语音合成技术方面，除了进一步提高声音的清晰度、可懂度之外，仍然要进一步提高语音合成的自然度。

二、汉语语音合成系统

一个典型的汉语语音合成系统通常由文本处理、韵律分析和语音合成三个模块构成，如图1所示。

第一步进行文本处理，需要根据语义和语法等语言学知识将文本语句进行分词和标注，同时还需要将词转换为对应音节;第二步是基于语境、韵律规则和韵律模型为每个音节或短语调整韵律参数，将音节序列转换为语音序列;第三步使用高级语音合成技术根据需要实时合成高质量语音流。其中，文本分析和韵律处理这两个模块的处理结果直接影响语流的自然度。练达的自然语言，依赖于人们对语言中的语音、词汇、语法和语义规则的综合应用，也依赖于人们对语境的准确把握。语音合成的过程中首先要完成由表层结构到深层结构的逆过程结构，完成文本和韵律的分析。下面就来梳理影响汉语语音合成自然度的这些主要因素。

三、汉语的文本处理

文本处理是实现汉语语音合成系统的第一个模块，起着非常重要的作用，该模块是用计算机来模拟人对自然语言的理解过程，产生各种标注序列输出给后一模块，具体地说，该模块要对文本进行分词和字音转换，输出所对应的语音标注序列。一个较好的文本分析处理模块能够对语言理解得更加充分，产生的标识应更加完备。

一般来说，汉语语音合成系统的文本分析处理部分由正则化子模块、词语分析子模块、字音转换子模块等构成。我们通常所遇到的文本会含有大量非标准词，如阿拉伯数字、英文字符、各种符号等非汉字字符，这些字符在词典中查不到，在中文里的读音也不能通过正常的拼音规则获得，语音合成中必须将这些字符处理成中文字音，这个转换过程称为文本正则化。由于非中文字符往往携带着非常重要的信息，如日期、价格、电话号码、机构名等，因此文本正则化直接影响语音输出的质量。

汉字是汉语基本的写作单位。词和词之间没有明显的界线。因此汉语分析是中文信息处理的基础和关键。在基于单词的自然语言词汇分析中，最重要的是划分词和词性符号。通常有两种处理方法，一种是分离分词和词性标注，另一种是整合分词和词性标注。

包森成认为，单独的词性标注算法主要有两类：基于规则的词性标注方法和基于统计模型的词性标注方法。基于规则的词性标注方法难以书写维护，不值得提倡。如今HMM和CRFs等统计模型在词性标注中获得了广泛应用。如果将分词和词性标注一体化处理，则需要在算法中同时考虑词串和词性双重信息。分词和词性标注的综合处理算法的主要思想是选择具有相同词性的相同词串作为候选词，最后使用统计模型选择最佳候选词。

在汉语语音合成系统中，字音转换的任务就是在词典中检索当前词，配以对应的拼音。然而汉语中存在多音字问题，所以为所合成的多音字选择正确的读音是必需的，即多音字消歧。语言学家对多音词消歧的规律进行了总结。根据这些规则，当计算机找到多音词时，可执行条件匹配和多音词消歧。语音合成研究领域随着大语料库的发展，许多研究人员开始使用统计方法来进行多音词消歧。

在文本分析阶段，影响自然度的因素还有语义和情感，而且影响自然度的大多数因素都与语义相关，然而语义分析难度较大，系统地从语义角度来进行语音合成的研究目前还比较少。如果进一步提高合成语音自然度和个性化，那么语义和情感分析将是必不可少的，合成的语音才能不再冷冰冰。

四、韵律分析

在汉语语音合成系统中，韵律分析模块是汉语语音合成技术中比较核心的部分，又是较难控制和把握的，它涉及语言学、声学、信息学等学科。韵律分析模块的主要功能是为合成语音划分出音段特征，主要是对语段的时长、基频、停顿和强度等进行预测和控制，合成出能正确表达意义的声音，能帮助听者更好地理解话音所携带的信息。因此韵律是语音合成效果好坏的关键。韵律处理模块将根据语调、重音和节奏，对每个发音单元进行韵律调整，调整后输出地是包含韵律信息的音韵序列。

目前，在语音合成中，仍然不能有效模拟自然语流中的韵律结构。自然语流中所有韵律变化的语调、节奏和重音等特征参数信息不可能全部存储至基元库中。语音合成系统要想取得高质量的语音，就必须具备韵律处理和模拟的功能。

语调主要反映整个语句音高变化趋势，语调模型的精确程度严重影响合成语音的自然度，在语音合成技术发展过程中，研究者也提出了比较有效的Tilt模型、Fuiisaki模型、PENTA模型，更加精确的语调模型，在提高合成语音自然度方面发挥着重要作用。

停顿是汉语韵律特征的重要方面，由标点符号分隔的句子是最明显的停顿，在每句汉语中，依据韵律层级结构还存在隐含的停顿，这些停顿长短不同，整句话中各个停顿协调配合，才能发出自然和谐的声音。停顿也是影响自然度的重要因素。

实验表明，在语音合成系统中引入韵律层级结构可以提高合成语音的质量。关于重音和语调的研究也取得了一些成果，但由于重音和语调的复杂声学性能，仍没有一致的结论，特别是在语音合成系统中，重音和语调还有待进一步研究。

韵律规则主要研究的是人在发音过程中各种声学参数的变化规律，利用这些规律可以改进语音合成系统的整体性能，尤其是在语音合成阶段提供调整韵律变化的声学参数。汉语的韵律预测与文本分析之间存在着紧密联系。

五、語音合成

语音合成系统的最后一步是声学处理，我们也称为语音合成。声学处理的目标是根据语言学处理和韵律设计的结果，将带有韵律符号的汉语拼音进一步转换为声音信号。这方面的研究主要经历了机械式、电子模拟和数字等三个阶段。随着计算机技术和数字信号处理技术的快速发展，真正实用的语音合成技术逐渐发展，很多学者在不断探索新模型和新算法。

现代语音合成方法主要有三种：源一滤波器语音合成，基于波形拼接技术的语音合成，可训练的参数语音合成。源一滤波器结构的语音合成方法是由激励经过相应的滤波器而产生，最常用的两种方法是共振峰合成和线性预测分析合成，实现复杂度不高，但合成质量较差。

基于波形拼接技术的语音合成是采用原始语音波形代替参数构建语音库，通过单元挑选算法选出合适的语音单元序列进行拼接，实现最终的语音合成。由于语音单元取自原始语音波形，可以获得接近人声的自然度。基于拼接的语音合成技术也存在诸多问题，如语音合成系统建设时间长，合成与语音库中情境不同的语句时自然度差、不稳定，系统难于扩展等等。

可训练的参数语音合成（Trainable TTS）方法由于在语音合成方面的优势被越来越多的学者所关注。20世纪90年代末，基于隐马尔可夫模型（HMM）的语音合成技术出现了。近年来又不断进行改进，人们意识到这种合成方法有更多优势，例如合成方法更灵活，所占存储资源少，适合嵌入式开发，可扩展性好等等。同时基于HMM的语音合成技术的训练过程可以自动完成，需要调试参数少，而且可以改变输出声音的音色，同一个合成系统可以输出不同个性化的声音。这种模型也有它的不足之处，音色调节受限，其合成效果与原始语音相比还存在一定的差距，从听觉感知上自然度还达不到真正的人声。

在可训练参数合成中，基于深度神经网络的语音合成是近些年发展起来的语音合成技术，利用深层神经网络强大的非线性建模能力，有效地提升了建模精度，使得语音合成的自然度得到很大提升，在某些应用场合已经达到接近人声的程度。当然，基于深度神经网络的语音合成目前也存在一些问题，如需要很长的学习时间，合成语音存在无法预测的噪声问题等等，随着这些问题地解决和完善，基于深度神经网络的语音合成将逐渐成为主流方法。

六、结论

语音合成技术的发展过程是一个渐进的过程，从参数合成到波形拼接，再到可训练参数的语音合成，发展到当前的基于深度神经网络的语音合成。每个阶段的方法都各有优缺点，人们在应用中往往将多种技术有机融合，或用一种技术的优点来克服另一种技术的不足。

合成具有更高自然度的语音，历来都是语音合成研究者所追求的目标。进一步提高语音表现力，使合成的语音更加生动，可以给语音合成技术开辟更广阔的应用空间。