汉语语病自动检测研究现状及展望

2020-08-18 17:34朱丽莉

文存阅刊 2020年9期

摘要：本文总结汉语语病自动检测的研究现状，并从检测对象、检测方法、检测效果及所结合的语言学知识等角度进行分析，进一步探讨汉语语病自动检测理论研究的突破点及发展方向，以期为应用研究提供参考。

关键词：汉语语病;自动检测;研究现状;展望

一、引言

随着信息技术的发展，文本自动校对研究于20世纪70年代率先在美国展开，80年代，日本开始日文字词检测研究，到90年代中期，中文错别字校对研究工作开展起来。目前，汉语语病自动检测[]研究主要有两个层面：基础理论层面和应用层面。前者侧重于理论分析和检测方法的设计，后者侧重应用软件开发。在现有的信息处理文献中，专题讨论汉语语病自动检测的文献有70篇左右[]。在应用研究方面，现有的检测软件主要有黑马校对、北大方正校对、金山WPS校对和微软Word检测等。总体而言，其中不乏代表性的检测方法和技术，为了更深入地探讨其研究问题及发展方向，笔者将对其研究现状进行总结，并从检测对象、检测方法、检测效果及所结合的语言学知识等角度进行分析。

二、汉语语病自动检测研究现状

汉语语病自动检测系统包括查错和纠错，查错先于纠错。查错的主要方法有模式匹配、N元模型、基于Web、基于规则和基于统计、基于特征等。纠错法主要有模式匹配、建立字词集和聚类替换等。

（一）查错研究

替换法，通过分析错误字词的类型及出错频率，在搜集系统语料的基础上，根據字词出错的类型，设计音形相似度的阀值，进而建立起音近、形近字词集，利用语言模型对各候选字串进行评分，找出评分最高的候选字串，与原文字词进行比较，从而检测出文本中的错误字词。该方法能较有效地查出文本中的近似字词错误情况，但误报率较高。

模式匹配法，主要基于字词典，将文本中的错误字词与词典中形近字词进行模糊匹配，通过对比，获取正确字词。此方法最大的改进是能检查并纠正固定式结构中的多字、缺字、替换字，能较有效地查出长词中的别字。

N元模型法，运用词二元同现概率来检测文本，对待校文本中常见错误进行统计分析，并针对文本中出错字词与相邻字词接续关系弱的特点设计查错方法，在检测前后几个字词搭配关系方面有良好的检测效果，但不适合长距离检测。

基于规则与基于统计相结合的检测方法，主要应用于文本标注和建立依存关系网中，该方法从字词校对转移到了语法检测，通过对比英汉文本特点，根据汉语缺乏形态变化、词类句法不存在简单对应关系等规则，从上下文语法搭配上进行考虑，弥补了仅代换相似字词的不足，利用错误规则模式，对正确语料和错误语料进行测试，并结合数据统计，能有效调整规则的约束范围，以降低误报率。

基于特征的检测方法，采用Winnow方法进行特征学习，利用上下文特征来选择目标词混淆集中的词。该方法主要寻找待校对句子中每个字词的候选可能性，构造字词候选矩阵，利用语言本身的特征和统计特征，从候选矩阵中选出最佳字词候选序列，并与原句对照，找出错误字词并提供候选字词。

基于Web法，主要用于搜索及检测未知词[]，用corpus统计词频，利用统计值消除歧义，将Web视为庞大且有时效性的语料库，对未知词进行辨识，在检测中嵌入搜索引擎，考虑所有符合条件的相邻词和嵌入词，充分结合了统计和搭配检测的优点。

此外，有研究者将多种检测方法结合起来，目前，已找到了字词的高频出错规律，针对字词检测，已取得突破性进展，但针对歧义、语法、语义方面的检测，准确率较低。

（二）纠错研究

聚类替换法，将汉语中形、音相似字词进行聚类编码，形成错别字对词典，在文本自动校对过程中辅以上下文语境的统计分析，提示纠正相近的音、形字，自动获取错别字对。该方法利用错别字在字级错误中覆盖率高的出错特征，查找并纠正高频出错对象。它的局限在于没有充分考虑上下文信息，纠错建议只限于纠错字表，对缺字、多字、易位和替换等错误类型的纠错能力较弱。

建立字词集的纠错方法，通过收集常见的易混淆字词，建立起混淆词典，在纠错时先查找此词典，再判断待校对字词是否符合语言规则。此方法不仅可以用于音形相近字词的替换，还能解决一部分歧义问题，但算法较复杂，纠错对象具有局限性。

模式匹配法，主要利用相似度匹配原则来对相似的字词进行替换，其原理与替换法相近，但匹配法的核心方法不是建立语料，而是设计字词相似度算法，进而匹配字词并提供纠错答案。该方法可以对长词进行纠错处理，具有较好的效果，但未能充分分析和利用出错字串的特征，且计算量较大。

三、问题分析

汉语语病自动检测重字词研究，轻语法、语义、语用研究，且重查错，轻纠错。就字词检测而言，对单音节词（也叫单字词）、双音节词、多音节词的误用检测，召回率和准确率均低于60%。对此，笔者将从研究视角和思路、检测方法、汉语本体研究等角度，试析汉语语病自动检测理论研究的突破点及发展方向。

（一）研究视角和思路

语病自动检测与人工检测有很大不同，人工检测一般按照查错—纠错—错误类型判定的顺序，而自动检测通常在设计好检测类型后，按照指定类型—查错—纠错的顺序，对待检测文本进行分词，查找散串，默认散串为错误类型，再根据散串提供纠错参考。这其中，很可能直接略去了对散串正误情况的判断及出错类型判定两个环节，所以，要么纠错率低，要么误报率高。先判定错误类型再做正确形式替换，或者先替换再判定类型，当下研究可以先做探讨。

（二）检测方法

目前，汉语语病自动检测研究方法较多，但每种方法针对的对象、检测思路及算法各有不同，呈现的检测效果参差不齐。现有研究在借鉴英文、日文文本检测方法时，未充分结合汉语汉字的特征设计检测方法，故而影响检测正确率及适用度。有的虽参考了汉语本体研究成果，但未深入分析待校对文本中汉语语病的类型、成因及特征等，以致未能找到合适的切入点。

此外，對语病自动检测的重难点分析不足，检测方法缺乏针对性。现阶段，阀值的设定方法极少且标准不一，一旦阀值设定不当，就会出现误判情况，进而影响召回率和查错、纠错的正确率。

（三）汉语语病本体研究

就目前而言，语病本体研究还有很多待探究之处。与英语相比，汉语具有很多特性，如，字词之间没有明显的分隔符，字词之间的组合聚合形式灵活多样，词在不同语境下的含义及承担的语法功能或有不同，这些都需要一一统计。文本中的汉语语病形成的原因远比书写产生的语病复杂，录入方式不同，所形成的语病类型、特征就会有所不同，对此，还应该在考察出错成因的基础上，有针对地设计检测方法。汉语语言事实复杂，但现有的语言模型和数据语料不足，需要更详尽地对字、词、短语、句子内部的组合情况进行分析和描写。

另外，理论研究与应用研究脱节，理论研究进度较慢，跟不上应用研究的步伐，应用研究缺少充分的理论指导，因而在实际检测中与用户的期望值相差甚大。

四、研究方向及展望

通过分析现有研究存在的问题，我们发现汉语语病自动检测需要开展大量的研究工作，对此，需要我们在较长一段时间内从各方面去一一突破。

（一）学科渗透

随着大量文本编辑及电子文本检测数量的增加，汉语语病自动检测研究已是当前信息化发展亟待进一步解决的难题。此项研究需要深入结合语言学、数学、计算机科学等多门学科知识，这对研究者来说是一大考验。不妨先从语言学角度对汉语汉字进行理论分析，梳理汉语汉字的发展规律，再结合数学和计算语言学等学科知识与技术，设计检测方法。

（二）中外文本对比及检测方法借鉴

将汉语与英语进行对比，可以帮助我们了解汉语的特点，避免大规模借鉴英语检测方法带来的问题，同时也可以帮助我们分析汉语语病自动检测研究的重点和难点。

在中文文本中，字词间没有分隔符，所以，检测前需对文本进行分词及标注;此外，也没有非词错误，所以，无需使用单字匹配法;英语以音素、音节或词为检测切入点，汉语应以字为检测的基础，所以，用词法检测替代单字搭配检测，会增加查错的误报率;英语重语法和拼写，汉语重语义，所以，汉语检测重点应在语义搭配;英语词类和句法成分一一对应，汉语词类和句法成分关系复杂，所以，汉语的词性搭配检测只能作为辅助方法。另外，同日文文本对比，中文文本中的错误类型及所占比例也有所不同。日语是粘着语，仅从位置上检测字词前后粘着情况就能解决大部分问题，而汉语中字、词、短语和句子之间的组合都非常灵活，语序变换丰富多样，位置检测法也不能完全借鉴。

通过对比，我们可以利用语言之间的共同特征，更合理地改进检测方法，汉语虽没有非词错误，但错误字词可以以组词搭配为主，利用汉语中的固定式和长词优势，匹配检测出其中的错误字词。此外，马尔科夫链接模型适用于汉语中短距离的字词搭配、语法搭配、语义搭配检测。

（三）充分结合汉语本体研究

汉语内部各要素间有一定的运行特点和规律，汉语中的字词彼此之间结成以线条性为基础的关系，又按照一定的规则一个挨着一个进行排列组合。结合语言学的研究成果，“字”是汉语的“基本结构单位”。汉语语病检测，也应以字为检测切入点，逐渐成系统地分析词、短语、单句、复句等各要素之间的位置、词性、语义、语用情况，以查出具体出错类型，可以有效避免因默认查错类型而增加误判率的情况。

另外，汉语是语义型语言，不管是字词检测，还是词法、句法检测，都应该离不开语义的研究，字词义之间实则有一定的规律可循。目前，已有学者对合成词的两个字位义进行了详尽考察，分析了汉语字义与词义之间的关系。这为我们的研究提供了参考，除了分析汉语字词义的关系外，还应详尽考察短语之间、句子之间的语义搭配关系，并进行详细描写。再结合统计法不断完善语料，进一步统计其余各要素的搭配情况，并设计语义搭配检测方法。

（四）深入分析语病出现的原因及规律

文本中，汉语语病产生的原因，通过统计，按制约因素大小及出错频率高低依次排列为：按键及选择致误;图像文字识别或转换出错;联想及记忆错误;表达或习惯性出错;输入法字库小;电脑输入法、机器翻译或系统编码出错;故意为之;语音录入时文字转换出错;因检测方法设计不当，形成误判情况等。

结合成因分析，可对按键及选择出错规律进行研究，如，使用拼音输入法时，有可能造成同音错误字词，使用五笔输入法或手写输入法时，常表现为形近字词错误。对于图像文字识别出错，可以统计其出错类型，是误识较多还是拒识较多，什么情况下会出现乱码，什么情况下出现近似字词代换，转换过程是否有效结合了转换技术等。对于联想、记忆或表达错误，我们可以建立并完善语料库，提供充足、正确的语料资源，以便使用者查找和及时更正。对于字库较小、存在编码错误的输入法，我们可以提出纠错建议，并呼吁使用正确率高、规范的输入法系统。通过对语音录入出错类型的分析，可以帮助我们了解出错的制约因素的高低情况，并有针对性地避免。

汉语语病自动检测研究是一个长期的、逐步积累的发展过程，需要我们投入更多的精力，展开理论研究，为应用研究提供参考。同时，我们应加快研究的步伐，以应对信息化发展的需求。

参考文献：

[1]Frank Keller ，Mirella Lapata 2003 Using the Web to Obtain Frequencies for Unseen Bigrams .Computational Linguistics 29（3）：459-484.

[2]Karen Kukich 1992 Techniques for automatically correcting words in text.ACM Computing Surveys 24（4）：377-438.

[3]陈笑蓉，汪维家，陆汝占等 2003 《中文文本校对技术的研究与实现》，《计算机科学》30：53-55.

[3]池原悟，白井諭 1984 単語解析プログラムによる日本文誤字の自動検出と二次マルコフモデルによる訂正候補の抽出. 情報処理学会論文誌 25：298-305.

[4]冯金凤 2011 《中文文本自动查错研究》，东南大学硕士论文.

[5]龚小谨，罗振声等 2003 《中文文本自动校对中的语法错误检查》，《计算机工程与应用》39：98-100.

[6]荒木哲郎，池原悟等 2000 m重マルコフ連鎖モデルを用いた日本語の誤字·脱落·誤挿入誤り文字列の検出と訂正法 .電子情報通信学会論文誌 6：1516-1528.

[7]李建华，王晓龙，王平 2001 《多特征的中文文本校对算法的研究》，《计算机工程与科学》23：93-96.

[8]蓮井洋志，川口湊等 1996 科学技術系論文における付属語連鎖の統語的，意味的な誤りの検出方法. 情報処理学会論文誌 37：1928-1940.

[9]赖育昇 2002 《自然語言處理於網際網路常用問答集檢索之研究》，国立成功大学博士学位论文.

[10]林筱晴 2004 《語料庫統計值與網際網路統計值在自然語言處理上之應用：以中文斷詞為例》，台湾大学硕士学位论文.

[11]刘亮亮，王石，王东升等 2013 《领域问答系统中的文本错误自动发现方法》，《中文信息学报》3：77-83.

[12]骆卫华，罗振声等 2003 《中文文本自动校对的语义级查错研究》，《计算工程与应用》12：115-118.

[13]马金山，刘挺等 2004 《利用三元模型及依存分析查找中文文本错误》，《情报学报》23：723-728.

[14]王虹，张仰森 2001 《基于词二元接续的中文文本自动查错研究》，《贵州大学学报》18：16-21.

[15]吴岩，刘挺等 2001 《中文自动查错与人机交互纠错系统的研究与实现》，《哈尔滨工业大学学报》33：60-64.

[16]余涛 2003 《汉语语音识别文本的自动纠错研究》，上海交通大学硕士学位论文.

[17]张仰森，曹元大，俞士汶 2006 《基于规则与统计相结合的中文文本自动查错模型与算法》，《中文信息学报》4：1-7.

[18]张仰森，丁冰青 2001 《基于二元接续关系检查的字词级自动查错方法》，《中文信息学报》15：36-52.

[19]朱磊 2004 《自然语言处理之汉语文本自动校对》，电子科技大学硕士学位论文.

[20]张涛2017 《中文文本自动校对系统设计与实现》，西南交通大学硕士学位论文.

[21]王林坪2019 《基于統计特征和规则联合的中文文本校对算法研究》，昆明理工大学硕士学位论文.

[22]卓利艳 2018 《字词级中文文本自动校对的方法研究》，郑州大学硕士学位论文.

作者简介：

朱丽莉，女，四川文化传媒职业学院，研究方向：语言学及应用语言学。