中文语法纠错方法的研究综述

2021-12-02 01:22赵国红
现代计算机 2021年28期
关键词:语法错误语料语法

赵国红

(青海师范大学计算机学院,西宁 810000)

0 引言

近年来,全球掀起了汉语学习的热潮,然而,由于不同国家的语言环境和语言结构的差异,汉语学习者更容易出现语法错误。相较于英文,中文的语法更加复杂和灵活。因为中文不存在词语的单复数和时态等明确的语法规则,其语法错误经常涉及隐晦的语义解析而不能基于字词形态来判断[5]。所以,汉语学习者在汉语学习的过程中最常见的错误是语法错误。

国外英语语法纠错的研究起步比较早,在20世纪80年代的时候与GEC(grammatical error correction)相关的研究就已经出现。如今,针对英语语法纠错的方法特别多。相较于英语语法纠错,国内对中文语法纠错的研究起步比较晚,中文语法现象复杂多变,这也决定了中文语法纠错的复杂度要高于英文纠错的复杂度。总之,关于如何使用人工智能来纠正中文语法错误面临着机遇和挑战。由于平行语料的缺乏,早期的CGEC(chinese grammatical error correction)大多采用基于规则和统计的方法,如:Wu[16]提出使用相对位置语言模型(relative position language model)和解析模板语言模型(parse template language model)的方法检测美国学习者所写的文章中的语法错误。Yu和Chen[19]提出从HSK动态作文语料库中检测汉语句子语序错误的分类器的方法。Lee等人(2013)[9]使用一系列手工语言规则来检测中文学习者写作中的语法错误。Lee等人(2014)[2]进一步提出了一个结合手工语言规则和N-gram模型的系统来检测句子中的汉语语法错误。Fu等人[4]采用简单到复杂的分阶段纠错方法,使用语言模型纠正简单的错误,字、词级的Transformer模型纠正复杂的错误。以上提到的方法采用手工提取特征的方法,可能会造成提取的特征不完整或者重要信息丢失,并且汉语语法的灵活性使得传统规则的模型取得的效果不是很理想。近年来,随着大规模平行语料的开发,深度学习技术被广泛应用到汉语GEC任务。相比传统方法,神经网络方法具有很强的自动学习特征能力和完全数据驱动的能力。为了让更多的语言信息集成到神经网络,Zheng团队[22]使用词性(POS)标签方法与阿里巴巴团队[18]使用双向LSTM-CRF的方法进一步集成词性标注的分数(POS分数),逐点互信息(PMI)和依赖词搭配等深层学习网络,使得两个团队分别在2016年和2017年CGED任务中取得了较好的成绩。Zhou等人[23]使用多个模型纠错,分别是基于规则、统计和神经网络,通过模型组合的方式得到最终的纠错结果。Ren等人[11]使用基于卷积神经网络的seq2seq模型纠错,还采用了subword[12]算法来缩小词表和缓解未登录词的问题。王辰成等人[25]提出了基于Transformer增强架构的中文语法纠错模型,该模型使用动态残差结构结合不同神经模块的输出来增强模型捕获语义信息的能力。张生盛等人[21]首次提出了个性化的语法纠错。使用基于Transformer增强的汉语语法纠错模型对错误进行纠正。

本文首先介绍二语学习者语料库规模与CGEC研究的关系,接着分析基于统计与规则的研究方法,以及CGEC系统的评测标准,最后阐述学习者语法错误研究的发展趋势,并提出下一步提高系统准确率的建议。

1 CGEC数据描述

中文语法纠错任务主要是针对外国人在学习中文时出现的语法错误,本文主要介绍的数据为两种。一种为华语能力测试(test of chinese as a foreign language,TOCFL),中文繁体语料库。另一种是汉语水平考试(hanyu shuiping kaoshi,hsk),中文简体语料库。两个数据集都是用来检测母语非汉语者(包括外国人、华侨和中国少数民族考生)的汉语水平而设立的一项国际汉语能力标准考试。其中中文的语法错误类型主要包括:①冗余错误(redundant words);②选词错误(word selection errors);③漏词错误(missing words);④语序不当错误(word ordering errors)四种类型错误。具体的错误样本数据如表1所示。

表1 HSK语法错误类型

汉语学习者数据对汉语语法研究至关重要。研究者可借助人工标注的语料归纳语法错误类型;还可将其作为训练数据和测试数据,构建中文语法错误检测和纠错神经网络模型,并且提高评测系统的性能。

2 CGEC研究的常用方法

随着二语学习者和语料库的数量和规模的不断扩充,GEC研究领域出现了一些新的研究方法,具体可分为3类:①N-Gram语言模型;②自动分类模型;③神经机器翻译模型。在实际应用中,统计方法常与传统的基于规则的方法相结合,以充分发挥两者的优点,开发规则与统计的GEC系统。

2.1 N-Gram语言模型

N-Gram是一种基于统计语言模型(language model,LM)的算法。语言模型其实是一个基于概率的判别模型,它的输入是一句话,输出是这句话的概率,即这些单词的联合概率(joint probability)。N-gram的概率计算,假设一个句子由N个词组成表示为:S=(w1,w2,…,w n)

那么:

从以上的概率计算可以看出,N-gram语言模型存在参数空间过大和数据稀疏的问题,为解决这个问题引入马尔科夫假设,即一个词的出现仅与它之前的若干次有关。N-Gram语言模型是语法纠正领域中最常用的方法,能够测量单词序列出现的概率。在语言模型中语法正确的句子出现的概率过高,判断为语法正确的句子,而语法不正确句子出现的概率过低,则判断为语法不正确。

近年来,随着中文语法研究的深入,许多机构和组织公开发布了中文语法错误的数据集,基于改进N-Gram语言模型开发CGEC系统也逐渐增多,很大程度上也提升了N-Gram语言模型纠正语法错误。

2.2 自动分类模型

分类是给一个样本(一个数据实例)分配标签(类的)过程。在GEC研究中,如何根据输入句子中是否含有语法错误、错误类型分析和错误定位等维度进行综合评价。其样例如表1所示,判断正确性标准可以分为以下3个层次:①检测级别。自动分类模型把文本语法检测任务视为二分类的问题,判断输入的句子中是否包含语法错误,如果包含语法错误,那么就输出不正确,否则输出正确;②识别级别。自动分类模型把文本语法识别任务视为多分类的问题,根据黄金标准,识别所有的错误类型;③位置级别。此外,识别出所有错误类型之后,需要判断出语法错误发生的范围。

2.3 神经机器翻译模型

YouDao[4]在NLPCC 2018年加入语法纠错任务,将CGEC任务视为翻译问题,让神经网络学习错误句子(source sentence)与正确句子(target sentence)之间的关系,并将错误的句子翻译翻译为正确的句子。一般来说,大多数神经机器翻译模型是基于编码器-解码器,其中编码器将输入序列编码成一个隐藏状态序列,译码器根据隐藏状态生成输出序列。相比传统方法,神经机器翻译模型的明显优势是可以自动提取语言学特征和纠正具有长期依赖性的错误的能力。神经机器翻译模型Recurrent Neural Network(RNN)的变体如:Long Short Term Memory(LSTM)、Gated-Recurrent Unit(GRU)[1,12]和Convolutional Neural Network(CNN)[6-7]。此外,Transformer模型被用于CGEC生成流畅文本的能力关注,Transformer是一种强大的神经机器翻译模型。近年来,许多汉语语法纠错在Transformer模型基础上进行了广泛地研究,如Wang等人[15]、Devlin[3]和Liu[10]分别取得了不错效果。

3 CGEC系统评测

通过研究前人的工作[8,14,20],从中得到句子级别上使用准确率(Accuracy)、精准率(Pr eci sion)、召回率(Recall)和F1-measure作为自动度量来评估系统纠正的性能。汉语语法纠错系统使用人工注释语法错误的二语学习者的语料库作为评测标准,通过系统的改正错误与人工标准答案对比异同来衡量系统的效果。由于语法错误的标注和修改需要耗费大量的人力、物力和财力,为了提高语料标注效率,汉语语法纠错研究的测试语料中的语法错误一般是单人标注,但近期研究发现,由于母语者对汉语学习者语法错误的标注和修改存在异同,为了能够更准确地测试汉语语法纠错系统的性能,应该尽可能地使用多人标注测试语料。

4 结语

由于GEC需要纠正多种语法错误,目前GEC的准确率和召回率仍然较低。汉语GEC系统的性能仍有提升空间。为进一步提高自动语法错误检测系统的性能,需要解决以下几个问题。

(1)加强统计模型以大规模真实语料为知识来源,避免了人工编写规则的繁琐。

谢海华等[17]使用大量无标签的正确中文语料,通过词性规则、句法规则以及语言模型概率统计等方法来生成接近真实语法错误用例的样本,以扩充训练语料。由于中文语法的复杂性,在下一步的计划中将进一步提高数据构造的合理性,使构造的错误样本更符合人们实际所犯的语法错误。

(2)重视母语迁移造成二语学习者语法错误。语言迁移理论认为二语学习者的书面语法错误类型受其母语影响。基于学习者语料库的研究也发现,不同母语背景学习者的错误类型和分布概率存在差异。如周小兵等人[24]在对汉语作为第二语言的学习者的教学研究中发现,母语迁移是造成二语学习者语法错误的一项重要原因。如部分汉语学习者可能会写“我见面我的老师”这样的错句。此外,Swan and Smith[13]在对二语学习者的教学研究发现不同母语写作者会犯不同类型的错误。他们将其中的某些错误归因于语言之间的“转移”或“干扰”,即母语的“负迁移”。张生盛等人[21]针对汉语作为第二语言的学习者提出了个性化语法纠错,发现将语法纠错模型适应到学习者的不同特征时表现会更好。

(3)改善语言学特征的多任务学习。谢海华提到[17]因为语言学特征和语法的使用是十分相关的,所以使用语言学特征对语言模型进行优化能够使它学习到显式的语言学特征以及隐藏的语义信息,对语法错误检测的效果起到明显的改善作用。

猜你喜欢
语法错误语料语法
浅谈视频语料在对外汉语教学中的运用
可比语料库构建与可比度计算研究综述
跟踪导练(二)4
如何使用第二外语学习者语料
参考答案
汉语负迁移对英语写作的影响及启示
高中英语写作中的语法错误分析
英语教学中真实语料的运用