2018机器阅读理解技术竞赛总体报告

2018-11-16 08:00吕雅娟佘俏俏时迎超
中文信息学报 2018年10期
关键词:人工竞赛错误

刘 凯,刘 璐,刘 璟,吕雅娟,佘俏俏,张 倩,时迎超

(百度 自然语言处理部,北京 100190)

0 引言

机器阅读理解(Machine Reading Comprehension)是指让机器阅读文本,然后回答和阅读内容相关的问题。这项技术可以使计算机具备从文本数据中获取知识并回答问题的能力,是构建通用人工智能的关键技术之一。作为自然语言处理和人工智能领域的前沿课题,机器阅读理解研究近年来受到广泛关注。

“2018机器阅读理解技术竞赛”由中国中文信息学会、中国计算机学会主办,百度公司承办,旨在为研究者提供开放的学术交流平台,提升机器阅读理解的水平,推动语言理解和人工智能领域技术研究和应用的发展。

竞赛数据集采用了百度公司发布的当前最大规模的中文阅读理解数据集DuReader[1]。该数据集中的问题和文档均来自搜索引擎的真实场景,符合用户实际需求。在传统阅读理解自动评价指标基础上,此次竞赛针对特定类型问题的评价进行了适当的调整,使其与人工评价标准更为一致。除此之外,竞赛还提供了先进的阅读理解基线系统*① https://github.com/baidu/DuReader,为参赛者快速实验和提升阅读理解技术提供了便利。竞赛吸引了来自国内外的千余支队伍报名参与,参赛阅读理解系统的整体水平得到了显著提升。

本报告详细介绍了此次阅读理解竞赛的整体情况、评测方法、评测结果以及相应的结果分析等。希望能够为国内外学者和单位提供有益的信息,对阅读理解技术发展起到积极的推动作用。

1 竞赛设置

1.1 竞赛任务

本次竞赛任务设置为: 对于给定问题q及其候选文档集合D=d1,d2, …,dn,要求阅读理解系统输出能够回答问题的文本答案a。目标是a能够正确、完整、简洁地回答问题q。其中对于是非类型问题q,我们期望参赛者能够进一步给出相应答案的是非判断信息(Yes/No/Depends)。

1.2 数据简介

竞赛采用的DuReader[1]阅读理解数据集是当前规模最大的中文阅读理解数据集。数据集的构建基于真实的应用需求,所有问题都是百度搜索中用户提出的真实问题。文档来自全网采集的网页(Search)和百度知道(Zhidao)文档,答案是基于问题与文档人工撰写生成的。数据集中标注了问题类型、实体答案和观点答案等丰富信息。其中问题分为描述类、实体类和是非类三种类型,而实体类问题和是非类问题中分别包含了进一步的实体答案和观点答案。关于DuReader数据集的构建和详细的数据分布信息请参见参考文献[1]。本次竞赛的数据集的分布如表1所示,划分为Search和Zhidao两个不同数据来源的集合,并在测试集中随机添加了10万的混淆数据,以避免参赛系统针对性调节参数,保证竞赛的公平公正。

表1 DuReader数据分布

1.3 基线系统

本次竞赛为参赛者提供了数据集相应的基线系统源代码。参赛队伍可以有针对性地对基线系统进行改进升级,构造自己的参赛系统。基线系统实现了BiDAF[2]和MatchLSTM[3]两个阅读理解神经网络模型,二者均为当前主流的阅读理解模型,很多阅读理解模型是以这两个模型为基础进行创新的。本文中将采用基于BiDAF模型的系统作为基线系统。

1.4 评价方法

竞赛结果采用自动和人工两种评价方法进行评价。其中自动评价指标将作为直接的评价指标对提交的全部系统结果进行效果评价,用于系统排名和最终成绩认定。而人工评价指标将作为对前10名(TOP10)系统进行效果评价和问题分析的主要依据。

1.4.1 自动评价

在自动评测中采用ROUGE-L[4]和BLEU-4[5]两个指标,其中ROUGE-L将作为主要参考指标用于排名。对于数据集中的是非类型问题和实体类型问题,答案中包含观点判断或实体答案枚举的片段对于答案应当有着更大的影响。因此本次竞赛采用了改进的ROUGE-L和BLEU-4指标[6]进行效果评价,对于是非类型问题,希望参赛者能够对自己找到的答案做进一步的观点判断,如果判断正确,评估时将会得到一定的奖励;而对于实体类型问题,将直接在评价时对答案中包含的正确实体在评价中进行一定的奖励。关于改进的评价指标及改进效果详见参考文献[6]。在本次竞赛的自动评价计算中,取γ=1.2,而是非问题和实体问题类型的激励权重则分别设置为α=1.0,β=1.0。

1.4.2 人工评价

为了更好地评价系统结果并进行系统问题分析,本次竞赛对自动评价排名靠前的系统进行了人工采样打分评价。评分的主要依据为该答案是否正确、完整并简洁地回答了对应问题。人工评分原则上依据表2中的标准,为每个系统的答案给出0-3分的打分。对于每一条待评分答案安排五个标注者进行评分标注,最终评分结果采用五人的均值。

表2 人工评分标准

对于不同的待评估系统,评测组织方随机采样相同的1 000条问题进行评分,且对不同类型的问题(描述类/是非类/实体类)均依据总体一致的原则进行打分评估,不同类型问题的具体打分标准略有不同,人工评分样例详见附表1。对于有瑕疵或者错误的答案,我们进一步地考察了候选答案存在的具体问题,以便进行问题分析。

2 组织流程

本次阅读理解技术竞赛为期两个月,具体竞赛组织流程如表3所示。竞赛测试集分两次发放,首次发放一部分测试集供参赛者在线自助评估并查看排名。在线自动评估阶段每个参赛系统每天最多可以提交两次结果。完整的测试集于竞赛结束前一周发放,作为最终排名依据。

表3 竞赛组织流程

此次竞赛总注册报名的队伍达1062支,覆盖众多高校、科研机构及企业,其中包含了128支来自美、英、日等14个国家的国际队伍。最终共有153支队伍累计提交了1 489份系统结果。竞赛期间,参赛系统整体水平提升显著,ROUGE-L评价指标上由最初的35.96提升至终赛的63.62,超过半数系统的效果都优于官方提供的基线系统。

3 评价结果

在本报告中对参赛系统依据自动评价的ROUGE-L评分排序进行顺序编号,将系统编号替代系统名称指代各个系统。本报告中将重点就TOP10系统进行评价和分析,完整系统结果详见竞赛官网[注]http://mrc2018.cipsc.org.cn/。

3.1 自动评价结果

排名前10系统整体的自动评价效果如表4所示,排名前10系统在不同问题类型下的自动评价效果如表5所示。各系统在不同数据来源及问题类型下的对比如图1所示。

表4 TOP10系统自动评价结果

表5 TOP10系统在不同问题类型下的自动评价结果

从数据集来源上看,如图1所示,Zhidao来源的结果普遍优于同系统的Search部分结果。相比之下,如表4所示,人类阅读理解的效果在不同来源的数据上未显示出明显效果差距。在不同问题类型方面,如图1所示,各系统在描述类型和实体类型问题上的答案的自动评价效果相对较好,而在是非类问题上效果相对较差。而如表5所示,人工的效果则在实体类型的问题上表现相对一般,在其他两类问题上效果相对较好。

图1 各系统在不同数据来源及问题类型下的效果对比

3.2 人工评价结果

自动排名前10系统的人工评价评分均值效果如表6所示。对于所有系统和问题,五人评分的多数一致率达94.7%,评分质量相对可靠。系统间的人工评价结果显著性检验见附表2。

如表6所示,参赛系统整体最高分为2.20,距人工评价的3分满分评价仍有一定差距。在不同类型问题方面,描述类/实体类/是非类问题的最高人工评分分别为2.25/2.07/2.33,其中是非类型答案在人工评价标准下为效果最好部分,与自动评价中是非类型答案效果最差的结论不一致。在不同数据来源方面,各系统的Zhidao部分结果的人工评价均高于Search部分的结果,该结论与自动评价结论一致。

表6 TOP10系统人工评价结果

人工评估结果与自动评估结果在不同情况下的排序相关性如表7所示,其中在测试集全集上的自动/人工排序相关性达0.92,整体排序基本一致。在不同类型问题方面,描述类和实体类问题排序基本与自动排序结论一致,其中实体类型自动/人工排序相关性最高,而是非类型问题上当前自动/人工评价相关度较低。在不同数据来源方面,自动/人工评价相关度均较高,相对而言Search部分来源排序相关性较Zhidao部分略高。因此自动评价指标在效果在整体上效果良好,但对于是非类型的评估有待进一步改进。

表7 人工评估与自动评估的系统排序相关性

TOP10系统总体和TOP1参赛系统人工评分分值分布如表8所示。其中可以看出TOP10系统平均可以基本解决(答案评分达2~3分)75%以上的阅读理解问题,而TOP1系统可以基本解决82%的问题。完全回答错误的部分占比均小于10%。

表8 TOP10总体/TOP1参赛系统人工评分分布

4 结果分析

4.1 主要错误分析

为了更好地进行错误分析,人工评价时对主要错误类型进行了标注。主要错误类型如表9所示。不同的错误类型可能同时出现在一个答案中,在标注时仅标注该答案的一个最主要错误类型。

表9 答案主要错误类型

表9中给出了所有参赛系统的错误类型分布。其中所有错误中的“不完整”和“有冗余”类型错误的占比最大,占错误总量的67%。这两类错误的直接原因可以归结为,参赛阅读理解系统有能力找到相关答案,但答案边界定位不够准确。因此,当前阅读理解系统主流的答案边界预测框架的改进空间仍然很大,这类问题也是当前阅读理解技术所需重点解决的问题之一。相比之下,由于相关性问题导致的“无答案”的错误占错误总量14%,说明当前系统在答案相关性匹配上获得的效果较好,但仍然有改进空间。而错误中涉及到逻辑类型的“部分相关”和“逻辑不自洽”错误也占有相当部分,该类型错误的主要原因可能为系统未能深入理解答案内容逻辑,给出了相关但错误的答案。因此当前阅读理解技术在答案内容上如何进行进一步的逻辑建模仍然有待深入研究。

4.2 不同数据来源错误分析

所有参赛系统在不同数据来源下的错误类型分布如图2所示。其中Zhidao来源上的错误相对集中,有超过56%来自于“不完整”错误,而其他问题相对Search来源数据错误较少。其可能的主要原因为Zhidao来源数据为已经人工处理的问题相关数据,因此文档数据中天然存在的内容冗余和不相关问题较少,所以答案边界定位的问题易集中体现在“不完整”的错误上。

图2 不同数据来源条件下的错误类型分布

4.3 不同问题类型错误分析

不同问题类型下参赛系统的错误类型分布如图3所示。在描述类问题中最突出的错误为“不完整”,实体类问题中分布突出的错误为“无答案”及“有冗余”错误,是非类问题相对突出的错误为涉及答案逻辑的“部分相关”、“逻辑不自洽”以及特有的“是非有误”错误。由此我们可以看出,不同问题类型上的错误分布不同、特点明显,所需解决的难点均不相同,因此针对不同问题类型进行差异性建模对于提升已有阅读理解系统效果具有积极意义。

图3 不同问题类型条件下答案的错误类型分布

4.4 系统技术应用统计

我们采用调查问卷的方式对参赛系统所采用的技术进行统计分析,梳理当前阅读理解技术方面流行或有效的技术模块。其中发放110份问卷,返回有效数据39份,其中TOP10系统均提交了有效问卷,具体TOP10应用技术统计点如表10所示。大部分参赛系统均采用了基线系统进行改进,少量参赛系统采用了自研或其他开源系统。在建模方法方面,多数参赛系统选择的是流行的多层次注意力建模方法,并采用了是非判断和文档排序的算法模块,仅有少量的系统采用了语言生成改写及强化学习方法。TOP10各系统的详细系统描述参见附表3。

表10 参赛阅读理解系统采用的技术统计

实心圆点代表该系统采用了相关技术。

5 总结

2018机器阅读理解技术竞赛得到学术界和工业界学者的广泛关注和参与。参赛系统效果提升显著,对推动阅读理解技术发展起到了积极的作用。在人工评价标准下对参赛系统的分析发现,当前优秀的参赛系统已能基本正确回答75%以上的问题,但与人类阅读理解能力相比仍然存在一定差距。其中,阅读理解系统的错误主要集中在答案边界定位、答案冗余等方面,现有专注答案边界定位的阅读理解技术和模型仍然有很大的改进空间。对于不同的问题类型,参赛系统所表现出来的错误分布有显著不同,针对不同问题类型进行差异性建模是可行的改进方向。在评价标准方面,当前的阅读理解自动评价指标整体上与人工评价具有较好的相关性,但对于是非类型问题答案的自动评价仍然需要进一步的研究和探索。

猜你喜欢
人工竞赛错误
人工3D脊髓能帮助瘫痪者重新行走?
2020丝绸之路数学竞赛
在错误中成长
人工,天然,合成
人工“美颜”
创新思维竞赛(3)
新型多孔钽人工种植牙
创新思维竞赛(6)
不犯同样错误
《错误》:怎一个“美”字了得