基于宏观篇章结构的科技论文摘要模型

2021-11-05 01:29王红玲王中卿
计算机应用 2021年10期
关键词:文摘章节层级

付 颖,王红玲,王中卿

(苏州大学计算机科学与技术学院,江苏苏州 215006)

0 引言

在信息爆炸、互联网技术飞速发展的今天,人们可接触到的科技信息也是五花八门,比如科技论文、学术报告和科技书籍等。科技论文作为承载科技信息主要方式之一,伴随着科技发展,产出量也日益增多。与此同时,一大批年轻的科技论文作者涌现出来。一部分学者在科学实验阶段的工作非常出色,学术水平达到了国内外研究的先进水平。然而,由于缺乏必要的写作知识和经验,这些学者在撰写论文时往往力不从心,论文存在层次不清晰、表达不到位等问题,尤其是对科技论文摘要部分(Abstract)的撰写缺乏规范化表达,从而影响了读者对论文整体内容的快速了解、论文的被检索率和被引频次。为此,科技论文自动文摘应运而生,以期对科技论文作者和读者有所帮助[1]。

科技论文摘要的本质是单文档自动文摘,其任务是在科技论文正文(除Abstract 以外的内容)的基础上,产生一篇摘要(Summary),科技论文作者可在参考此摘要的基础上,修改原来的人工摘要,力求提高其独立性和自明性,从而提升该论文的学术水平。除此之外,论文读者以此方式来获取论文摘要,可全面了解论文全貌。

目前,由于大多数自动文摘研究所采用的数据集为新闻文本,如CNN/Daily Mail[2]、NLPCC 2017 Shared Task3 提供的数据集TTNews[3]等。相较于新闻文本,科技论文具有严谨的篇章结构。为此,除传统的文本信息外,本文拟引入宏观篇章结构信息用于生成摘要。宏观篇章结构理论由Van Dijk等[4-8]提出,该理论较为系统地描述了微观结构与宏观结构:微观结构是篇章中的一个句子内部的结构或两个连续的句子之间的结构,表现为篇章内部连续语句之间的语义连贯;宏观结构表现为篇章的主要思想和推进脉络,从宏观上约束了篇章内各部分之间的关联。2017年褚晓敏等[9]在此基础上进一步分析了宏观篇章结构,指出宏观篇章结构是指更高层次的结构,表现为句群、段落及章节之间的结构,该结构通常与篇章体裁和篇章模式紧密相关,不同体裁的展开形式是不同的,如新闻类文本常用“总分”结构来展开整篇文章。对科技论文而言,它一般具有固定的章节,如图1 所示,有“引言”“实验方法”“实验结果”以及“结束语”等章节,并且这些章节之间具有紧密的关联关系。如“引言”总摄全文中间若干章节,“实验方法”“实验结果”等相对而言为较为独立的章节;“结束语”对整篇科技论文进行总结。由此可看出,科技论文拥有明显的“总分总”的宏观篇章结构。

图1 科技论文宏观篇章结构的示例Fig.1 Example of macro discourse structure of scientific paper

基于此,本文提出了一种基于宏观篇章结构的科技论文摘要模型,拟结合宏观篇章结构等语言学知识改善传统自动文摘模型过于侧重学习序列化信息,缺乏结构化信息的不足。具体来讲:1)本文在编码端提出了一个基于宏观篇章结构的层次编码器,将科技论文划分为“单词-章节-文档”这样的篇章层次结构,然后在此基础上,使用图卷积网络(Graph Convolution Network,GCN)[10]去编码科技论文章节之间的宏观篇章结构信息。2)本文在解码端构建了一个信息融合模块,将章节层级的宏观篇章结构信息与单词层级的信息在注意力机制中得以融合,旨在用章节间的宏观篇章结构去指导解码器更有效地生成科技论文文摘。3)配备了一个注意力机制优化单元,用以更新优化上下文向量,从而更好地捕获上下文信息,提高生成文摘的质量。

1 相关工作

随着深度学习技术的不断发展,生成式自动文摘成为近年来的研究热点之一。目前,从序列到序列(Sequence to Sequence,Seq2Seq)[11]已成为生成式自动文摘的主流架构。一些取得突破性进展的研究工作大多是在此架构的基础之上展开。2015年Rush等[12]首次提出将配备注意力机制(Attention Mechanism)的Seq2Seq 模型运用于自动文摘任务中,实验结果表明,该架构能显著提升模型性能;2017 年Zhou等[13]提出一种选择门机制,旨在筛选文本中的重要信息;同年,See 等[14]提出指针生成(Pointer-Generator,PG)网络机制以及覆盖(Coverage)机制,该模型运用复制原文本中的单词和生成新词的方式来解决词表以外的单词(Out Of Vocabulary,OOV)问题,并且能在一定程度上去除重复词汇。然而,上述模型虽取得了不错的实验效果,但主要关注的是文本的序列化信息,而对文本的结构化信息学习较差。

如今,篇章结构分析等一系列语言学理论和技术也日渐成熟,考虑将语言学领域的知识应用于自动文摘的研究方向上,这一研究思路得到了许多学者的实验验证。2018 年Cohan 等[15]提出一种分层编码器,将篇章层次结构应用于科技论文中,从而使得生成的文摘内容更具层次性。虽然该文运用了层次结构信息,但是并没有对章节间的篇章结构进行深入探究。2019 年吴仁守等[16]提出将篇章结构中的层次结构运用于中文新闻类文本,实验证明模型效果有明显的提高。同样地,该模型也构建了分层编码器,但是由于新闻类文本长度较短,编码器只在“字-句子”层级结构编码,缺少对结构性较强的长文本语料的实验分析。2020 年张迎等[17]利用篇章结构分析中的主次关系提高文本摘要的质量,但依然是停留在微观层面上句子间关系的分析。

综上所述,本文提出了一种基于宏观篇章结构的科技论文摘要模型,拟在篇章层次结构的基础上,运用图卷积网络对科技论文章节层级“总分总”的结构信息进行编码,然后借由信息融合模块将该信息融合到单词层级中,从而使得模型生成逻辑关系清晰、层次结构分明的科技论文摘要。

2 基于宏观篇章结构的科技论文摘要模型

基于宏观篇章结构信息的科技论文摘要模型如图2 所示,主要包括两个部分:1)基于宏观篇章结构的层级编码器;2)配备信息融合模块以及注意力机制优化单元的解码器。

图2 基于宏观篇章结构的科技论文摘要模型的整体结构Fig.2 Overall structure of scientific paper summarization model based on macro discourse structure

在编码端,基于宏观篇章结构的层级编码器主要任务是读取科技论文的文本;单词层级编码器在单词层级建立单词层级语义表示;章节层级编码器在章节层级运用GCN 对章节间的宏观篇章结构信息进行编码,从而建立具有图结构信息的章节层级语义表示。在解码端,在接收到科技论文的人工摘要、来自编码端的单词层级语义信息以及章节层级语义信息后,信息融合模块负责在注意力机制中使得章节层级的结构信息有效融合于单词层级的语义信息中,以此方式来指导解码端生成科技论文文摘,该模块最终会输出注意力分布和上下文向量。而注意力机制优化单元旨在更新优化上下文向量,使得解码端能更全面地捕获上下文信息。另外,为了增强模型性能,本文选取配备PG 网络以及Coverage 机制的解码器(以下简称为PG+Coverage)作为本文的基础框架并将从信息融合模块获取的注意力分布以及从注意力机制优化单元获取的上下文向量输入其中,由此,该模型可以在一定程度上改善OOV单词和单词重复过多的问题。

2.1 基于宏观篇章结构的层级编码器

根据科技论文的表述特点,科技论文的章节是一个自身可以独立表达完整意义的篇章单元,并且章节与章节之间具有严谨的逻辑关系,因此从宏观层面上来说,为了更有效地把握科技论文篇章单元与篇章主题的关联情况,将科技论文的篇章层次结构划分为“单词-章节-文档”是比较简单直接的方式。如图3 所示,基于宏观篇章结构的层级编码器包含有单词层级编码器、章节层级编码器,从而分别编码出单词层级语义表示以及章节层级语义表示。考虑到单词之间的长距离依赖以及长短期记忆(Long Short-Term Memory,LSTM)[18]网络具有的记忆功能对序列建模具备的优势,而双向长短期记忆网络(Bidirectional LSTM,BiLSTM)[19]相较于单向LSTM,能更好地捕获序列的上下文信息,所以,本文将采用BiLSTM 作为输入序列的编码网络结构。

图3 基于宏观篇章结构的层级编码器模型Fig.3 Hierarchical encoder model based on macro discourse structure

为了方便对本文提出的模型进行描述,首先要明确模型的任务定义。对于给定的输入文档D,本文将其章节序列和单词序列分别定义为Ds=(s1,s2,…,sTs) 和Dx=(x1,x2,…,xTx),其中Ts是章节序列的长度,Tx是单词序列长度。自动文摘的任务是,输入文档D,经过科技论文自动文摘模型生成简短的文摘序列Y=(y1,y2,…,yTy),其中Ty为文摘序列长度并且Ty

2.1.1 单词层级编码器

为了详细了解章节层级编码器的工作流程,会以章节j的单词序列编码为例来详细阐述其运行机制。首先,章节j的单词序列经过词嵌入向量矩阵We得到对应的词嵌入向量序列其中,Tj为章节j的单词序列长度。接着,将此词嵌入向量序列输入到BiLSTM 中,输出序列对应的隐藏层状态表示。以此方式获得所有章节的单词序列对应的隐藏层状态,将其叠加起来作为单词层级语义表示,记作hw。

2.1.2 章节层级编码器

如图4 所示,视科技论文的文本为图,将文本中的各个章节作为节点,根据章节之间的宏观篇章结构,在节点之间构建边,最终得到一个Ts阶的邻接矩阵。Introduction(引言)与中间若干章节存在关联关系,而这些章节又与Conclusion(结束语)互相关联,关联置1;否则置0。除此之外,每个章节自身也有关联关系。

图4 宏观篇章结构图的构建及其邻接矩阵Fig.4 Construction of macro discourse structure chart and its adjacency matrix

同样地,以章节j为例,在2.1.1 节单词层级编码器得到章节j隐藏层状态的同时,也获取到其输出的最后1 个时间步的隐藏层状态表示,将其作为章节j的中间语义表示。计算方法如式(1)所示:

其中:BiLSTM(·)为双向循环神经网络函数,其输出为最后一个时间步的隐藏层状态向量。

2.2 配备信息融合模块以及注意力机制优化单元的解码器

为了使得从编码端获取的章节语义信息有效融合于单词层级信息中,本文在注意力机制中构建信息融合模块,并且为了增强模型效果,扩充了一个注意机制优化单元,用以更新优化上下文向量。此外,由于目前主流的自动文摘生成式模型是配备注意力机制的Seq2Seq 框架;然而,该框架在处理OOV单词过程中存在困难,而PG网络模型可以通过从文本中复制单词和生成新词的方式有效解决这一难题,另外,Coverage 机制可以降低模型生成单词的重合度,故而,本文采用PG+Coverage模型作为解码器的基础模型架构。

2.2.1 信息融合模块

考虑到本文编码器的单词层级过于关注文本的序列化信息,为此,构建信息融合模块。信息融合模块负责将GCN 从章节层级编码的宏观篇章结构信息融合于单词层级的信息中,使得章节之间的逻辑关系可有效指导解码器的生成工作。

将文本的单词xi一个接一个地输入到基于宏观篇章结构的层级编码器中,输出单词层级语义表示hw以及章节层级语义表示hs,而在训练的每一个时间步t,解码器都能接受到前一个时间步的人工摘要单词的词嵌入向量,并且同时产生解码器的状态表达st。接着,如图5 所示,分别使单词层级语义表示hw、章节层级语义表示hs与st进行对齐匹配,从而得到两者与解码器状态的匹配向量ew、es。便可如式(2)~式(3)计算所得:

图5 信息融合模块结构Fig.5 Structure of information fusion module

其中:Wwh、Wwd、Wsh、Wsd以及bw、bs均为可训练参数。

在对解码器状态与章节信息的匹配向量es进行归一化后,得到基于章节层级的注意力权重γt。然后,使其与基于单词层级的匹配向量ew通过向量相乘进行融合,最后计算出融合后的注意力分布向量at。计算式如式(4)~(5)所示:

继而,通过信息融合后的注意力分布at与编码器的单词层级隐藏层状态hi进行加权求和,计算出上下文向量。计算方法如式(6)所示:

2.2.2 注意力机制优化单元

为了更为全面地捕获上下文信息,需要利用注意力机制优化单元对信息融合模块得到的上下文向量h*t进行更新优化操作。

当时间步为t时,将前一时间步t-1 的解码端的输入ut-1与解码器的状态表达st拼接在一起,然后,把它喂入一个线性层,得出解码器目标端状态表达ot。类似地,将上下文向量h*t喂入线性层,可获取到源端状态表达ct。接着,通过以上内容,计算出一个门控单元rt,用以自适应控制更新后的上下文向量中源端内容ct的比重,而其余部分1-rt则来自目标端内容ot。详细的计算过程如式(7)~式(10)所示:

其中:Vo、Vc、Wr、Ur、Vr、bo、bc及br均为可训练参数。

2.2.3 训练与推理

通过一系列的计算推理,利用PG网络机制得到时间步为t的从固定词汇表中生成单词的概率pg以及从文本中生成单词的概率(1-pg),从而算得预测单词w的概率分布P(w)。需要注意的是单词w来自扩展词汇表,即由固定词汇表与文本中的单词联合而成的词汇表。具体计算过程如式(11)~式(13)所示:

除此之外,若遇到生成重复单词过多的情况,可考虑引入Coverage 机制。具体来说,需先设置一个覆盖向量mt,初始化为零向量,然后将其作为一个额外的输入向量去改变式(2),如此可避免传统的注意力机制过于关注同一位置。计算公式如式(14)~(15)所示:

其中Wm为可训练参数向量,并且与v等长。

在模型训练的过程中,对于时间步t,损失函数为目标单词yt的负对数。另外,若添加Coverage 机制,则还应定义覆盖损失函数。由此得出,最终的损失函数如式(16)所示:

故而,整个生成序列的损失函数如式(17)所示:

3 实验结果与分析

本章将从实验设置、评价方法、实验结果分析3 个部分详细汇报基于宏观篇章结构的科技论文摘要模型的实验过程和实验结果评价。

3.1 实验设置

首先,本文将描述实验的具体细节,主要包括:数据集和实验的超参数设置。

3.1.1 数据集

本文选用2018年Cohan等[15]的arXiv作为实验的数据集。arXiv 数据集是由arXiv.org 爬取而来的大量英语科技论文组成的数据。该数据集一共有215 000 篇包含人工摘要的科技论文,文章平均长度为4 938个单词,人工摘要平均长度为220个单词,其中,训练集有202 120篇论文,验证集和测试集均有6 440 篇。对于arXiv 数据集,用正则表达式删去数据和表格,只保留纯文本信息,并且将文章中的公式和引用符号统一规范化处理,对于章节信息,保留一级标题,并识别比较常见的章节名(比如Conclusion、Conclusionremark、Summary 等),并且仅保留“结论”之前的章节。

3.1.2 超参数设置

本文实验参数设置的详细过程如下:经过对数据集的大量统计工作,发现科技论文的章节数目大多集中在[4,6]内,而输入的单词序列过长则会导致计算量过大、实验时间过长,又因为本文实验需要与前人工作(如2018 年Cohan 等[15]提出配备了分层的注意力机制的模型方法)进行对比,所以此实验的参数设置与之相同,如表1 所示,每个章节的单词个数限制到500 个,多的截取、不够填充,章节数目为4 个,输入的文章总单词个数为2 000 个,生成的单词序列最大长度为210 个。为了保留合理的章节信息,需对章节部分进行进一步地处理,具体来讲,保留的4个章节中通常含有“引言”和“结论”,若没有这两个章节,则选取论文的第1个和最后1个章节。对于这两个相对重要的章节,会同时抽取章节的最后两个句子,以防止章节尾部信息丢失,这样的设置也符合科技论文的写作习惯。而词汇表设置为50 000,是因为在实验观察中,增大词汇表的大小并不能有效提高实验性能。除此之外,通过多次实验尝试,本文将批处理大小设置为16,批处理大小过大(如32),则会占用大量的硬件资源以及模型容易陷入局部最小值;批处理大小过小(如8),则会花费较多的实验时间以及模型容易出现梯度震荡的情况。另外,此实验采用PyTorch深度学习框架,在NVIDIA 1080 Ti GPU 上训练,并使用Adagrad 优化器,lr=0.15。

其余的超参数设置如表1所示。

表1 实验参数设置Tab.1 Experimental parameter setting

3.2 实验评价方法

目前在文本摘要任务中最常用的评价方法是ROUGE(Recall-Oriented Understudy for Gisting Evaluation)[20],既然科技论文摘要也是文本摘要,那这个评价方法也是适用的。

本文采用ROUGE 评价方法中的ROUGE-1、ROUGE-2 以及ROUGE-L 作为模型生成的科技论文摘要与科技论文提供的人工摘要(Abstract)进行对比的评测标准,其中,ROUGE-N(包括ROUGE-1、ROUGE-2等)主要是通过比对人工摘要与生成摘要之间相同的n元词的数目评测生成摘要的质量。ROUGE⁃N如式(18)所示:

除此之外,ROUGE-L 中的L 指最长公共子序列(Longest Common Subsequence,LCS),ROUGE-L 计算的时候使用了生成摘要和人工摘要的最长公共子序列,如式(19)所示:

其中:RLCS、PLCS分别为最长公共子序列的召回率和精确率。

3.3 结果分析

本节首先评估本文提出的基于宏观篇章结构的科技论文生成式摘要模型与其他模型的实验对比结果;然后再将模型中不同部分对于整体的贡献进行详细分析;此外,还将引入人工摘要和模型加入各个组件后的生成摘要,以此进行实例对比。

3.3.1 对照实验

通过完成对照实验,可以和以往先进的自动文摘模型在arXiv数据集上对比实验结果。实验结果对比如表2所示。

表2中的对照系统如下:

表2 对照系统摘要结果的ROUGE得分对比 单位:%Tab.2 Comparison of ROUGE scores of control system summarization results unit:%

SumBasic[21]一种抽取式摘要模型,以单词为单位,句子的重要性得分由该句子中所包含单词出现的概率求和所得。

LSA[22]一种抽取式摘要模型,分析文档隐含的主题,然后分析句子和主题的相关性。

LexRank[23]一种抽取式摘要模型,根据图论的方法,通过句子间的相似度,对句子的关键程度打分,选取分数较高的句子。

Seq2Seq+Attn[24]一种生成式摘要主流框架结构,配备注意力机制的从序列到序列模型。

PG 一种生成式摘要模型,在Seq2Seq+Attn 基础上,增添复制单词和生成新单词机制,用以解决OOV单词问题。

HAM(Hierarchial Attention Model)[15]一种生成式摘要模型,配备了分层的注意力机制的模型方法,具体而言,该模型利用了篇章层次结构信息去指导文摘的生成。

WLI+MDSI+AOU(Word-Level Information &Macro Discourse Structure Information&Attention Optimization Unit)本文提出的模型,其将单词层级信息与章节间宏观篇章结构信息融合,并添加注意力机制优化单元的模型,它的基础架构是PG+Coverage模型。

通过对表2 的实验结果对比可以得出,本文提出的基于宏观篇章结构的科技论文模型(WLI+MDSI+AOU)在ROUGE评价指标上有明显的提升。与其他模型相比,WLI+MDSI+AOU比以上性能最好的HAM在ROUGE-1、ROUGE-2 以 及ROUGE-L 上分别高出3.13 个百分点,1.50 个百分点和2.47个百分点,因此,可以得出结论:本文模型有着更好的性能,并在生成文摘的质量方面有更高的提升。

3.3.2 模型中不同组件的性能分析

为了评价本文提出的宏观篇章结构对自动文摘的有效性,实验分析了模型中不同组件对模型整体的贡献程度。在此把整个摘要生成模型划分为3 个模型,它们的解码器均配备了PG+Coverage机制,下文将不再赘述。

Baseline(Word-Level Information,WLI)仅包含单词层级信息的BiLSTM编码器和解码器。

WLI+MDSI(Word-Level Information &Macro Discourse Structure Information)将单词层级信息与章节间宏观篇章结构信息融合的模型。

WLI+MDSI+AOU(Word-Level Information &Macro Discourse Structure Information &Attention Optimization Unit)将单词层级信息与章节间宏观篇章结构信息融合,并添加注意力优化单元的模型。

配备不同组件的模型的实验结果如表3 所示,通过分析表3 的实验结果可明显看出,WLI+MDSI 比WLI 分别在ROUGE-1,ROUGE-2 以及ROUGE-L 上高出1.93 个百分点、0.52个百分点和2.92个百分点,表明融合章节间结构信息的模型有更好的实验效果,宏观篇章结构信息能有效指导模型生成质量更高、层次更清晰的科技论文摘要。WLI+MDSI+AOU 比WLI+MDSI 分别在ROUGE-1、ROUGE-2 以及ROUGEL 上分别高出1.60 个百分点、0.63 个百分点和1.37 个百分点,这充分说明扩充注意力机制优化单元比传统的注意力机制能更好地捕获上下文内容,从而改善文摘的生成质量。最终从整体上看,本文提出的WLI+MDSI+AOU 比WLI 分别在ROUGE-1、ROUGE-2 以及ROUGE-L 上高出3.53 个百分点、1.15 个百分点和4.29 个百分点,由此,可证明WLI+MDSI+AOU 在模型性能上有较为显著的提升,也证明了本文所提供的模型方法是可行的。

表3 配备不同组件的模型摘要结果的ROUGE得分对比 单位:%Tab.3 Comparison of ROUGE scores of model summarization results with different components unit:%

为了更进一步对模型中的不同组件进行分析,本文引入了配备不同组件的模型生成的摘要内容,并使其与人工摘要进行详细对比。人工摘要及不同模型生成的摘要内容如下:

Abstract:①cavity quantum electrodynamic schemes for quantum gates are amongst the earliest quantum computing proposals .despite continued progress and the recent demonstration of photon blockade,there are still issues with optimal coupling and gate operation involving high-quality cavities.| ②here we show that dynamic cavity control allows for scalable cavity-qed based quantum gates using the full cavity bandwidth.| ③this technique allows an order of magnitude increase in operating speed,and two orders reduction in cavity,over passive systems,| ④our method exploits stark shift based switching,| ⑤and is ideally suited to solid-state integrated optical approaches to quantum computing.

注释:①介绍腔量子电动力学量子门方案及存在的问题②运用...控制...带宽...方法③该方法提高了...,减少了...④该方法用了...基于交换的位移...的技术⑤该方法非常适合...

WLI:that photon show that demonstrated of notable denote atoms in storage cavity here a the quantum of atom(qed is)with leakage,and and-elicit cavity network from mode over passive systems.cavity quantum schemes are the earliest.the approaches and scalable techniques have as missing modest in the gates-by photon .it suit the approaches for solid to compute quantum that spectrum to within of the target qubit with denote that cavity-assisted via of being explored atoms quantum electrodynamics that fig zero and the cavity-assisted via,the populated with photonic the cavity and minimal dissipation .the issues are quality cavities and coupling.

注释 加粗部分谈及“腔量子方案是最早的”“存在...问题”与①对应,“适用于...”与⑤对应,其他内容大多涉及该技术的具体实现过程,有一处单词重复(较为片面、层次性较差、单词重复度较低)。

WLI+MDSI:that photon can be in cavity loss and constitute quantum stark existing confinement high coupling photon cavity.cavity quantum increase order in operating speed of magnitude .that spectrum is surprisingly to coherent of electrodynamics systems of the storage.quantum gates suit solid on computing.we denote that quantum gates allows for the control of cavity bandwidth quantum integrated diamond of these to binding experimental target topological storage frequency.cavity inducing integral target operator fidelity the magnitude implementation,and the approaches exploit shift on switching.

注释 加粗部分谈及“该技术增加...”与③对应,“适合于...计算”与⑤对应,“表明可控制带宽”与②对应,“该技术利用...”与④对应,几乎没有单词重复(涉及的层面较多、层次性有所提高、单词重复度较低)。

WLI+MDSI+AOU:that photon in simulate the formation of computing proposals at the zeros of a complex quantum stark field with a power spectrum,there are issues with optimal quality cavities and cavity quantum gate and the schemes of quantum are computing proposals.that quantum show that cavity gates control allows for bandwidth in the orders.this approach can be increasing of operating speed on computing in systems,we illustrate the electrodynamic schemes by considering the distributions of quantum gate-blockade observables .the method show that it suits solid on cavity quantum computing,and cavity quantum uses the way of shift on switching.

注释 加粗部分谈及“存在...问题”与①对应,“控制带宽”与②对应,“该方法增加...”与③对应,“该方法适用于...”与⑤对应,“该技术利用...”与④对应,几乎没有单词重复(涉及的层面较全面、表达较连贯、层次性较强、单词重复度较低)。

经过多次的对比,发现WLI 生成的文摘内容大多集中于介绍科技论文的研究背景以及研究目的等方面,几乎没有或者较少涉及该论文的研究方法和研究结论等方面,而WLI+MDSI生成的文摘内容除了涉及研究背景外,也简单概括了该论文的研究方法,此外,WLI+MDSI+AOU 生成的文摘内容则很好地兼顾到了科技论文的多个论述层面。最终,可以得到以下结论:由于WLI使用Coverage 机制,所以WLI单词重复度较低,但是模型生成的内容涉及层面较为单一,并且表达较不连贯。与WLI 对比,WLI+MDSI 生成文摘所涉及的层面有明显的增加,这表明基于图模型的宏观篇章结构信息能有效改善模型生成内容的层次性。与WLI+MDSI 对比,WLI+MDSI+AOU 生成文摘内容的层次性又有了进一步的提高,表达能力略有提升,这表明注意力优化单元能够较为全面地捕获上下文信息,从而提高模型生成内容的质量。

由上述分析可得出,本文提出的实验模型能明显提高生成文摘内容的结构层次性,降低单词重复度以及提升内容表达的连贯性。

4 结语

作为自动文摘的一个重要研究领域,科技论文自动文摘在近几年得到了飞速的发展。本文提出了一种基于宏观篇章结构的科技论文自动文摘模型,构建了一个基于宏观篇章结构的层级编码器,旨在以图的方法增强章节的语义表达以及加强章节间的逻辑关联性;在解码端添加信息融合模块,使得章节间的宏观篇章结构信息融合于单词层级的线性信息中,使模型在获取文本序列化信息的同时,也能关注到文本的结构信息。除此之外,在解码端扩充注意力机制优化单元,用以更全面地捕获上下文信息。实验结果表明,该方法在ROUGE的评测指标上有较为明显的提升。在将来的工作方面,我们将着重考虑更加详细的篇章结构信息和外部文档对科技论文的关联结构,以期改善科技论文摘要的生成质量。

猜你喜欢
文摘章节层级
科室层级护理质量控制网的实施与探讨
层级护理模式对血液透析患者的影响
职务职级并行后,科员可以努力到哪个层级
高中数学章节易错点提前干预的策略研究
2014—2016贵州英语学考、高考学生认知水平分析
利用“骨架突破法”,提高复习效率
八仙过海,各显神通
《烃》一章中的实验考点大扫描
台港文摘
台港文摘