基于注意力引导图卷积网络的中英机器翻译模型*

2022-01-15 06:24王章辉张涵婷
计算机与数字工程 2021年12期
关键词:解释性语句卷积

韩 雪 王章辉 张涵婷

(辽宁大学信息学院 沈阳 110036)

1 引言

随着新时代信息技术的日趋成熟,传统人工翻译逐渐被网络文本翻译所取代。与传统人工翻译相比,该种方式除了减少人力资源的消耗,同时减少时间的占用比重,真正做到解放无用人力消耗。但新事物的诞生及推广需大量时间与实验去验证,在经历曲折的六十年后,机器翻译才有了质的飞跃。

机器翻译共经历四个发展阶段,第一阶段为基于规则的方法[1]。该方法利用人类专家的翻译知识书写规则,将词与成分的翻译、句子出现的位置都用规则表示。其优点在于语言学专家所储备的知识准确率较高,但存在开发周期长、成本过高之外、面临规则冲突等问题,1981年Makoto Nagao提出基于实例的方法实现机器翻译,在此之后Sato等进行推广[2]。

第二阶段为基于实例的机器翻译。它是利用所收集到的双语料库中找到与源语句相似度最高的翻译示例,然后调整示例所对应的目标语句实现翻译。但第二阶段的翻译方法具有局限性,原因在于源语句在寻找实例的过程中无法保证完全覆盖,机器翻译进入第三发展阶段。

第三阶段为基于统计的机器翻译,由Peter F.Brown最先提出[3]。统计机器翻译系统是对机器翻译进行数学建模计算概率,概率越大,源语句寻找目标语句的准确度越高,因此需利用大数据进行训练。与基于规则和实例的翻译相比其成本较低之外,目标语句解决漏译问题。但统计机器翻译又称为基于数据库的方法,因此极其依赖数据库导致数据稀疏的产生。

第四节阶段为基于神经网络的机器翻译。神经网络机器翻译(Neural Machine Translation,NMT)包含encoder to decoder模型,该构造为一个或多个编码器与一个或多个解码器。编码器将输入层中源语句经过一系列神经网络变换,用一个高维向量转递给解码器;解码器通过解码将高维向量再重新翻译成目标语句。数据稀疏问题可通过基于神经网络的机器翻译得到缓解,但如需进一步改善,可通过基于命名实体识别的算法等解决。

2013年,由于Kalchbrenner与Blunsoml对神经网络机器翻译的重新提出,使科学家将目光聚集于该方法的研究中。随后Sutskever、Cho、Jean等分别实现的完全基于神经网络的机器翻译模型,展现出了巨大的应用潜力[4]。如今,随着NMT模型的优化改进,神经网络翻译系统在大部分语言上超过以往机器翻译模型,成为最有潜力的翻译方法。

基于神经网络的机器翻译模型种类繁多,根据拓扑可分为前馈神经[5]、卷积神经[6]、循环神经网络[7]等,并各自在机器翻译上获得较好的效果。然而机器翻译系统仍面临着诸多问题,人们对翻译需求的提高迫使翻译性能需进一步改进,机器翻译面临新的瓶颈。

1)译文选择。翻译句子时会面临多选词问题,这是由于语言中一词多义的现象。如图1源语句中的[是]既可以翻译成[am]、又可以翻译成[is]和[are],如果忽略主语[我],[是]所对应的目标词都可以选择。而在该例句中,只有机器翻译模型将主语和谓语建立联系,才能做出正确的选择。译文选择是基于神经网络的翻译所解决的第一个挑战。

图1 源语句与目标语句

2)可解释性。在文本翻译中,尽管可以调整或优化网络结构来提高系统质量,但可解释性无法改善。可解释性是指验证机器翻译是否有一定依据来解释其正确性,例如[我是中国人]和[I am Chinese],通过某种方式确定[我-I]、[是-am]、[中国人-Chinese]相互对应,而如何确定相互对应的方式是解决可解释性的关键。

3)引入知识。引入知识是为了如何将外来知识引入模型中训练。机器翻译依靠大量数据库去深度学习,对于生僻单词或最新提出的词组会无法给出其对应的解释,这就需要外引“词典”去加强数据库深度学习,这是基于神经网络的翻译所解决的第三个挑战。

4)语篇翻译。大部分机器翻译将句子为单位进入输出层,这种结构对于整篇文章翻译,缺乏句子之间连贯性,影响词元素特征信息以及段落层次结构信息,语篇翻译有待于解决。

机器翻译发展历程与所面临的挑战使模型需加以改进。因此提出一种新型基于注意力引导图卷积网络的机器翻译优化模型,该模型通过注意引导层、密集连接层和线性组合层改善基于神经网络的翻译所遇到的译文选择、可解释性、数据稀疏与语篇翻译问题。

注意力引导图卷积网络模型融合注意力机制模型与图卷积神经网络模型的优点,而注意力机制(Attention Model,AM)[8]与图卷积神经网络(Graph Convolutional Network,GCN)[9]各自针对上述挑战有所改善。注意力机制是在经历过循环神经网络模型、长短记忆神经网络的改进,针对在实际翻译中元素所对应的语义编码的不一致性,将元素按重要程度合并,且利用概率分布值表示重要程度的一种模型。该模型的概率分布值可以解决译文选择问题,除此之外特有的对齐机制体现可解释性。

图卷积神经网络可解决语篇翻译问题。图卷积神经网络是基于卷积神经网络所优化改进的具有图结构数据的神经网络模型,而二者在机器翻译中文本输入有较大区别。卷积神经网络主要有输入层、卷积层、池化层与全连接层,输入层以句子为单位嵌入,即以N个单词所构成的词向量矩阵X嵌入(维度N×d,d为词向量维度),卷积神经网络输入层的结构如图2所示。

图2 卷积神经网络输入层

图卷积神经网络包含两个矩阵,设每个单词代表一个节点,则X矩阵包含所有节点的特征(维度N×d,N为节点个数,d为节点特征数量),A矩阵表示各个节点之间的关系(维度N×N),X与A组成模型的输入。图卷积神经网络输入如图3所示。

图3 图卷积神经网络输入

两者对比可看出图卷积神经网络不仅仅保留各节点所具有的特征,还保留了节点与节点之间所具有的关系。除此之外,注意力机制受时间的影响,将图卷积神经网络与注意力机制结合,削弱对段落层次结构信息的破坏,进而改善语篇翻译问题。

2 AGGCN模型及在机器翻译的应用

2.1 注意力引导图卷积网络模型的提出

注意力引导图卷积网络模型(Attention-guided Graph Convolutional Network,AGGCN)基于GCN模型架构,在处理图结构数据时保留其优点之外,添加了注意力机制独有的权重参数,进一步优化神经机器翻译模型。

从上文可知,注意力机制模型的编码器—解码器(Encoder to decoder)[10]框架一般以模块重复且为单层的RNN为基础,它的优点在于按照时间序列所受到的影响,模拟出人工翻译顺序,encoder中RNN结构如图4表示。

图4 标准循环神经网络

在上述图中体现出RNN的特点,但同时暴露出无法有效利用历史信息的缺陷,而长短记忆神经网络(Long-Short Term Memory RNN,LSTM)[11]是一种特殊的RNN,如图5所示。

图5 长短记忆神经网络

标准encoder to decoder模型的语义编码C是LSTM最后一个时刻的隐层状态cn。利用语义编码和已生成序列y1,y2,y3…yt-1可预测下一个输出单词yt,即把目标语句y={y1,y2,y3…yt-1}的联合概率分解成基于时间序列的条件概率:

而每一个条件概率又可以写成:

其中Ht是输出RNN中的隐藏层,yt-1表示上个时刻的输出。

注意力机制模型中encoder框架需要额外计算出每个单词概率的分布值,第t时刻第i向量的权重可以表示为

hi为RNN模型中输入隐藏层第i节点状态值,Ht为t时刻输出隐藏层状态值。将第t时刻所有向量加权求和:

得到t时刻语义编码Ct,利用Ht-1、yt-1和Ct最终求得t时刻目标语句状态值:

则decoder框架随着Ct变化成:

最终通过计算得到目标语句。

近些年注意力机制模型被广泛应用于机器翻译,Cheng等提出使用联合训练获取注意力信息的双向注意力模型[12];Tu等基于Coverage方法的注意力机制模型来解决机器翻译中多翻译和漏译的问题[13];Vaswani等提出完全使用注意力机制实现机器翻译[14]。但随着对机器翻译需求的提升,注意力机制并不能完全解决当代翻译所遇到的新挑战,而GCN主要消除输入层对句序列的依赖,有效利用词元素特征信息以及段落层次结构信息进行翻译。

从上述可得出,注意力机制和GCN各能解决部分神经网络机器翻译未来所遇到的问题,那么将两者融合是否可得到性能更优越的模型。简单地说,是否对句进行注意力机制处理扩展到对段落进行注意力机制处理,这就是AGGCN的提出。

2.2 注意力引导图卷积网络模型原理

AGGCN模型由多个相同的块组成,而这些相同的块包含三种类型的层:注意引导层、密集连接层和线性组合层,这三个层都是以GCN为架构进行改进[15]。

注意引导层与多头注意力机制密不可分,而多头注意力机制是由多个自注意力连接所产生的。与注意力相比较,Q、K、V先进过线性变换,多次变换后再进行拼接,其中Q=Ht-1,K=V=hi,每一次线性变换重新算一次头部且参数不共享,多头注意力机制可以被注意力机制表示为

A͂在GCN中代表各个节点之间关系与自身特征的矩阵,在注意力引导层中则由多头注意力重新构建,即:

密集连接层对应GCN中层与层的传播方式,引入注意力机制使模型受时间序列影响之外,任何一层引入直接连接到其前面的所有层。将h每一层特征处理得到:

每个层改为

而AGGCN模型只有一个线性组合层,以整合多个不同的密集连接层。

注意力引导图卷积网络模型保留了GCN与注意力机制优点,从理论上改善基于神经网络的翻译所遇到的译文选择、可解释性、引入知识与语篇翻译等问题。

2.3 AGGCN在机器翻译上的应用

由于RNN在文本处理上具有高精确性,使大部分神经网络机器翻译的Encoder to decoder模型由此构成,并成为最广泛应用于语言翻译的技术。而CNN多用于图像处理上,这是因为在处理信息中,RNN严格遵守序列顺序。这虽符合人工翻译流程,但一次只能处理一个单词,因此在捕捉数据中的复杂关系时相对较弱,与CNN相比无法以分层的方式处理信息。若改进NMT需在Encoder to decoder编码部分引入CNN进行优化处理。

在前文中提及GCN是CNN的优化模型,优化点在于输出层从以句中单词所构成的词向量矩阵嵌入转化为以所有节点的特征矩阵与各个节点间关系矩阵的输入,加强了段落信息之间的联系。而AGGCN在GCN基础上添加多头注意力机制,因此在该模型中,将传统encoder的输入层和隐藏层以注意引导层、密集连接层和线性组合层替换,从而达到模型的优化。如图6所示。

图6 注意力引导图卷积网络模型概述图

3 实验

3.1 数据集

本文使用机器翻译领域WMT21开源语料作为数据集,该数据集为删除无效数据后进行数据扩增的新闻翻译任务news-commentary-v16的中英平行语料。在对数据集的预处理中,由于中文语料的特殊性需进行分词处理,利用三折交叉验证最终得到训练集与验证集NCV1&2&3。

该预处理与常规标准化处理方式相同,具体处理如表1所示。

表1 数据集与预处理

3.2 参数设置

该实验的硬件环境为Ubuntu20.04子系统,以PyTorch框架上进行开发。具体超参数设置如表2所示,其中学习效率影响训练速度和损失;迭代次数与批量大小和每次迭代更新的网络结构参数与所使用样本量有关;损失参数可改善泛化性;dropout率预防过拟合,该超参数设置可使翻译效果达到较好状态。

表2 超参数设置

3.3 结果分析

BLEU(Bilingual Evaluation Understudy)[16]为常用机器翻译效果的评估方法,主要用于测量目标语句的精确度,数值越大代表效果优越。该计算公式为

s是候选目标语句的平均长度,r是最短目标语句参考的长度。而Wm和log Pm中m指N-gram的n,N-gram模型是一种语言模型(Language Model,LM),即为基于概率的判别模型。当源语句以序列输入,输出为源语句概率,那么这些单词的联合概率就可以得出,N-gram中的概率可以通过条件概率计算出。

通常N-gram模型中n=4,所以需分别对1-gram、2-gram、3-gram和4-gram进行计算,Wm则是针对不同N-gram的权重。而Pm是指任意每个候选词出现频数的最小值之和,除以候选译文中每个词出现频数相加的值。

本文采用multi-bleu脚本评判AGGCN模型在机器翻译上的效果进行验证,结果如图7与表2所示,基准模型为decoder加入Attention机制的CNN模型。

图7 注意力引导图卷积网络模型下BLEU值

3.4 实例分析

由表3中AGGCN与CNN的BLEU值可以 看出,不同模型下中英双料机器翻译所对应的BLEU值不尽相同。而在实际机器翻译过程中,不同模型下目标语句的精确度需实例分析。在表4对比中,CNN模型下的目标语句基本实现了中英词与词之间正确选择,避免漏译与译文选择错误问题,同时也体现可解释性。但AGGCN在此之外将句与句的连接性进行处理,可直观体现出AGGCN模型的优越。

表3 不同层数下AGGCN与CNN的BLEU值

表4 AGGCN与CNN的实例分析

4 结语

本文所提出利用注意力引导图卷积网络的机器翻译优化模型,通过改进传统编码方式,结合图卷积网络与注意力机制优点,从而提高神经网络机器翻译的准确度。

实验证明,利用基于注意力引导图卷积网络模型不仅仅降维减少参数,利用局部特征整合保留出整体特征之外,还利用赋值保留局部特征之间原有的强弱关联。通过本文所提出利用注意力引导图卷积网络的机器翻译优化模型,在数据集上进行大量实验,各指标均达到较好的效果。即该算法在数据集上取得理想结果,优于其他传统算法。

猜你喜欢
解释性语句卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
论行政自由裁量的“解释性控权”
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
英汉互译中的认知隐喻翻译探究
一种基于词语计算的模糊分类系统的设计方法
我喜欢
冠词缺失与中介语句法损伤研究
作文语句实录