基于跨语言神经主题模型的汉越新闻话题发现方法

2021-11-05 01:29杨威亚余正涛高盛祥

计算机应用 2021年10期

杨威亚，余正涛，高盛祥*，宋燃

（1.昆明理工大学信息工程与自动化学院，昆明 650500；2.云南省人工智能重点实验室（昆明理工大学），昆明 650500）

0 引言

随着互联网的发展，不同国家之间的联系日益紧密，共同关注的事件也越来越多。汉越新闻话题发现就是将汉越新闻报道进行聚类再发现相关的话题［1-2］。这帮助人们更容易了解同一事件中越两国不同的话题讨论。

汉越新闻话题发现任务可以看作是对双语新闻聚类的问题，其主要难点在于克服中文与越南文新闻报道之间的语言差异，将两种语言表征到同一语义空间下进行新闻事件聚类。以往跨语言话题发现方法主要分为基于翻译的方法和利用双语词典或平行语料训练双语词嵌入的方法。Leek 等［3］采用机器翻译的方法将不同语言的文本翻译成同一种语言进行计算；Yang等［4］则是利用概率主题模型抽取文本的主题词，通过翻译主题词的方法计算不同语言文本下的主题分布的相似度进行聚类。但由于机器翻译效果受翻译工具性能影响巨大，在低资源语言场景下，跨语言话题发现相关模型的性能下降十分明显。后续的研究中大多学者通过借助一些双语资源进行语义分析的方式来完成跨语言特征空间的构建。基于双语词典翻译的跨语言话题发现策略主要方法是把文本中的词对译成另一种语言的词以此代替机器翻译系统，Mathieu 等［5］和Pouliquen 等［6］提出使用双语词典翻译代替机器翻译的方式，使用汉英词典对译的方式将新闻文本中的词汇进行翻译，利用命名实体（人名、地名和组织机构名）的对应关系比较中英新闻文本的相似程度，系统检测准确率得到很大提升；Chang等［7］利用Wiki 百科构建双语词典，挖掘中英新闻事件下的共现话题；Mimno 等［8］提出利用多语言可比语料库主题分布近似的假设，建立跨语言文本间的联系，进而实现跨语言话题任务的研究；Hao等［9］在传统概率主题模型上引入硬链接与软链接的思想，通过平行对齐文档与双语词典建立双语联系实现话题聚类任务；Hong 等［10］根据新闻特有的要素特征，通过双语词典建立新闻要素间的对齐关系，以图聚类的方法对汉越新闻文本进行聚类，得到了较好的聚类结果。

以上几种方法都有效解决了双语语言差异的问题，双语词典能很好地提高跨语言词语语义的对齐效果，但由于双语词典受限于规模的大小，在低资源场景下，双语词典很难匹配新闻的所有特征词，且无法解决一词多义等问题。由此，Bianchi 等［11］使用多语言词嵌入的方法，训练多语言BERT（Bidirectional Encoder Representations from Transformers），利用变分自编码器融合多语言BERT，对多语言新闻篇章的话题进行预测，有效地解决了跨语言的语言差异问题。

上述方法在中英等资源丰富的语言场景下能够取得良好的效果，但在汉越低资源场景中，由于平行语料的稀缺，构建双语词典和训练高质量的双语词嵌入变得十分困难，汉越新闻文本很难对齐到同一语义空间中。本文主要针对新闻长文本聚类，使用双语词嵌入对长文本进行表示的方法不能很好地提取到长文本中重要的词的信息，从而导致新闻长文本的聚类效果欠佳。针对新闻文本而言，通常类属于同一事件的新闻报道大多都描述了相同或相近的主题，利用这种主题的关联性能很好地发现文本间的关联关系，这为汉越新闻的话题发现提供了新的途径。使用新闻主题特征对新闻文本进行表征后聚类，将汉越双语的语义对齐任务转化为新闻主题对齐，利用少量平行篇章主题在空间中的对齐构建双语语义空间，降低了对齐的难度，并对汉越新闻主题进行聚类，抽取主题词代表事件簇的话题，最终实现汉越新闻话题发现。

本文主要工作如下：

1）根据可比新闻具有近似主题分布的特性，提出通过训练主题分布的向量表示对齐的映射矩阵建立双语联系，降低了在低资源小语种场景下汉越双语语义的对齐难度。

2）提出将神经主题模型（Neural Topic Model，NTM）应用于跨语言话题发现任务上，并取得了较好的效果。

3）提出了在神经主题模型中融入主题语义信息的方法，增强了生成话题的语义一致性，该模型生成的话题词有更好的可解释性。

1 汉越跨语言话题发现流程

针对汉越跨语言话题发现存在的问题，本文提出了一种基于跨语言神经主题模型（Cross-Language Neural Topic Model，CL-NTM）的汉越新闻话题发现方法，该方法主要流程如图1 所示。首先，通过融入主题语义信息的变分自编码器神经主题模型分别得到汉越平行新闻篇章的主题向量，利用平行语料主题向量对齐的特性预训练出主题映射矩阵，将汉越新闻的主题向量表征到同一语义空间下；然后，对汉越可比新闻篇章处理得到各自的主题向量表示，通过映射将汉越新闻主题向量共同表征到汉越双语语义空间中，进行主题向量的聚类，提取每个簇的主题词作为此类事件的相关话题。

图1 CL-NTM流程Fig.1 Flowchart of CL-NTM

2 CL-NTM

本文针对汉越双语词嵌入训练困难的问题，提出使用NTM 抽取新闻的主题对文本进行表征，建立汉越双语联系，其中NTM如图2所示。

2.1 统计信息编码层

本文爬取的国际新闻事件共包含D篇文档，通过分词工具对每篇新闻文本进行了词切分，将切分后的词通过词频-逆文档频率（Term Frequency-Inverse Document Frequency，TFIDF）算法对统计信息特征进行过滤，剔除影响较小的词，共包含V个词，wn∈(1，V)表示输入文档中的第n个词。

本节主要描述图2的NTM中统计信息编码层对新闻文本统计信息进行编码的过程，首先输入一篇新闻文档X，将其进行词切分，对新闻文本编码为词袋表示Xs，由于词袋表示存在向量稀疏问题，本文使用两层多层感知机（Muti-Layer Perception，MLP）将文本输入的词袋表示Xs编码为低维统计特征向量h：

图2 NTMFig.2 NTM

其中：fbow(⋅)表示将新闻篇章表征为词袋；X表示输入的新闻文档；Xs表示进行词切分后的新闻样本。

为了能通过统计特征向量h得到新闻的主题向量，本文模型将传统概率主题模型中的狄利克雷先验分布转化为高斯先验，假设每一篇新闻文本X的样本分布δ都属于正态分布，经过线性变换后的h则同样属于正态分布：

然后通过神经网络学习到h的正态分布均值μ与方差σ参数：

其中：w和b分别是权重矩阵和偏置矩阵。利用这种方式提取新闻文本X的统计特征并从中采样出新闻的主题向量Z：

其中：ε通过采样标准正态分布得到。本节主要目的为通过编码器训练得到输入新闻文本X的主题向量Z。

2.2 主题语义信息编码层

本节主要介绍图2的NTM中主题信息编码层对新闻主题的语义信息特征进行编码的过程。当模型对新闻语料进行词切分后生成词表ρ，使用文献［12］中的Word2Vec 词向量训练模型对词表中的词进行预训练，得到词向量矩阵ρ1：v=[w1，w2，…，wv]∈Rv×m，v表示词表的长度，m表示词向量的维度。模型对词表中的词进行向量化后，将2.1 节中得到的主题向量Z作为锚点，与词向量矩阵ρ进行点乘计算，通过计算每个词与主题的相关性生成主题-词的相关性矩阵α，在向量空间中与主题向量Z更相关的词通常会在空间距离上接近它，计算式如下：

其中ρ代表词表的嵌入矩阵。在这一步中，本文引用了连续词袋（Continuous Bag-Of-Words，CBOW）［12］学习的思想，CBOW每个词的计算过程如下：

其中：wdn是第d篇文档中第n个目标词；αdn表示目标词wdn周围窗口生成的上下文词向量。在式（8）中，本文模型将主题向量Z作为词的上下文向量，对词表中的每个词都与主题向量Z进行一致性计算，再得到主题-词的相关性矩阵α。

2.3 NTM解码层及优化函数

为得到更高质量的主题向量，本文融合了主题语义信息和新闻词频统计信息，将主题向量Z与主题-词相关性矩阵α相乘得到模型的变分向量β：

利用softmax(⋅)函数进行归一化操作后，对β进行采样重构生成伪新闻文本

本文模型的解码器目的在于将输入的新闻文本X进行编码后，希望能够利用模型学习到的变分向量β重构生成出伪新闻文本尽可能与原文本X相似，因此引入重构损失Lre：

其中使用了log_softmax(⋅)函数优化模型损失的训练，避免梯度爆炸。

本文摒弃了概率主题模型中的狄利克雷先验假设与Gibbs 采样方式，通过假设新闻文本服从正态分布，并从正态分布中采样文本的特征，但这种采样方式也引出一个问题，当本模型对新闻样本进行采样时并不能保证每个样本都服从标准正态分布，导致模型的后续推断很难进行。因此引入KL（Kullback-Leibler）散度，利用调整KL 散度带来的损失迫使每一个输入X的正态分布都服从标准正态分布，KL 散度损失的目标函数如下：

因此模型的总损失L为：

经过优化损失达到阈值收敛后，输出新闻篇章的主题向量Z。

2.4 汉越主题向量的对齐

为实现汉越语义空间对齐，本文通过NTM 得到新闻主题向量Z后，调用Vecmap［13］的方法，使用少量的平行新闻对，根据平行新闻文本对的主题向量在空间中位置对齐的关系，训练得到转换矩阵W*。具体训练公式如下：

当源语言i与目标语言j对齐时，Dij=1。通过最小化映射源语言主题向量与目标语言主题向量之间的欧几里得距离之和，训练得到最佳的映射矩阵W*，Zi*是中文语义空间中的第i个主题向量，Zj*是越南语义空间中的第j个主题向量，通过学习到的映射矩阵W*将汉越可比语料的新闻主题映射到同一语义空间下。

2.5 K-means聚类及话题抽取

本文通过主题对齐的方式将两种语言映射到同一语义空间后，使用K-means［14］聚类的方法对汉越新闻的主题向量进行聚类。预先设定了聚类的类别常数k并随机选取k个初始点作为质心{C1，C2，…，Ck}，计算每一个主题向量Z与质心C之间的欧氏距离：

其中：Zi表示第i个主题向量，Cj表示第j个聚类质心。

通过依次计算每个主题向量Z与质心之间的距离，将每一篇新闻文本的主题向量Z分配到欧氏距离最近的聚类簇S中S∈{S1，S2，…，Sk}，分配完成后重新定义每个簇的聚类质心：

重复上述过程，直到质心不再改变，达到收敛条件后，得到聚类的新闻事件簇，选取每个簇离质心距离最近的主题向量Z，发现该主题向量下的主题词作为此类簇的话题：

其中：wt表示该类主题下的话题词；argmax(⋅)表示选取在重构文本的过程中概率最高的词，并将其表示为此类新闻事件簇的相关话题，实现汉越新闻话题发现的最终目的。

3 实验与结果分析

3.1 实验设置

本文任务旨在发现不同事件下的新闻话题，爬取了“南海问题”“一带一路”等四类汉越相关新闻事件，构建汉越双语新闻话题发现实验数据集。首先，在越南语新闻网站上爬取了800 篇越南新闻文本；然后，根据新闻事件的主要报道在中文新闻网站中按1∶5 的比例获取相关中文可比语料4 000 篇和少量平行新闻篇章对132 条；最后，汉越双语新闻数据集分布情况如表1所示。

表1 汉越双语新闻话题发现实验数据集Tab.1 Chinese-Vietnamese bilingual news topic discovery experimental dataset

本文使用jieba 分词和Vncorenlp 工具包分别对中文和越南文的新闻语料进行分词和去停用词，过滤中文语料中出现频率不超过4 次的词，越南语中滤除出现频率不超过2 次的词。将变分自编码器中词嵌入维度设置为300，主题向量设置为20 维，训练批次大小设置为100，使用Adam 作为优化函数，学习率设置为0.002，运用梯度裁剪的方式防止梯度爆炸，并对输入词袋（Bag of Words，BoW）模型进行归一化处理，在K-means聚类中K值设置为4。

3.2 实验评价指标

本文的实验指标主要为Macro-F1（用变量名MF1 表示）值与主题一致性。Macro-F1值通常作为评价基线模型聚类结果好坏的实验指标，包含宏精确率（Macro-Precision，Macro-P用变量名MP表示）与宏召回率（Macro-Recall，Macro-R 用变量名MR表示），Macro-F1 是宏精确率和宏召回率的调和均值（用变量名MF1表示）。具体定义分别如下：

其中：TPi表示被正确划分为第i类簇的文档数，即聚类的正确文档数；FPi表示被错误划分为第i类簇的文档数；FNi表示属于i类簇的样本被错误划分到其他簇的文档数；Macro-F1是对所有簇聚类性能的总体评价。

主题一致性（Topic-coherence）评价指标是为了评估主题模型能否产生语义一致、易于理解的话题。评价基线模型主题一致性的方法通常采用平均点对互信息（Normalized Pointwise Mutual Information，NPMI）［15］进行计算，计算式如下：

其中：K是给定的主题数，每个主题由T个最相关的词组成；p(wi，wj)是词对(wi，wj)在一篇文档中共现的概率，p(wi)是词wi在文档中出现的概率。对出现概率最大的前25 个词进行互信息熵计算。

3.3 对比方法

为验证本文所提方法的有效性，选取以下几种跨语言新闻话题发现方法进行对比实验：

1）面向中英文的隐狄利克雷分配主题改进模型（Improved Chinese-English Latent Dirichlet Allocation model，ICE-LDA）［16］：使用Bi-LDA 概率主题模型得到新闻的主题，对新闻主题进行向量化处理，通过翻译的形式映射到同一语义空间。

2）基于潜在语义分析的跨语言文本聚类算法（Cross-Language Text Clustering algorithm based on Latent Semantic Analysis，CLTC-LSA）［17］：使用潜在语义分析的方法挖掘新闻的特征词，利用特征词的相关性构建汉越双语语义空间，实现汉越新闻文本聚类。

3）CL-NTM*：为证明利用文档主题对齐的方法能更好地提升模型聚类效果，CL-NTM*将CL-NTM模型中利用主题对齐训练映射矩阵的过程进行替换，直接使用汉越双语词典对新闻文档词嵌入的对齐矩阵进行预训练。

4）广义向量空间模型（Generalized Vector Space Model，GVSM）［10］：利用汉越新闻实体的对齐与上下文共现关系根据二分图计算元素之间的相似性，对文本进行聚类。

3.4 结果分析

3.4.1 汉越新闻聚类对比实验

为验证本文所提方法对新闻文本聚类的有效性，首先比较了本文方法与不同基线方法的F1值，如表2所示。

表2 不同方法的汉越双语新闻聚类实验结果对比Tab.2 Comparison of experimental results of Chinese-Vietnamese bilingual news clustering by different methods

通过表2对比可知，上述几种模型中CLTC-LSA 方法是非概率的主题模型，它主要通过计算词之间的语义相似度衡量新闻文本之间的相似程度进行文档的聚类。在汉越低资源话题发现任务中，翻译效果较差，不能很好地计算中文与越南文之间词的相似度，汉越语义空间的对齐效果欠佳，从而导致新闻聚类效果不够理想。从表2 中观察发现，ICE-LDA 的聚类效果优于CLTC-LSA，ICE-LDA 使用的是概率主题模型，能更好地对新闻文本进行主题的抽取，但由于该方法是将得到的新闻主题词通过翻译的方式建立双语联系，在汉越低资源条件下同样受翻译工具性能的影响较大，导致新闻聚类效果较差。CL-NTM*的实验结果表明，在汉越低资源场景下，直接训练汉越新闻文本词嵌入对齐的方式受困于双语词典的规模大小，容易出现大量未登录词的情况，难以实现新闻文本间较好的对齐。GVSM（EUB）方法的聚类效果取决于新闻实体的标注数量，且仅仅适用于对文本的聚类，不能很好地表达该类文本的核心话题。通过本组实验证明，本文方法利用汉越新闻主题对齐的方式取得的聚类效果更好，且受到汉越资源稀缺的影响更小。

为进一步验证本文方法的有效性，还将本文方法与上述方法进行了主题一致性的比较，观察聚类后新闻簇的话题质量，从表2 中主题一致性实验指标中可知，本文模型相较于ICE-LDA与CLTC-LSA具有更好的主题一致性，具体原因分析如下：CLTC-LSA 使用奇异值分解的方法提取新闻的主题词，但这种方法只是一种数学变换，很难与现实中的概念形成对应，导致生成的主题词可理解性差，而ICE-LDA具有词袋模型共有的缺点，只考虑新闻文本的统计信息，忽略了词的上下文语义信息，这使得模型生成的主题词容易出现高频无意义的词，从而影响模型主题一致性。本文方法使用融入主题语义信息的变分自编码器神经主题模型生成新闻主题，既考虑了新闻的统计信息，又考虑了新闻的上下文语义信息。经实验验证，本文所提方法十分有效，生成的主题词具有更好的主题一致性。

3.4.2 消融实验

汉越新闻话题发现旨在对汉越两种语言的新闻文本进行聚类，发现事件的主要话题，为得到更容易理解的话题，本文融入了主题语义信息增强话题的主题一致性，使新闻话题更加容易被理解。为验证融入主题语义信息对增强新闻话题主题一致性的有效性，设计了一组消融实验，对融入主题语义信息前后的CL-NTM进行消融实验，实验结果如表3所示。

表3 融入主题语义信息的影响Tab.3 Impact of incorporating topic semantic information

通过消融实验结果对比证明，本文方法融入主题语义信息的方法相较于不融入主题语义信息，能生成在语义上更紧密相关的主题，从而对聚类结果产生正影响并提升了模型的主题一致性，使新闻主题更容易被理解。

3.4.3 实例分析

为进一步体现本文模型汉越新闻话题发现的效果，本文抽取每类汉越新闻事件的前5个话题进行展示，如图3所示。

图3 汉越新闻话题发现示例展示Fig.3 Example display of Chinese-Vietnamese news topic discovery

从图3 可以看出，CL-NTM 对3 个不同的新闻事件集都能生成较为直观的话题词，且大多新闻都围绕事件主题生成了相近或相同的话题词。例如，在一带一路的相关新闻报道中，汉越都紧密围绕着“经济”“合作”等方面进行了热切的讨论；从新冠肺炎的新闻报道中可以发现汉越两国都对此次疫情的防护与患者的关注方面十分重视。综合上述几组实验证明，本文提出的CL-NTM 模型在汉越跨语言新闻话题发现任务中，对汉越平行资源的需求更低，聚类效果和主题语义一致性明显优于ICE-LDA 和CLTC-LSA 两种模型，生成的话题词可理解程度高，从Macro-F1 值与主题一致性的评价指标上可以看出本文模型相较于对比的基线模型在新闻话题聚类效果与新闻话题语义可解释性上都取得了更好的提升。

4 结语

本文提出了一种基于跨语言神经主题模型的汉越新闻话题发现方法，采用融入主题语义信息的变分自编码器神经主题模型得到高质量的新闻主题向量，利用新闻的主题向量建立汉越两种语言之间的联系，根据新闻主题的相似性对新闻文本进行聚类，抽取主题词作为新闻事件的话题。实验结果表明，在汉越新闻话题发现任务中，本文提出的利用主题对齐的方法明显优于训练双语词嵌入对齐的方法，相较于其他几种基线模型在Macro-F1 值与主题一致性评价指标上分别提升4 个百分点与7 个百分点；但由于越南语资源的稀缺，本文方法与单语新闻话题发现效果仍存在较大差距，下一步将考虑融入更多新闻主要特征提升模型性能。