多标签文本分类研究综述

2024-01-24 08:52李楚贞江涛

电脑知识与技术 2023年34期

关键词：特征提取深度学习

李楚贞江涛

摘要：文章旨在对多标签文本分类的最新研究进行全面回顾。首先，介绍其定义和过程，然后，详细说明了多标签文本分类方法并总结其研究趋势和差距，多标签文本分类方法为该领域的研究提供参考并指导未来研究。

关键词：多标签文本分类；深度学习；特征提取

中图分类号：TP311 文献标识码：A

文章编号：1009-3044（2023）34-0071-03

开放科学（资源服务）标识码（OSID）

0 引言

自引入深度学习以来，多标签文本分类方法已取得重大进展，但仍存在一些问题和挑战。随着标签数量的增加，与每个文本相对应所有可能的标签组合呈指数增长。在提取文本之后，使用哪种分类方法来提高文本分类的速度和准确性是其中一个挑战。本文重点从多标签文本分类方法出发阐述其优缺点。

1 多标签文本分类

多标签文本分类方法根据预定义的标签集是否具有层次关系大致可分为平面多标签文本分类和层次多标签文本分类。

平面多标签文本分类方法的预定义标签集中的标签与标签之间没有层次结构。常见的平面多标签的分类方式，主要包括了基于词典的方式、基于机器学习的方式，以及基于深度学习的方式。

1.1 基于词典的方法

早期的基于词典的方法是一种半监督方法。它根据与每个标签相关词典中的单词数量为文档分配标签，并使用这一分类标准将文档分类为多个单独的类别。文献[2]中使用了与领域无关的方法来自動生成词典，节省了时间和精力。它将文档中的文本向量与词典中包含的每个标签相关联的词汇进行匹配，从而实现准确分类。基于词典的分类方法简单明了，但它分类的背后是假设每个词典中的所有单词都具有相同的重要性。这在实践中是不合理的。此外，基于词典的方法忽略了多词现象和多义现象，并且词典可能是不完整的。

1.2 基于机器学习的方法

问题转换方法与算法自适应方法，是两个最常用的基于机器学习的多标签文本分类方法。问题转换方法主要有二元相关（BR）[3]、分类器链（CC）[4]、标签幂集分解（LP）[5]，算法自适应方法主要有ML-DT[6]、Rank SVM[7]和ML-KNN[8]。表1和表2分别对问题转换方法和算法自适应方法进行总结。尽管部分方法可以捕获标签的相关性，但它们都只能捕捉标签之间一阶或二阶的相关性，而无法捕获高阶的相关性。

1.3 基于深度学习的方法

1）基于CNN方法

BP-MLL是最早将神经网络模式运用到MLTC的方法。它使用一个完全连接的网络和排名损失进行分类。2014年，在BP-MLL的基础上，Nam等人[9]将损失函数修改为交叉熵损失函数，同时使用AdaGrad优化算法和dropout技术，在大规模文本分类中取得了较好的性能。Kurata等人[10]使用CNN对多标签文本分类任务进行了建模，它将句子中的单词以单词向量的形式叠加到句子矩阵中，再通过卷积和池化操作捕获单词之间的语义特征。Yang等人[11]还提供了一个双孪生CNN系统（HSCNN）来处理多标签文本类型的不均衡问题。该网络采用混合机制，头标签采取单一结构，尾标签采取孪生网络结构。

上述方案都是完善CNN的架构以满足多标签文本分类。尽管这种方法相对简单，但使用池化操作会导致位置信息的丢失，并且当文本过长时，CNN不利于捕捉上下文之间的关系。

2）基于RNN方法

在使用RNN时，经常使用改进的RNN算法，包括Hochreiter等人提出的LSTM和Cho等人提出的GRU来解决长期依赖性问题。

Xiao等人[12]提出了一种基于Word2vec和LSTM的文本分类模型。他们使用Word2vec来克服高维问题，再通过训练LSTM分类模型，有效地对专利文本进行分类。Gao等人[13]将LSTM应用于多标签文本分类。首先，LSTM用于获得蛋白质序列数据的长距离依赖性特征，然后对特征向量进行一维卷积处理。为了提高分类的准确性，Gao等人[13]采用基于多标签排序的损失函数和RMSProp优化算法。Zhou等人[14]提出具有注意机制的BiLSTM模型。该模型可以自动提取分类问题中最重要的特征。Liu等人[15]提出了一种基于BiGRU和注意力机制的BGRUA模型来识别HTTPS流量服务。

3）基于混合的方法

为改善分类效果，研究者们建议将CNN与RNN相结合。Jang等人[16]提出了一个采用注意力机制的Bi-LSTM+CNN混合模型。它首先采用了Word2vec生成词向量，然后再通过CNN获得句子的局部特征。然后，再把局部特征馈送到Bi-LSTM中来获得全局特征。Salur等人[17]提出了一种新的混合模型，该模型将不同的单词嵌入与各种算法（LSTM、Bi-LSTM、CNN和GRU）相结合。Xiao等人[18]设计了一种电能质量扰动的综合分类方法。它将CNN-GRU、ResNet-GRU和Inception-GRU三种方法集成在一起。为了提高对真实数据的分类性能，采用了“预训练和再训练”方法，作者将其方法与典型的深度学习方法和传统的分类方法作了对比，结果显示它在五个评价指标上性能更好。Dong等人[19]结合标签嵌入和自交互注意机制对文本进行分类。这是首次尝试在文本分类中使用自交互注意捕捉文本中所有句子之间的交互信息。Wang等人[20]证明标签有助于获得更重要的单词进行分类。

为了考虑标签之间的相关性，Yang等人[21]首次提出把多标签分类任务当作序列生成问题。尽管该模型可以获得标签之间的相关性，但解码器基于其先前预测的标签来预测下一个标签。因此，模型最终结果在很大程度上取决于标签的顺序和分布。此外，该模型的编码器仅使用BiLSTM来读取文本序列。BiLSTM虽可以捕捉文本的全局特性，但却无法捕捉文本的局部特征以及词汇在文本中的位置信息。Liao等人[22]对多标签分类序列生成模型进行修改。该模型不仅捕获文本的局部特征与全局语义信息还考虑了标签和标签之间的相互关系，但该方法的预测结果仍然取决于标签的顺序，且误差容易累积。为了避免误差积累，Wang等人[23]提出一种基于动态路由的序列生成模型。该方法在隐藏层之后增加了动态路由聚合层，并实现了通过路由参数的全局共享来减少误差积累的影响。为了避免依赖于标签顺序，Yang等人[24]提出了序列集模型，该模型通过强化学习进行训练，但它只能减少而不是完全消除标签序列的影响。Qin等人[25]提出自适应RNN序列预测模型，该模型可以发现最佳标签顺序，但它会产生较高的计算成本，因为它的训练目的是找到最可能的标签集，而不是标签序列。Yang等人[26]提供了多标签深层森林（MLDF）的技术，它通过多层的标签树法来建立深层森林，而标记相关性则是利用逐层表示的方法来实现的。Wang等人[27]设计基于推理的多标签推理器（ML Reasoner）。它能够利用标签之间的信息，同时避免标签顺序敏感性的问题，但计算量大。

2 結论

本文重点阐述了多标签文本分类中的分类方法，分析各种方法的优点和局限性。学者们已经证明标签的相关性可以提高分类性能，但目前的分类方法大部分都只能减少标签的顺序依赖，无法完全消除标签的顺序依赖性问题，因此在以后的研究中将从这方面展开。

参考文献：

[1] 刘心惠，陈文实，周爱，等.基于联合模型的多标签文本分类研究[J].计算机工程与应用，2020，56（14）：111-117.

[2] HMEIDI I，AL-AYYOUB M，MAHYOUB N A，et al.A lexicon based approach for classifying Arabic multi-labeled text[J].International Journal of Web Information Systems，2016，12（4）：504-532.

[3] BOUTELL M R，LUO J B，SHEN X P，et al.Learning multi-label scene classification[J].Pattern Recognition，2004，37（9）：1757-1771.

[4] READ J，PFAHRINGER B，HOLMES G，et al.Classifier chains for multi-label classification[J].Machine Learning，2011，85（3）：333-359.

[5] TSOUMAKAS G，KATAKIS I.Multi-label classification[J].International Journal of Data Warehousing and Mining，2007，3（3）：1-13.

[6] CLARE A，KING R D.Knowledge discovery in multi-label phenotype data[M]//Principles of Data Mining and Knowledge Discovery.Berlin，Heidelberg：Springer Berlin Heidelberg，2001：42-53.

[7] ELISSEEFF A，WESTON J.A kernel method for multi-labelled classification[M]//Advances in Neural Information Processing Systems .The MIT Press，2002：681-688.

[8] ZHANG M L，ZHOU Z H.ML-KNN：a lazy learning approach to multi-label learning[J].Pattern Recognition，2007，40（7）：2038-2048.

[9] NAM J，KIM J，LOZA MENCÍA E，et al.Large-scale multi-label text classification—revisiting neural networks[M]//Machine Learning and Knowledge Discovery in Databases.Berlin，Heidelberg：Springer Berlin Heidelberg，2014：437-452.

[10] KURATA G，XIANG B，ZHOU B W.Improved neural network-based multi-label classification with better initialization leveraging label co-occurrence[C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics：Human Language Technologies.Stroudsburg，PA，USA：Association for Computational Linguistics，2016：521-526.

[11] YANG W. MSCNN： a monomeric-siamese convolutional neural network for extremely imbalanced multi-label text classification[C]//Proceedings of the 2020 conference on empirical methods in natural language processing （EMNLP），2020.

[12] XIAO L Z，WANG G Z，ZUO Y.Research on patent text classification based on Word2Vec and LSTM[C]//2018 11th International Symposium on Computational Intelligence and Design （ISCID）.IEEE，2018：71-74.

[13] GAO Z Y，SUN L J，WEI Z H.A multi-label classifier for human protein subcellular localization based on LSTM networks[C]//Proceedings of the 2018 International Conference on Advanced Control，Automation and Artificial Intelligence （ACAAI 2018）Paris，France：Atlantis Press，2018：248-252.

[14] ZHOU P，SHI W，TIAN J，et al.Attention-based bidirectional long short-term memory networks for relation classification[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics （Volume 2：Short Papers）.Stroudsburg，PA，USA：Association for Computational Linguistics，2016：207-212.

[15] LIU X，YOU J L，WU Y L，et al.Attention-based bidirectional GRU networks for efficient HTTPS traffic classification[J].Information Sciences，2020，541：297-315.

[16] JANG B，KIM M，HARERIMANA G，et al.Bi-LSTM model to increase accuracy in text classification：combining Word2Vec CNN and attention mechanism[J].Applied Sciences，2020，10（17）：5841.

[17] SALUR M U，AYDIN I.A novel hybrid deep learning model for sentiment classification[J].IEEE Access，2020，8：58080-58093.

[18] XIAO X G，LI K C.Multi-label classification for power quality disturbances by integrated deep learning[J].IEEE Access，1809（9）：152250-152260.

[19] DONG Y R，LIU P Y，ZHU Z F，et al.A fusion model-based label embedding and self-interaction attention for text classification[J].IEEE Access，2019，8：30548-30559.

[20] WANG G Y，LI C Y，WANG W L，et al.Joint embedding of words and labels for text classification[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics （Volume 1：Long Papers）.Stroudsburg，PA，USA：Association for Computational Linguistics，2018.

[21] YANG P C，SUN X，LI W，et al.SGM：sequence generation model for multi-label classification[EB/OL].[2022-10-20].2018：arXiv： 1806.04822.https：//arxiv.org/abs/1806.04822.pdf.

[22] LIAO W Z，WANG Y，YIN Y C，et al.Improved sequence generation model for multi-label classification via CNN and initialized fully connection[J].Neurocomputing，2020，382：188-195.

[23] 王敏蕊，高曙，袁自勇，等.基于动态路由序列生成模型的多标签文本分类方法[J].计算机应用，2020，40（7）：1884-1890.

[24] YANG P C，LUO F L，MA S M，et al.A deep reinforced sequence-to-set model for multi-label classification[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.Stroudsburg，PA，USA：Association for Computational Linguistics，2019：5252-5258.

[25] QIN K C，LI C，PAVLU V，et al.Adapting RNN sequence prediction model to multi-label set prediction[EB/OL].[2022-10-22].2019：arXiv：1904.05829.https：//arxiv.org/abs/1904.05829.pdf.

[26] YANG L，WU X Z，JIANG Y，et al.Multi-label learning with deep forest[EB/OL].[2022-10-22].2019：arXiv：1911.06557.https：//arxiv.org/abs/1911.06557.pdf.

[27] WANG R，RIDLEY R，SU X A，et al.A novel reasoning mechanism for multi-label text classification[J].Information Processing & Management，2021，58（2）：102441.

【通聯编辑：唐一东】