面向投稿选刊的学术论文多标签分类研究

2024-01-27 13:40江天明郑国杰王晴等
现代情报 2024年1期
关键词:自然语言处理深度学习

江天明 郑国杰 王晴等

关键词: 投稿选刊; 多标签分类; 深度学习; 自然语言处理

DOI:10.3969 / j.issn.1008-0821.2024.01.005

〔中图分类号〕G254 〔文献标识码〕A 〔文章编号〕1008-0821 (2024) 01-0048-09

在学术大数据时代, 学术论文数量急剧增长,给学术论文的组织和检索带来了巨大挑战[1] 。为有效且高效进行学术文献分类管理, 基于机器学习的文本分类方法被广泛运用, 能够自动地将学术论文归类到预先定义好的类别中[2-3] 。鉴于机器学习较好的自动分类能力, 有学者将文本分类方法运用于期刊选择, 根据论文的题录信息, 通过机器学习方法对学术论文进行自动分类, 为学术论文投稿给出指导意见[4] 。一方面, 能够对投稿者提供切实有效的投稿指导, 帮助其快速找到合适的投稿期刊, 节省论文的投稿时间; 另一方面, 能够为期刊提供合适的稿件, 提升期刊的审稿效率和缩短论文发表周期。

然而, 已有研究大多将论文投稿当作单标签分类任务, 一篇论文只会被分配1 个期刊。虽然对于一篇论文, 其发表期刊只有1 个, 但在发表之前的投稿过程中, 学者普遍面临期刊选择多样性和拒稿重投的问题。即一篇论文在内容层面上适合多个期刊[5] 。作为对比, 多标签的文本分类方法能够为1个文本分配多个合适标签, 近年来逐渐引起学者们的重视[6] 。譬如, 运用多标签分类方法对中文期刊论文[7] 或图书[8] 进行中图法多标签分类、基于多标签进行跨学科性质的测度[9] 、基于多标签进行引文功能的多标签分类[10] 等。

综上, 本文以情报学领域CSSCI 收录期刊为例, 获取该领域期刊近20 年内收录学术论文的题录信息和参考文献信息, 通过深度学习方法构建多标签分类模型, 选择最优的特征组合、分类算法和多标签策略, 对学术论文进行多标签分类, 从而获取论文投稿选刊建议, 为投稿者的投稿选刊规划给予支撑。

1 相关研究

本文利用深度学习构建自动文本分类模型, 针对科研人员学术论文投稿选刊需求, 基于学术论文题录信息给出多标签的投稿选刊建议。

1.1 投稿选刊

投稿选刊是学术论文发表的重要环节, 然而面临着学术期刊选择多样性的挑战[5,11] 。目前, 面向投稿选刊的相关研究主要针对外文期刊, 通过社会网络分析、文献计量分析、机器学习等不同方法,构建针对特定学科领域的学术期刊推荐模型。Pradhan T 等[12] 使用社会网络分析和文本相似性分析方法, 构建了学术文献投稿推荐系统, 在准确性、多样性、稳定性和结果的平均质量等指标上获得了较好的效果。Rajanala S 等[13] 使用神经网络模型和文本分类器, 通过分析论文标题、摘要的语义和句法特征, 构建了学术文献投稿推荐系统, 提高了论文期刊推荐的准确性。Liu C 等[14] 提出了一个基于嵌入模型的学习框架来推荐投稿期刊, 使用BERT 模型和网络分析的方法, 对论文期刊进行推荐, 引入了信息熵这一指标描述推荐结果的不确定性。Nguyen D H 等[15] 使用双向编码和混合编码技术, 提出了一种高效的论文期刊推荐算法, 并使用计算机科学和应用数学的论文数据进行验证, 大大提高了实验精度。Huang Z W 等[16] 通过构建领域词典, 使用Doc2vec 训练每篇文章的特征向量, 与词典中的模型进行匹配, 完成投稿推荐的任务。Guan R 等[17] 通过构建语义图, 提出了一种基于抽象层次图的学术期刊预测模型。

国内对于投稿选刊的研究中, 王鑫芸等[4] 使用机器学习方法构建投稿选刊分类模型, 并以Web ofScience 数据库中图书馆学、情报学(Library and In⁃formation Science, LIS)学科SSCI 收录的26 种期刊已发表的文献进行验证, 取得了较好的效果。除此之外, 大多通过分析文献计量学特征, 给出较为主观的投稿建议, 缺乏可执行性。杨华[18] 提出投稿中应综合评价期刊的年发文量、影响因子、所属学科等指标。赵悦阳等[19] 认为应额外考虑收录中国作者发文量。姚海燕等[20] 、王晓瑜[21] 分别对SCIE收录的皮肤病学、风湿免疫学期刊进行相关文献计量分析, 都认为投稿SCI-E 医学期刊时应综合考虑载文方向、影响因子、投稿难易度、审稿时长等因素。邹聪[22] 分析了SCI 收录的病理学期刊的文献计量学特征, 提出应注重期刊的文献计量学指标及投稿参数分析, 并指出阅读合适的期刊论文有益于选择合适的期刊。宗张建[11] 对投稿选刊的考虑因素进行了优先级排序, 认为研究主题和学术水平是投稿选刊的主要考虑因素, 出版周期和论文类型是次要考虑因素。向晴等[23] 认为投稿时应先确定方向然后逐步缩小期刊范围, 必要时可使用相关在线辅助工具。

除此之外, 为了满足科研人员的投稿需求, 也有外文学术出版服务商提供投稿选刊功能, 基于用户输入的待投稿学术论文题目、摘要或关键词等信息, 给出合适的投稿期刊列表。在国内数据库服务商中, 维普的学术期刊投稿分析系统也具有类似功能, 根据输入的论文标题和摘要自动分析论文核心知识点, 然后根据用户限定的范围, 给出推荐期刊的列表。

1.2 自动文本分类

自動文本分类利用机器学习和深度学习方法构建分类模型, 已被广泛应用到学术论文分类中, 从标签个数上来看主要分为两种: 一是单标签分类;二是多标签分类。已有的学术文献分类方法多聚焦于单标签分类, 即一篇学术文献只会被分配1 个类别标签。王昊等[24] 针对人工分类和单层分类方法的效果不佳的问题, 基于支持向量机和BP 神经网络构建自动文本分类器, 利用期刊论文题录信息进行中图法三层次分类, 获取接近80%的综合正确率。刘浏等[25] 使用KNN 算法对10 个社会科学学科的论文进行自动分类, 有别于提升分类准确率的常规研究思路, 利用分类结果作为跨学科性度量的依据, 对学科的跨学科性进行量化。赵旸等[26] 基于BERT 预训练语言模型对中文医学文献进行分类, 基于文献摘要和文献单一中图法分类号构建单标签多分类语料集, 验证了BERT 预训练模型对中文医学文献分类的有效性。雷兵等[27] 利用卷积神经网络, 基于题录信息进行双标签分类, 同时识别学术文献的研究内容和研究方法。值得注意的是,虽然进行双标签分类, 但其将双标签合并为组合标签, 构建的模型仍为单标签分类模型。显然, 由于一个文本涉及的主题或学科往往不是单一的, 单标签分类并不能完全反映真实全面的类别属性。

近年来, 多标签文本分类方法在学术文献分类中的应用得到关注。马芳等[7] 将多标签分类运用到科技论文分类中, 采用基于算法转化的方法对中文科技期刊论文进行中图法多标签分类。蒋彦廷等[8]基于BERT 模型对图书进行表示学习和多标签分类, 首先基于图书粗粒度分类对BERT 进行微调,提取图书向量表示, 然后利用学习到的向量表示和MLKNN 方法构建多标签分类模型, 最终实现对图书的257 类细粒度多标签分类。为解决学术文献中研究方法的自动分类, 章成志等[28] 采用问题转化和算法自适应法两种多标签策略构建多种多标签分类模型, 基于学术文献全文内容对论文中使用的全部研究方法进行自动分类。另外, 王卫军等[9] 利用多标签分类方法进行科技文献学科交叉研究性质识别, 基于深度学习算法构建多分类模型, 对科技文献进行学科标签预测, 并结合分类标签和原始标签, 对学科交叉研究性质进行识别。

其中, 针对期刊投稿选刊, 王鑫芸等[4] 在基于层次聚类方法构建期刊层次结构体系的基础上, 基于层次分类方法对学术论文进行两阶段单标签多分类。第一层分类器对论文进行大类划分, 缩小期刊选择范围, 第二层分类器将论文归类到期刊粒度。值得注意的是, 在第二层分类中, 为提升分类效果, 作者将内容接近的期刊进行组合。这一实验结果证实了期刊投稿中一篇论文满足多个期刊的普遍性和有效性, 启发了本文的多标签期刊投稿选刊研究工作。

综上所述, 目前面向投稿选刊的学术论文推荐研究主要基于单标签分类方法, 对于多标签分类方法的研究较少, 且已有研究均针对英文学术论文进行分析。因此, 本文考虑使用深度学习模型对中文学术论文进行端到端的多标签分类。与以往研究不同的是, 本研究在方法流程上无需进行手工特征构建和对期刊进行类目划分, 同时使用单一模型直接进行多标签分类, 且在一定程度上填补了中文学术论文自动投稿选刊研究的空缺。

2 研究方法

2.1 基本思路

一篇学术论文的收录期刊通常只有1 个, 但并不代表一篇论文只适合1 个期刊, 在学术大数据时代, 学术论文投稿普遍面临期刊选择多样性和拒稿重投问题[4] 。本文针对论文投稿中的期刊选择, 将学术论文投稿选刊转化为多标签分类问题, 利用论文参考文献进行多标签获取, 并以深度学习模型为基础构建学术论文多标签分类模型。选取情报学领域中CSSCI 期刊作为研究对象, 从CNKI 和CSSCI官网爬取论文题录数据和参考文献数据, 抽取并梳理题名、摘要、关键词及参考文献。主要研究过程包括数据收集、数据集构建、多分类模型构建及分类效果评估4 个部分, 具体研究框架如图1 所示。

2.2 多标签设置

多标签分类方法属于有监督机器学习的范畴,需要构建带标签的数据集[29] 。多标签数据集构建就是将原始语料转化为适合多标签分类问题的格式化的样本。在本文的期刊论文的多标签分类问题中,样本包含两部分: 一是作为模型输入的特征部分;二是作为模型输出的标签部分。

标签部分是指为样本分配类别标签, 针对多标签设置, 如何为一篇论文分配多个合适的期刊标签是多标签论文分类的基础。论文的投稿记录是多标签的可靠来源, 然而其通常是不可获取的。本研究根据论文的参考文献, 构建合适该论文的期刊标签,对该论文所在期刊进行扩充, 最终为一篇论文分配多个期刊标签。具体地, 一篇文献会引用多篇参考文献来作为支撑, 被引文献主题和施引文献主题具有高度相似性, 参考文献所在期刊也适合施引文献的投稿。这样一篇文献的标签就包括文献自身所投期刊及其参考文献所在期刊。依据不同的参考文献筛选规则, 本文构建了4 种不同的多标签策略。4种标签策略记为S1、S2、S3 和S4, 分别代表: 选取排名前1 的期刊作为补充标签; 选取排名前2 的期刊作为补充标签; 选取被引次数大于1 的期刊作为补充标签; 选取被引次数大于0 的期刊作为补充标签。其中, 在S1 和S2 策略下的标签选取过程中,按参考文献来源期刊出现频度对期刊进行排序, 选择对应排位的期刊为补充标签。此外, 为获取最相关的标签和控制多标签的类别, 本文将标签限定为情报学领域, 不考虑来自其他领域的参考文献。

2.3 特征组合及向量表示

针对特征部分, 鉴于本文采用深度学习方法构建多标签分类模型, 相较于传统的浅层机器学习模型, 无需繁琐耗时的手工特征的抽取, 深度学习能够从原始文本中进行自动的特征学习。特征组合的构建较为简单, 只需对论文的题录信息进行组合拼接, 即对论文标题、摘要及关键词进行不同的组合拼接, 具体包含7 种不同的特征组合: 标题、摘要、关键词、标题+摘要、标题+关键词、摘要+关键词、标题+摘要+关键词。

另外, 机器学习或深度学习模型不能直接对输入中的字符进行处理, 需要对其进行向量化表示后作为最终的模型输入。得益于深度学习的表示学习优势, 无需进行手工的特征工程, 只需利用词向量字典对输入文本的词进行向量转化即可, 具体的特征向量的挖掘任务交给深度学习模型完成。根据使用的深度模型的不同, 采用不同的词向量字典。对于传统的深度学习模型, 采用Word2vec 训练的词向量字典进行向量表示, 對于预训练语言模型BERT,采用其配套的bert-base-chinese 词向量进行向量表示。

2.4 多标签分类模型构建

在多标签分类任务中, 主要方法可以分为基于传统机器学习的浅层模型和基于深度学习的深层模型两种。相较于浅层模型, 深层模型在特征的处理上和多分类模型构建上更加简单, 且表现出更佳的分类效果。具体地, 在特征处理上, 深层模型无需进行繁琐的手工特征构建, 而是利用神经网络从大量文本中挖掘文本语义特征表示。此外, 在多标签分类问题求解中, 浅层模型主要通过改造分类问题或分类方法来进行[10] , 改造分类问题是指将多标签问题转换为单标签问题, 改造分类方法是指将传统的单标签方法改进为多标签分类方法。相比而言,深层模型并不对问题进行转化, 对模型的改造也不复杂, 只需将模型输出层改为多标签输出即可[30] 。具体地, 不同于单标签分类任务中使用的Softmax交叉熵损失函数, 多标签分类任务中一个样本会对应多个标签, 故选用Logits 二元交叉熵损失函数(Binary Cross Entropy with Logits Loss), 其中一个样本的损失计算公式如式(1) 所示:

鉴于深度学习方法在处理多标签分类任务上的优越性, 本文选用常用的6 种文本分类深度学习方法进行多标签分类, 包括TextCNN[31] 、TextRNN[32] 、TextRNN_Att[33] 、TextRCNN[34] 、TextDPCNN[35] 和预训练语言模型BERT[36] 。TextCNN 首次将卷积神经网络用于文本分类, 使用3 种不同规格的卷积核提取文本的2-gram、3-gram 和4-gram 信息, 取得了较好的效果。TextRNN 将循环神经网络用于文本处理, 使用双向的LSTM 来更好地捕获文本的长距离语义依赖。TextRNN_Att 在TextRNN 基础上, 进一步引入注意力机制, 根据对任务贡献程度为单词赋予不同的权重, 进一步提升模型效果。TextRC⁃NN 是对RNN 和CNN 进行融合, 兼具两种主流神经网络结构的优势, 可以较为均匀地利用单词的上下信息。TextDPCNN 构建金字塔型的卷積神经网络结构, 相较于只有单个卷积层的TextCNN, 卷积核的覆盖范围更广, 能够对文本中的长期依赖进行有效建模。不同于上述5 种深度学习模型, BERT模型是一种预训练语言表示的新方法, 遵循预训练—微调的迁移学习模式, 即初始BERT 模型在大规模语料上进行预训练, 得到参数训练好的BERT 模型和词向量表示, 然后再迁移到新任务中进行微调, 在多项文本处理任务中取得了最优效果[36] 。以上6 种模型的关系如图2 所示。

2.5 多标签分类效果评估

通过对分类结果进行评估以判断其分类效果,在多标签分类的评估中, 常用的用于评估分类器效果的指标有精确率、召回率、F1 值。有别于单标签任务中, 1 个样本只有1 个标签的情形, 多分类任务的一个样本会对应多个类别标签。常用的指标综合方式有基于样本的方式和基于标签的方式[10,37] ,其中基于标签的方式先计算每类标签的精确率、召回率和F1 值, 然后进行宏平均或微平均; 基于样本的方式先计算每个样本的精确率、召回率和F1 值,然后进取加权平均。考虑到标签大部分为单标签且各类别样本数量存在不均衡的情形[10] , 本文选取基于样本的方式对精确率、召回率和F1 值进行综合计算, 其计算公式如式(2)~(4) 所示。

3 实证分析

3.1 数据收集及数据集构建

本文语料来源于CNKI 和CSSCI 数据库, 选取CSSCI 收录的情报学领域期刊中的8 种期刊作为研究对象, 包括《中国图书馆学报》《情报学报》《图书情报知识》《图书情报工作》《情报科学》《情报理论与实践》《数据分析与知识发现》《现代情报》。时间跨度定为1998—2021 年, 于2022 年8月6 日开展数据采集工作, 从CSSCI 数据库中采集上述8 种目标期刊的全部论文信息, 并解析出论文标题、来源期刊和参考文献信息。进而在遵守中国知网(China National Knowledge Infrastructure, CNKI)访问规则的情况下, 获取并解析出目标期刊收录论文的标题、关键词和摘要信息。然后, 对两类数据按论文标题进行归并处理, 最终得到21 261篇论文的题录信息和参考文献信息。最后, 基于本文提出的多标签策略进行样本的多标签设置, 构建用于多标签分类的数据集。期刊数据和不同多标签策略下的样本数汇总如表1 所示。

3.2 实验设置

本文对构建的数据集合进行随机切分, 构建训练集、验证集和测试集, 比例为8 ∶1 ∶1。训练集用于训练模型参数, 为防止过拟合, 每100 批(batch)对训练模型在验证集上进行验证, 若1 000批训练后模型在验证集上的Logits 二元交叉熵损失未下降, 则对模型训练进行早停处理。选取在验证集上取得最优效果的训练模型在测试集上进行测试, 所得结果作为模型的最终预测结果。

所使用的6 个深度学习模型的主要参数设置情况如表2 所示, 其中BERT 模型使用bert-basechinese作为基础模型, bert-base-chinese-vocab 作为向量表示词典。在实验环境设置上, 选用Pytorch作为深度学习框架, 使用Apple M1 Max 32G 为实验平台。

3.3 结果分析

3.3.1 不同分类方法的结果对比

本文选取标题、摘要、关键词3 类题录进行组合拼接作为特征组合, 并分别使用TextCNN、Tex⁃tRNN、TextRNN_Att、TextRCNN、TextDPCNN、BERT构建多标签分类模型进行实验。模型的分类效果与特征组合的选取高度相关, 本文对3 类题录字段进行组合操作构建7 种不同的特征组合, 并分别对6种深度学习模型进行实验, 不同分类模型的最优实验结果如表3 所示。

从表3 结果可以看出, TextRNN 模型的分类效果在6 种深度模型中处于底位, 可能原因是本文构建特征组合后, 模型的输入文本平均长度在300 个字符左右, TextRNN 模型中使用的LSTM 单元较难捕获文本中长距离的依赖关系。对比来看, Tex⁃tRNN_Att 模型在TextRNN 模型的基础之上加入了注意力机制, 能更好地处理文本内的依赖关系, 取得了较好的分类效果。另外, TextCNN、TextRCNN和TextDPCNN 模型分别使用了不同的网络结构,其中结构最简单的TextCNN 取得了最优的分类结果, 但3 种模型的差距不大。

在全部6 种模型中, BERT 的分类效果最佳,准确率、召回率和F1 值均为最高值, 分别为0.7066、0.7452 和0.6899, 表明了预训练语言模型具有强大的特征表征能力。因此, 在以下实验和分析中,均采用BERT 模型进行实验并对其结果进行分析。

3.3.2 不同期刊分类结果对比

为了探索多标签分类在不同期刊类别标签上的效果, 表4 展示了取得最优结果的BERT 模型在不同标签类别下的分类效果。从对比结果来看, 主要有两点发现:

一是从样本规模上来看, 其中, 期刊《数据分析与知识发现》的样本数最少但分类效果最佳,F1 值达到了0.8750, 期刊《图书情报工作》的样本最多但F1 非最低, 说明训练样本的数量和模型的分类效果间未见较强的相关性。期刊《数据分析与知识发现》分类效果最佳的可能原因是该期刊具有较强的技术属性, 和其他情报学领域期刊的区分度更大。

二是从论文平均标签数, 即标签数与论文数比值来看, 期刊《数据分析与知识发现》的论文平均标签数最小为1.15, 期刊《情报学报》的论文平均标签数最大为1.87, 虽然各期刊间具有不同的数据分布, 但BERT 模型均取得了较佳的预测结果。因此表明BERT 模型对于不同类型的期刊有较好的适用能力。

在采用多标签策略S3 的预测情形中, 以题目和摘要特征组合作为模型输入, 部分例子如表5 所示。

3.3.3 不同特征组合的结果对比

对于多标签分类的特征构建部分, 本文选取论文题录信息中的不同字段组合来表征单篇论文的内容。其中论文标题是对论文核心内容的凝练, 通常被认为最能表征论文的字段; 关键词是论文的重要组成部分, 能够被用于论文归类和检索, 也具有较好的论文内容表示能力; 摘要是对论文全文内容的概括, 相较于标题和关键词, 摘要篇幅更长, 对论文内容的呈现更为全面, 同时也会包含一些非核心词汇, 一定程度上削弱其表征能力[11] 。参照学术论文分类的常用做法, 本文选取以上3 个字段进行不同的特征组合作为多标签分类模型的输出。

由表6 可见, 在全部7 种特征组合中, 包含摘要字段的特征组合相比于未包含摘要字段的特征组合, 在准确率、召回率和F1 值上均取得了更优的结果, F1 值均在0.68 以上, 且差距较小, 表明摘要字段对文献的表示能力较佳。在未包含摘要字段的3 种特征组合中, 其整体F1 值均在0.5 以下,表明仅将论文标题和关键词作为模型输入, 不能较好地对其投稿选刊目标期刊进行判别。

此外, 由于学术文献开放获取等众多的限制[28] , 本文仅以论文题录信息中的摘要、关键词、标题作为特征组合的数据来源。虽取得了较佳的多标签分类效果, 但在文本规模上仍属于短文本, 未能充分发挥深度学习模型文本表示的优势。随着论文全文信息获取的成熟和便捷, 基于论文全文信息构建多标签分类任务, 深度学习的分类性能也将得到一定程度的提升。

3.3.4 不同多标签策略的结果对比

为探索多標签策略设置的影响, 也对不同的多标签策略下的BERT 模型的分类性能进行了对比。由表7 中的结果可以看出, 本文构建的4 种多标签策略均取得了较好的分类效果, 对比来看, S3 的效果要优于S1, S4 的效果要优于S2, 其可能原因是S3 和S4 是站在全局相关性的公平, 样本间选择标签时的阈值保持一致, 样本间选择标签的个数不一致。而S1 和S2 是站在样本的角度的公平, 样本间选择标签的个数大致一致, 样本间选择标签时的阈值是不一致的, 使得不太相关的参考文献期刊被选为了补充期刊。同样, 对比S3 和S4, S1 和S2,S3 的效果要优于S4, S1 的效果要优于S2, 其可能原因是前者的补充期刊选择的阈值更高, 有更大的机会只将最相关的期刊作为补充期刊标签。

另外, 当阈值为无限大或选排名前0 的参考文献作为补充期刊时, 多标签分类问题就退化为单标签分类问题了。鉴于此, 本文基于BERT 构建了单标签分类模型, 其分类结果也呈现在表7 中, 整体F1 值为0.7193, 说明本文构建BERT 模型同样也适用于单标签分类, 同时学术论文的题录信息与其录用期刊高度契合。

虽然单标签分类效果要优于多标签分类, 然而学术论文投稿中面临期刊选择多样性和拒稿重投问题, 单标签的分类模型仅能给出一个分类结果, 存在较大的局限性。因此, 本文基于深度学习构建多标签分类任务能给出多种分类结果, 对投稿者的投稿选刊规划具有较好的实践价值。

4 结束语

本文以情报学领域8 种CSSCI 收录期刊中近20 年发表学术论文为研究对象, 进行基于深度学习的学术论文多标签分类研究, 为学术论文投稿选刊给出指导建议。结果表明, 特征组合的扩大可以增加语料的丰富程度, 从而在一定程度上可以提高分类的准确性; 预训练语言模型相较于传统深度学习模型呈现更优的分类结果; 在多种多标签分类方法中, 基于BERT 的多标签分类取得了最佳的分类效果, 整体F1 值达到0 6899。

本研究仍然存在以下不足之处: 仅采用情报学领域8 种CSSCI 收录期刊中的数据进行实验, 数据量的局限性可能导致分类结果出现一定的偏差。在多标签的设置中, 只考虑了上述8 种期刊, 且仅考虑了引用频次, 未考虑论文的学术水平与期刊的水平一致性等问题。针对上述不足, 后续可以进一步获取更大范围的题录信息进行实验, 并基于期刊影响因子、引文功能等因素以对多标签期刊设置进行优化。

猜你喜欢
自然语言处理深度学习
基于组合分类算法的源代码注释质量评估方法
有体验的学习才是有意义的学习
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
词向量的语义学规范化