基于LDA模型的军事物流领域研究热点探析

2022-02-23 04:11赵爽汪贻生李睿
中国储运 2022年2期
关键词:主题词热点文档

文/赵爽 汪贻生 李睿

为探索军事物流领域的研究热点,利用TF-IDF算法和LDA模型对中国知网中2000-2020年间发表的1461篇军事物流相关文献进行文本挖掘。通过研究得到该领域的23个热点词和七大热点主题,为军事物流相关学者把握学科热点提供参考。

一、引言

军事物流是为了满足部队平时供应和战时保障而产生的物流活动,随着战争中物资需求的增加,军事物流也得到了迅速发展,并成为了支撑国防和军队建设不可或缺的重要力量。因此,也吸引了大量学者对军事物流相关问题进行研究,文献数量增长迅猛。故本文选取中国知网中军事物流相关论文进行深度挖掘,旨在探析军事物流领域研究态势与研究热点主题,帮助相关学者和军事物流相关从业人员更快的掌握学科热点。

二、研究方法和数据来源

(一)研究方法

1、TF-IDF算法。较多学者在研究时选择词频高的词作为学科热点词,这一方法的弊端在于基础性词语的词频通常都很高,但无法全面反映学科热点。TF-IDF算法可以解决这一问题,可以过滤掉一些常见的却对文档无关紧要的词,同时保留影响整个文档的重要词。对于在某一文档dt里的词语ti来说,的词频(TF)可以表示为:

其中,ni,j是词语ti在文档dj中出现的次数,分母是文档dj中所有词语出现的次数,而对于某一词语的IDF,计算公式如下:

将一个词语的TF值与IDF值相乘即可得到该词的TF-IDF值,该值越大,表示该词对于文本的重要程度越大,成为主题词的可能性越大。

2、LDA模型

LDA模型是一种用于文本挖掘的非监督机器学习技术,是包含词、主题和文档的三层贝叶斯概率模型,可以识别大规模语料库中的主题信息。

每个文献d看做一个词语序列,d中有n个单词。文献集合D中涉及的所有不同单词组成一个大集合VOC,LDA以文档集合D作为输入,训练出两个结果向量(聚成K个topic,VOC中共包含m个词),LDA的核心公式如下:

就是以Topic作为中间层,得到文档d中出现单词w的概率。通过以上方法,可以得到某一数据集中的主题。

(二)数据来源。本文的实验领域为军事物流,数据采集时间段为2000—2020年,来源为中国知网。在高级搜索中,主题位置输入“军事物流”,文献类型设定为中文。将文献的标题、时间、关键词、摘要、作者等信息以EXCEL的格式导出,剔除掉重复以及信息不全的文献,共计检索出1461篇文献数据,构成原始数据集。

三、实证研究

(一)数据预处理。从原始数据集中选取标题、关键词、摘要作为语料来源。利用中文分词工具Jieba进行分词,为了让机器能自动分割出利于研究的结果,在分词中将军事物流专有名词加入到自定义词典中,不进行拆分,共计得到6545个不重复词。

(二)军事物流领域研究态势可视化分析。从原始数据集中选取出论文发表年份信息,统计每年发表的文献数量,并绘制折线图,其变化情况如图1所示。

图1 2000-2020年年度论文发表量变化趋势

可以看出,在2000年军事物流研究处于起步阶段,相关文章仅有3篇,而后至2010年,呈现增长迅猛态势,于2010年达到顶峰。通过浏览样本文献和相关书籍可以发现,在2003年,王宗喜教授发表了一篇名为《加强应急物流与军事物流研究刻不容缓》的文章,文中提到在伊拉克战争中,美军展现了其跨国军事物流保障能力,并呼吁物流理论工作者要深刻反思并积极主动的进行研究。这篇文章激发了广大学者对军事物流的研究热情,这也是2003年后发文量剧增的原因之一。而后,在2007年12月印发的《全面建设现代后勤纲要》中,第一次将“军事物流”纳入总部指令性文件,这一举措让更多的学者开始关注并研究军事物流,将相关文献发表量推向顶峰。2010年后发文量有所回落,慢慢趋于平稳,这说明军事物流领域研究已经逐步走向成熟,研究机构和学者也逐步稳定。

(三)军事物流领域研究热点分析

1.基于TF-IDF算法挖掘军事物流领域热点词。将前文中的分词结果作为研究对象,使用TF-IDF算法得到每篇文献中最重要的10个词,而后将从1461篇文献中提取出的14610个主题词进行词频统计并同义词合并,选取频次超过20的主题词为军事物流领域的热点词(结果如表1所示),因为“军事物流”是本次研究的主题,所以不将其列入热点词中。

表1 2000-2020年军事物流领域热点词

如表格所示:军民融合、应急物流、美军、第三方物流、军地物流一体化等23个主题词均为2000-2020年间军事物流领域的热点词,这些词语相关的研究问题是学者们比较关注和重视或具有研究意义的问题。

2.基于LDA模型挖掘军事物流领域热点主题。由于一个热点词的含义较片面,无法构成一个主题,如果能够得到几个主题词组成的类团,就可以归纳总结出每个类团的主题内容,因此得到研究热点主题。对基于TF-IDF算法探索出的每篇文献的主题词,利用LDA模型进行主题挖掘。首先要确定主题数,因为主题数目影响着LDA的性能,通过阅读相关文献并反复调试实验结果,最终确定主题数为6。由于篇幅原因,这里我们只将与每个主题相关程度最高的前8个词提取出来进行分析,并按强度高低排序,结果如表2所示。

表2 LDA模型主题挖掘结果

由于分散的主题词无法直观的表示热点主题,所以根据主题词与每个主题相关程度的高低,将每个主题研究的主要内容进行概括归纳,如表3所示:

表3 2000-2020年军事物流领域热点主题

由上表可知,美军军事物流配送系统及相关技术、军事物流配送中心选址、管理与物联网技术应用等七大主题为2000-2020年间军事物流领域的研究热点主题。

四、研究结论

本文借助TF-IDF算法和LDA模型对中国知网中2000-2020年间军事物流领域1461篇文献进行研究热点探析,绘制并解释论文发表量趋势变化折线图。研究表明,军民融合、应急物流、美军、第三方物流、军地物流一体化等23个主题词为研究时间段内军事物流领域的热点词;美军军事物流配送系统及相关技术等七个主题为研究时间段内军事物流领域的热点主题。本文也存在不足之处:一是在抽取的主题数量上通过反复实验确定,未通过定量计算得到最优解,二是各个热点主题是作者根据主题中的主题词进行抽象总结的,具有一定的主观性。

猜你喜欢
主题词热点文档
热点
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
热点
智能传感器的智慧战略,新技术创造新价值
结合热点做演讲
Word文档 高效分合有高招
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
取消公文主题词的真正原因是什么?
热点