基于Python的CNKI查收查引研究科学计量分析可视化

2020-03-31 08:41邵燕霞张文忠
办公室业务·上半月 2020年1期
关键词:计量分析

邵燕霞 张文忠

【摘要】本文采用科学计量学的出版物统计、著者统计、词频分析等研究方法对CNKI收录的查收查引研究文献进行计量分析并可视化呈现,计量分析并可视化功能使用Python语言开发实现。阐述了查收查引研究现状及研究内容,确定了我校图书馆开发查收查引软件的开发方案。

【关键词】查收查引;CNKI;科学计量学;计量分析;Python

查收查引服务是国内图书馆提供信息服务工作的一项重要内容,为团体或个人提供论文收录引用的检索分析,并出具检索收录报告。科研人员在科研课题申报立项、基金资助、成果鉴定、奖励申请、职称评定等方面均需要提供论文检索报告,检索报告成为评测团体或个人科研产出和水平的重要评价指标。为了提高查收查引服务质量和服务效率,国内图书馆在查收查引服务的相关方面进行了积极的探索研究和实践,在网络化、信息化和数字化的基础上实现查收查引服务工作的高效高质。华北电力大学图书馆为了更好地为用户提供查收查引服务,对查收查引研究现状进行了调研和分析,通过检索CNKI数据库有关查收查引方面的文献,利用Python语言对文献进行计量分析并可视化呈现,确定查收查引服务的研究方向和研究内容。

一、数据资源的获取

利用CNKI中国知网数据库期刊全文子库的高级检索,检索策略为(主题词:查收查引)OR(关键词:代查代检OR代检代查OR代检代查服务系统),共检索到77篇文献,以Refworks格式导出46条题录数据,保存为*.xls文件,样本时间为2003年至2018年。

根据题目、关键词等信息內容清洗数据后得到相关性较高的46篇论文,为了提高计量分析的准确性,需要对关键词字段内容进行消歧。由于WOK检索平台Web of Science引文数据库包括SCI(Science Citation Index,科学引文索引)、SSCI(Social Science Citation Index,社会科学引文索引)、CPCI-S(科学技术会议索引,原ISTP)、CPCI-SSH(社会科学及人文科学会议索引,原ISSHP),因此,SCI、SSCI、CPCI-S、ISTP、CPCI-SSH、ISSHP均替换为WOS;EI Village、工程索引替换为EI;代检代查替换为代查代检。

由于受查收查引主题的限制,检索到的数据量非常小,利用现有办公软件以及文献管理软件Word、Excel、EndNote、NoteExpress等即可以完成对数据进行处理和统计。这里采用Python对文献进行分析,仅是对我校图书馆开发的查收查引科学计量分析可视化工具软件的一个功能应用的展示。

CNKI提供的Refworks格式题录信息包含了论文收录的基本信息,Python对文献进行计量分析从CNKI提供的Refworks格式题录信息中提取了9个字段,题录字段含义见表1。

二、开发环境

开发环境选择64bit Anaconda for Windows Python2.7,Anaconda是一个软件包管理器。Anaconda集成了超过1500个Python/R数据计算相关的包,可以节省很多安装第三方包的时间;集成了Spyder作为Python语言的集成开发环境,可以高效地开发代码。尽管用脚本模式比图形用户界面(GUI)更具挑战性,但它强大的标准库还是非常有吸引力的,而且编写少量代码即可实现对文献的计量分析并以直观的可视化图形方式呈现给用户。Python和R均是开放源代码的通用语言,简单易学,代码易于阅读,具有解释型、面向对象、动态数据类型等特点,并且有庞大的标准库支持,且帮助文档完备,在数据分析和数据挖掘方面都有比较专业和全面的模块,很多常用的功能,如文本挖掘、计量统计、自然语言处理、网络分析、可视化分析都有相应的标准库提供。基于Python开发的科学计量分析工具包metaknowledge和基于R开发的科学计量分析工具包Bibliometrix提供了科学计量分析的脚本参考,对使用Python实现科学计量分析解决工作中实际需求非常具有参考价值。

三、研究方法

由于CNKI数据库没有提供文献的参考文献及施引文献数据下载渠道,提供的题录数据字段内容有限,因此采用科学计量学的出版物统计、著者统计、词频分析等研究方法对样本数据进行简单的计量分析。由于选择的“查收查引”主题范围过小, 没有采用科学计量学的共现分析方法对关键词进行共现分析,文中出现的关键词共现表及共现图仅表示关键词之间共同出现的表面特征。计量分析的内容包括题录数据的出版年份频次统计,作者数量统计及合作分析,关键词频次统计及共现分析。使用我校图书馆基于Python开发的查收查引科学计量分析可视化工具软件对46条样本题录数据进行计量统计并可视化呈现。

四、计量分析可视化

(一)年度发文量。2003-2018年发表的46篇文献从提高工作效率及检索质量的实际工作需求出发,在提高论文检索质量、利用现有工具提高查收查引服务效率、开发查收查引工具软件、查收查引服务平台及查收查引系统软件等方面进行了积极的探索研究和实践,见表2。对查收查引的研究主要有四个方面,查收查引服务、开发系统软件、开发检索平台、开发工具软件,另外还涉及集体成果预测、数据库检索技巧、机构知识库建设等方面的研究内容。2003-2013年发文量较少,2014-2018年发文量相对增加,其中2015年最多,2018年呈现上升趋势。随着用户对查收查引的服务质量和服务效率需求的进一步提升,预测未来开发集成服务平台和工具软件模块功能的查收查引服务全流程自动化系统软件将成为查收查引研究的发展趋势。

(二)作者合作关系。通过对46篇文献题录中作者字段的统计得到作者共93人,其中2人出现3次,9人出现2次,其余出现一次。7人与他人合作两次,其他合作均为一次,生成作者合作关系表和合作关系图,见表3和图2。从作者合作关系表及关系图可以看出,对查收查引研究的作者合作程度低,网络结构松散,作者之间沟通稀疏,没有形成查收查引研究联系广泛、密切的合作模式,导致对查收查引研究成果相对分散。

(三)关键词词频。消歧后对46篇文献题录中关键词字段的统计得到关键词123个,其中“查收查引”出现33次,

“高校图书馆”出现6次,“WOS”出现5次,“图书馆”出现4次。出现3次的有7个词,出现2次的有11个词,其余均出现一次,生成的关键词词云图见图3。从对关键词词云图分析可以得出对查收查引的研究集中在高校图书馆及图书馆等机构;检索的引文数据库主要是WOS和EI;利用现有办公软件和文献管理软件以及开发查收查引软件受到的关注度较高。关键词中有一个“可视化分析”出现,通过阅读文献了解到该文献是对论文查收查引服务的研究文献进行可视化分析,并不是对查收查引检索结果进行可视化分析。关键词中没有出现其他有关对查收查引检索结果可视化呈现的关键词,因此,我校图书馆在开发查收查引工具软件的功能实现中设计了对查收查引检索结果可视化呈现的功能模块,软件实现了查收查引中需要整合数据、自引他引统计等重复性工作的自动完成,为查收查引报告提供了基础数据,并以可视化形式呈现收录论文中用户关心的关键信息。

(四)关键词共现。通过对46篇文献题录中关键词字段的统计得到关键词123个,其中“查收查引”与“高校图书馆”

“图书馆”共现4次,与“引证检索”“WOS”共现3次,生成关键词共现表和共现图,见表4和图4。通过关键词共现表及共现图可以看出查收查引服务工作与高校图书馆与图书馆密切相关;引文数据库、文献管理软件、办公软件、开发语言、数据库平台等方面的关键词与开发查收查引系统、工具软件、服务平台的研究有关,查收查引工作流程自动化研究产生了多个研究流。

五、小结

通过对查收查引服务研究文献的计量分析和可视化呈现,揭示了查收查引服务的研究现状,确定了我校圖书馆开发查收查引工具软件的研究方向和研究内容。得出的结论主要有以下几点:(1)年度发文量显示查收查引研究文献数量呈增长态势,受到的关注度呈上升趋势。(2)作者合作网络结构松散,作者之间沟通稀疏,揭示了查收查引研究合作空间很大,蕴含着进一步扩大合作范围、加强合作强度的潜能。(3)关键词词频统计显示对查收查引的研究集中在高校图书馆及图书馆等机构。(4)关键词共现网络显示开发查收查引系统、工具软件、服务平台研究的关键词与查收查引密切联系,查收查引工作流程自动化研究产生了多个研究流。(5)目前没有针对查收查引检索结果可视化呈现的文献。

综上所述,随着信息技术、网络技术、计算机技术的发展查收查引的服务质量和服务效率会进一步提升,查收查引服务流程自动化程度会越来越高,人工承担的繁琐重复性工作逐渐被软件系统替代,预测未来开发查收查引服务全流程自动化的系统软件将成为查收查引研究的发展趋势。

【参考文献】

[1]梁红妮,胡小飞.论文查收查引服务的分析与探讨[J].情报理论与实践,2009,32(04):96-99.

[2]李晓东,卢振波.论文查收查引工具软件的设计与实现[J].大学图书馆学报,2005(01):49-50+62.

[3]McLevey John,McIlroy-Young Reid.metaknowledge Software for computational research in information science, network analysis, and science of science[J].JOURNAL OF INFORMETRICS.2017,11(1):176-197.

[4]Aria Massimo,Cuccurullo Corrado.bibliometrix:An R-tool for comprehensive science mapping analysis[J].JOURNAL OF INFORMETRICS.2017,11(4):959-975.

[5]邱均平,赵蓉英,董克等.科学计量学[M].北京:科学出版社,2016.

[6]贺颖,贺玢.我国查收查引服务研究可视化分析[J].电脑知识与技术,2018,14(05):9-12.

猜你喜欢
计量分析
能源诅咒视角下成都经济区绿色发展研究
宝鸡文理学院科研论文计量分析
企业所得税会计新旧准则的变化分析
居民消费水平因素分析
基于中国知网的Reissner—Nordstrom空间研究文献分析