基于GEPHI的共词可视化分析:以文献计量学作者合作关系为例

2014-05-21 21:47李国栋
新媒体研究 2014年7期
关键词:文献计量学可视化分析

摘 要 通过使用共词分析法对文献计量学研究领域作者的合作关系进行分析,可以揭示该学科领域合作团队的内部和相互之间的联系。文章在对文献计量学进行一般文献计量分析的基础上,通过使用复杂网络分析软件GEPHI对文献计量学对作者合作关系网络进行定量分析和绘制可视化图谱,为研究该学科领域的作者合作群体状况以及跟踪学科研究进展提供直观的分析参考。

关键词 可视化分析;共词;GEPHI;文献计量学

中图分类号:G202 文献标识码:A 文章编号:1671-7597(2014)07-0104-02

共词分析法已经被深入应用于对各个学科领域的文献分析研究中,通过共词分析方法对文献信息中共同出现的内容进行聚类分析,应用可视化分析软件绘制关键词共现关系网络图谱,能够揭示出学科的研究现状和发展趋势。近年来随着统计学和社会网络可视化分析方法的进展,各种方便直观的社会网络分析(Social Network Analysis,SNA)软件不断出现,应用于科学文献的分析中,使文献定量分析的结果以图形的形式呈现出来,把定量分析向定性结果转化,成为学科领域现状和前沿热点预测的有力分析工具。[1]

1 GEPHI软件简介

GEPHI是一款基于JVM(JAVA虚拟机)免费开源的复杂网络可视化分析软件,可用于探索性数据分析,链接分析,社交网络分析,生物网络分析等[2]。本文通过对文献计量学研究领域期刊文献的题录数据处理,得到作者共现矩阵,用EXCEL的数据透视表功能进行数据转换后导入GEPHI软件进行运算,绘制出该研究领域的作者合作关系图谱,对文献计量学研究领域的合作关系进行研究。

2 文献计量学发展状况的数据统计

2.1 数据来源及预处理

本文使用的数据来源于中国知网提供的中国学术期刊网络出版总库,包含从1980年开始到2013年8月的有关文献计量学的学术期刊文献信息,题录下载时间为2013年8月19日,去除了无效文献和重复文献以后,得到文献计量学研究领域的国内期刊文献共6254篇。对题录中作者、关键词、刊发时间、来源机构等字段进行统计,抽取高频词进行排序,进行初步的数据分析[2]。

2.2 初步数据统计

2.2.1 各年发表数据统计

对发表时间统计和排序处理,得到从20世纪80年代以来国内文献计量学理论和应用研究的学术论文数量统计结果。结果显示对文献计量学的研究开始以来学术文献数量在不断地增加,特别是进入本世纪以后的十几年中,这一领域研究的学术论文数量增速更快。

2.2.2 期刊统计

通过统计,历年来我国文献计量学研究的学术论文发表期刊共有1874种,发表该研究领域学术论文数量在10篇以上的共有75种,发表数量为3021篇,占总数的48.32%,其中以《农业图书情报学刊》、《情报科学》、《现代情报》、《情报杂志》等刊物发表数量最多。

图1 各年发表数量统计

表2.2.3 作者统计

国内在各学术期刊发表文献计量学研究领域论文的第一作者人数为4276人,其中发表数量超过2篇的有971人,发表文章总数为2699篇。根据普赖斯文献分布定律,将发文量超过6篇的作者定为核心作者,符合条件的作者共有60人,发表数为632篇,发表论文20篇以上的共有6人,其中邱均平教授以52篇居首位。

2.2.4 关键词统计

本文所统计文献共有5356个关键词,其中只出现一次的有3931个,占总数的73.3%,词频在10次以上的有163个,占总数的3%,词频在40次以上的有32个,占总数的0.5%(表2)。其中“引文分析”、“核心期刊”、“统计分析”、“文献计量”等关键词的使用频率远远高于其他关键词。

2.3 统计结果分析

根据统计结果,文献计量学研究的学术论文在逐年不断增加,特别是在进入本世纪以后文献数据量增速明显,这说明文献计量学在各个学科的研究工作中逐步受到重视和应用,形成了以《农业图书情报学刊》、《情报科学》、《现代情报》、《情报杂志》等学术期刊为代表的专业学术交流平台,逐步形成了核心研究队伍,以武汉大学邱均平教授为首的60名核心作者撰写的论文数量占总论文数量的15%,他们的研究成果基本上代表了国内文献计量学研究的方向。对关键词词频的统计结果显示,文献计量学领域的研究热点集中于“引文分析”、“期刊”、“科学计量”、“影响因子”、“定量分析”等主题上。

3 GEPHI可视化分析

3.1 数据类型

对文献信息数据处理后,用Excel生成包含数据节点和连接关系的.CSV文件,导入GEPHI,软件将会自动合并相同节点,并对数据节点连接的次数进行计算。

3.2 数据分析

将文献计量学研究领域有文献创作合作关系的前60位作者的合作关系共词矩阵用EXCEL进行处理后导入GEPHI,然后对作者合作关系网络进行网络密度、直径和模块化分析,并绘制出合作关系图谱,将本研究领域的研究合作关系直观地呈现出来。

3.2.1 网络密度分析

网络密度反映网络的完整性,如果一个复杂关系网络中任意的节点之间都有边连接,那么这个网络的密度为1,这种网络的可到达性是最好的,反之如果网络密度越小,那么网络的完整性越差。文献计量学研究领域的合作网络的密度计算结果为0.002,与完整网络的差距较大,这说明文献计量学研究领域作者合作较少。

3.2.2 网络直径分析

网络直径是指网络内最长的两个节点之间的连接数(直接连接的两个节点之间的距离为1),文献计量学领域作者合作网络的直径和平均连接长度,结果显示网络直径为4,平均连接长度约为1.57,最短长度连接个数为886,从这个结果来看,该合作网络的网络群体内的连接较为紧密,但是对一个拥有60个节点的关系网络来说,连接数目还是比较小的。endprint

3.2.3 网络模块化分析

文献计量研究领域的合作关系网络的模块化分析结果显示模块度系统为0.917,接近于最大值1,社区数量为45。模块度系数越高说明合作群体的组内连接越紧密,但是合作群体之间的连接越少,表明文献计量学研究领域的45个合作群体在学科领域跨单位或者跨机构的合作比较少。[4]

3.3 绘制图谱

使用“ForceAtlas 2”算法插件生成文献定量分析研究领域的作者合作关系图谱(图2),可以看到研究领域的的合作群体边界清晰,核心人物地位显著,在这些群体中规模比较大的群体核心人物有李成建、邱均平、柯银花、文庭孝、杨华等,但是在这45个合作群体中与其他群体发生合作关系连接的只有8个,合作关系连接数量只有李成建组与柯银花组较多,达到7个连接,而其余组与其他群体的合作关系连接数目都是1到2个。

图2 作者合作网络图谱

4 结论

GEPHI对关系网络的分析功能使它完全能够满足文献计量分析工作的基本需求,特别是其强大的可视化计算功能使它能够将文献定量分析的结果直观地以图谱的形式呈现出来,是绘制文献作者合作网络和文献共现关系网络的得力工作。本文通过对文献计量学方法对文献的发表数量、来源刊物、作者、关键词等进行了基本的频次统计,揭示出该学科研究领域的研究现状和发展规律。对文献计量学研究领域的作者合作关系网络进行了网络点度中心度、网络密度和网络直径测量,并基于网络模块化分析结果绘制出了作者合作关系网络图谱,直观地反映出本学科合作群体内部与之间的合作关系特点,揭示出了文献计量学研究速度加快、规模扩大以前沿热点不断出现等特点,也提出了研究领域内的合作群体内部关系紧密、但是之间的合作很少,影响了学科交叉融合与发展,是目前需要解决的问题。

基金项目

南阳市科技发展规划项目,编号:2013RK008。

参考文献

[1]裴雷,马费成.社会网络分析在情报学中的应用和发展[J].图书馆论坛,2006,26(6):40-45.DOI:10.3969/j.issn.1002-1167.2006.06.010.

[2]Mathieu Bastian,Sebastien Heymann,Mathieu Jacomy et al.Gephi: An Open Source Software for Exploring and Manipulating Networks[C].//Proceedigns of the Third International AAAI Conference on Weblogs and Social Media.2009:361-362.

[3]刘启元,叶鹰.文献题录信息挖掘技术方法及其软件SATI的实现—以中外图书情报学为例[J].信息资源管理学报,2012(01):50-58.

[4]张聪,沈惠璋.基于谱方法的复杂网络中社团结构的模块度[J].系统工程理论与实践,2013,33(5):1231-1239.

作者简介

李国栋(1972-),男,河南南阳人,馆员,硕士,主要研究文献为文献情报信息服务创新以及数字资源开发建设。endprint

猜你喜欢
文献计量学可视化分析
《现代泌尿外科杂志》2011~2013年文献计量学指标分析
《广西民族研究》创办30年来刊发文章的回顾与展望
高校学生管理法治化研究:基于CiteSpace的可视化分析
我国职业教育师资研究热点可视化分析
中文图书评价体系研究
声波吹灰技术在SCR中的应用研究
可视化分析技术在网络舆情研究中的应用
国内外政府信息公开研究的脉络、流派与趋势