申航
(四川大学计算机学院,成都610065)
随着学术界的日益发展,人们的受教育水平日益提高,越来越多的人开始进入研究领域。而当一个初学者开始在其领域内进行探索时,往往是盲目的,他需要能够直接地了解到本领域内顶尖地机构和学者,基于文献机构作者数据的交互式可视化面临新的挑战和机遇。
在获取顶尖机构和作者方面,人们对科研机构在科学领域的产出和影响力方面的比较越来越感兴趣,这一趋势的一个迹象是不断出版的大学排名,因此我们需要根据发文数量、被引量等数据对机构作者进行评估排序,以获取领域内顶尖的机构作者,以便用户进行学习跟踪。
在机构作者合作方面,在现代科学中,科学家已经成为共同点:“有大量的证据表明研究合作已经成为科学和技术研究各个领域的常态。”对机构作者的合作网络进行研究能够让用户找到相似的领域机构作者,并能让用户对某一作者的合作演化进行跟踪,从中发现一些有趣的联系。
目前主流的文献可视化工具有Cite Space、Google Scholar Metrics、Keshif等。通过调研,我们发现存在以下问题:
(1)功能不够完备,只具有展示作者信息或者领域研究信息等某一方面的功能;
(2)信息利用不充分,在对机构或作者进行分析时没有考虑到所有属性;
(3)视图过于混乱,对于用户来说认知负担大,且体验较差。
针对上述情况,本文从两个方面提出了文献机构作者数据的可视化方法设计,包括合著网络可视化方法、关键词文本可视化方法。然后本文从数据特点、可视化映射考虑,完成了对两种可视化方法的实现。
本文实验采用的数据集为1991-2016年IEEE VIS上发表的论文数据。数据来源于http://www.vispubdata.org/site/vispubdata/,数据预先包含的字段为conference、year、paper_title、paper_doi、link、author_name、author_affiliation、author_keywords。数据集总共包含约2000篇论文,从Vispubdata网站上下载csv格式的文件后导入到MySQL数据库中。
表1 论文数据集描述
T1.作者合著网络分析。单个作者无法独自完成一篇论文的撰写。在各个学者于他人合作的过程中,渐渐地形成了一张合作网。分析合著网络能够发现许多有趣的合作模式。该任务可分解为如下问题:
Q3.如何发现学术水平较高地学者?如,分析者希望找到学术水平较高的学者进行论文学习。
Q4.如何发现合著网络中的学术团体?如,分析者希望通过单个高水平作者发现其处于的学术团体,对团体中的其他个体进行跟踪学习,从而拓宽学习视野。
Q5.如何对作者的合作关系的演化过程进行分析?如,通过对作者历年来的合作作者进行分析,能够找到一些可能的师生关系。
T2.关键词文本分析。关键词文本中包含了许多有价值的信息。通过对关键词文本进行分析能够发现诸如领域研究热点、作者研究兴趣等模式。该任务可分解为如下问题:
Q6.如何获知学者的主要研究方向?如,分析者希望知道某位学者的主要关键词,再根据关键词阅读论文。
Q7.如何获知一位学者研究领域的演化情况?如,分析者对某位学者感兴趣,希望得知他近几年的研究领域。
对作者合著网络进行可视分析能够发现许多有趣的模式,例如学术团体、个人中心网络的变化等等。为更好地对作者合著网络进行分析,合著网络分析分为合著网络可视化方法与个人中心网络可视化方法。
(1)合著网络可视化方法的设计
合著网络能够直接反映作者间的学术合作关系。合著网络需要能够反映单个作者学术水平的高低、作者间的合作亲密关系与学术团体。本文设计了合著网络可视化方法,能够解决可视化任务中的Q2-Q4。
合著网络可由一张无向图表示,节点代表作者,节点间路径代表作者间存在合作关系。合著网络可视化示意图如图1所示。
该可视化方法由两部分组成,无向图与力引导布局:
①无向图
节点面积:节点面积对应发文数量。作者发文数量越多,节点越大。
节点颜色:节点的颜色代表作者所属的学术团体。不同的颜色代表不同的学术团体,同一颜色的节点属于同一学术团体。
边:边代表连接的两个作者间存在合作关系。
②力引导布局
力引导布局能够使视图中的连线长度保持一致,并减少连线的交叉。力引导布局引入的库仑斥力能将节点弹开,而弹簧引力能够将关系紧密的节点拉近。由于关系紧密的节点间吸引拉近,关系较弱的节点间排斥远离,所以从形成的网络布局中能够看到一定的团体分布。通过对节点进行着色能够更好地对团体进行区分。
图1 合著网络可视化方法示意图
(2)个人中心网络可视化方法的设计
除了需要对网络的整体情况进行展示外,还需要对个体的情况进行展示。对个人中心网络进行探索除了能够发现该个体的主要合作者,还能够发现合作网络随时间的演化情况。本文设计了个体中心网络的可视化方法,能够解决可视化任务中的Q5。
个人中心网络的可视化由两部分组成,如图2和图3所示。个人中心网络可视化能够对选定作者与其主要合作者进行展示,对作者的主要合作作者进行分析能够知道该作者主要的学术合作关系。
个人合作关系演化可视化能够从时间属性上对作者的合作关系进行分析。首先对选定作者所有发表的论文按年份排列进行展示,再对发表论文中的合作作者按年份进行展示,就能够清晰直观地看到该作者与其合作作者在时间上变化情况。通过对个人合作关系演化情况进行分析能够发现诸如师生关系等潜在的模式。
图2 个人中心网络可视化示意图
图3 个人合作关系演化可视化示意图
该方法的可视化编码主要包括节点、连线、气泡,下面对方法的可视化编码进行描述:
①个人中心网络可视化
节点:每个节点代表一个作者。
边:边表示相连的节点与中心节点间存在合作关系。
②个人合作关系演化可视化
横轴:横轴代表选定作者发表过论文的年份。
纵轴:纵轴代表作者,第一项为选定作者,后续项为选定作者的合作作者,按合作论文篇数排序。
气泡尺寸:气泡尺寸代表发文数量,气泡越大,发文数量越多。第一行为选定作者按年份排列的发文数量,后续行为该作者与选定作者按年份排列的合作论文数量。
关键词是分析作者研究领域的重要属性。一方面,分析者希望直观地得到作者主要的研究方向;另一方面,分析者希望观察出作者研究领域的变化情况。
针对以上需求,本文设计了关键词文本可视化方法,由两部分组成,关键词词云可视化与主题流图可视化。
(1)关键词词云可视化方法的设计
关键词词云能够直观地反映出作者的主要研究方向。本文设计了关键词词云的可视化方法,能够解决可视化任务中的Q6。对作者发表的所有论文的关键词进行统计,由词频决定关键词大小,排列在视图上。通过对关键词进行跟踪,能够找到相应的论文。关键词词云可视化方法示意图如图4所示。
图4 关键词词云可视化方法示意图
该方法的可视化编码主要包括:
内容:关键词内容为作者论文集中出现频次较高的关键词。
大小:关键词的大小代表该关键词出现的频次,频次越大,关键词越大。
(2)主题流图可视化方法的设计
主题流图能够反映作者研究领域随时间的变化情况,包括:作者近年来最主要的研究领域,作者何时停止研究一个旧领域,作者何时开始研究一个新领域等等。本文设计了主题流图的可视化方法,能够解决可视化任务中的Q7。将作者的研究主题映射为在时间上不断变化的河流,即可看到主题的发展变化。主题流图可视化方法示意图如图5所示。
图5 主题流图可视化方法示意图
该方法中河流的可视化编码主要包括:
颜色:不同的颜色代表不同的河流,同一颜色的河流为一个主题。
宽度:河流的宽度代表当年该主题的论文数,作者在该主题上有关的论文越多,河流越宽。因此,面积较大的河流代表作者的主要研究领域。
如图6所示,展示了IEEE VIS论文数据集上的合著网络情况。从合著网络可视化结果中可以看出,可视化领域内的顶尖作者主要有Eduard Groller、Kwan-Liu Ma、Arie E.Kaufman、Huamin Qu 等。合著网络根据作者合作关系有被划分成一个个学术团体,而学术团体又围绕上述顶尖作者产生。由此可以判断出,学术团体的产生主要受两方面影响:顶尖作者与其学生间的合作关系,顶尖作者间的长期合作关系。
对合著网络中的节点进行点击能够查看作者的详细信息。图7展示了Huamin Qu的个人中心网络可视化结果。从图中可以看出Huamin Qu的主要合作者为Yingcai Wu与Weiwei Cui。而根据搜索引擎的结果,Huamin Qu与后两位作者是师生关系,证明了实验结果的准确性。从个人合作关系演化中可以看出,Huamin Qu与后两位作者保持了长期的合作关系。
通过对网络图中的节点进行点击能够查看合作作者的详细信息,对气泡图中的气泡进行点击能够查看相应的文章。
如图8所示,展示了Huamin Qu的研究领域可视化结果。从右边的词云可以看出,Huamin Qu的主要研究方向为visual analytics与graph visualization。而从左边的主题流图可以看出Huamin Qu研究领域的变化情况。根据河流宽窄的变化情况,可以看出Huamin Qu早期的研究领域为rending与image processing,而近期的研究领域主要为visual analytics与graph data and techniques。
图7 Huamin Qu的个人中心网络可视化结果
图8 Huamin Qu的研究领域可视化结果
对关键词进行点击能够查看作者在该方向上的文章。如图9所示,展示了Huamin Qu在visual analytics方向上的文章列表。通过下拉滑动条能够查看所有的文章,通过对link进行点击能够访问原文链接。
图9 Huamin Qu在visual analytics方向上的文章列表
随着科技的进步与高等教育的蓬勃发展,一方面科研工作者数量急剧上升;另一方面,科学研究领域的重要成果之一——科研文献的数量也在急剧增长。如何有效地对科研文献进行分析,快速获取目标信息,成为文献分析领域的研究热点。
鉴于上述背景,本文对文献机构作者数据的可视分析展开研究。基于会议论文数据,结合地理信息可视化、网络数据可视化、文本内容可视化等信息可视化技术,设计并实现了完成了对合著网络、关键词文本等数据的分析。同时,本文以1991-2016年IEEE VIS论文数据为例,通过对论文数据进行分析,验证了系统的可靠性。