基于科学知识图谱的情报检索前沿研究

2016-05-14 20:55赵跃民张锐王章红
现代情报 2016年8期
关键词:科技情报文献计量知识图谱

赵跃民 张锐 王章红

〔摘要〕情报检索是情报研究工作的前提和核心。本文基于科学知识图谱理论,对近数十年来情报检索的研究做概貌性描述,运用主题词词频分析、聚类分析、共词分析、合著分析等文献计量方法,统计了情报检索领域1956-2015年的103 733篇学术文献,对文献的时间分布、文献主题分布、关键词词频、国家分布、机构分布、作者分布、合著关系等数据进行分析,并通过可视化知识图谱展示了作者合著关系以及主题词和关键词的共现关系。结果表明,情报检索的相关研究正处于快速发展阶段,研究主题明确、地域差距显著,已经形成了一批具有核心影响力的专家学者。本文通过分析情报检索领域的发展脉络,对于情报学领域的学者进一步寻找研究热点、挖掘新的研究问题具有一定的参考意义。

〔关键词〕科技情报;情报检索;文献计量;知识图谱;前沿

DOI:10.3969/j.issn.1008-0821.2016.08.030

〔中图分类号〕G2549〔文献标识码〕A〔文章编号〕1008-0821(2016)08-0160-08

〔Abstract〕Information retrieval is the premise and the core of intelligence research.Based on the theory of mapping knowledge domain,the article reviewed the research progress of information retrieval in recent decades.Applying bibliometrics method such as key words frequency analysis,cluster analysis,co-word analysis,co-author analysis,the article counted 103733 pieces of academic literature in the field of information retrieval from 1956 to 2015.The article took the literature data about time distribution,subject distribution,keywords frequency,regional distribution,research institution distribution,authors distribution and the co-authorship network for analysis.Meanwhile the articles shows the co-authored network and the co-occurrence relations of subject headings and keywords through visual knowledge map.The results showed that Information retrieval research is in rapidly developing stage now.It had the clear researching topics and the significant difference among the regions in the research.The main influential learning leader has formed through the analysis of the development of information retrieval,looking for the research directions and the new hot spots would profit from this article.

〔Key words〕science and technology information;information retrieval;bibliometrics;mapping knowledge domain

情报工作的核心是情报检索。当前,针对情报检索所开展的研究中,不少成果以综述、评论、回顾和总结类的论文形式发表。这类文章对情报检索的研究成果进行了有效梳理,系统整理了情报检索的方法论,总结了情报检索研究的现状及成果。随着研究的进展,情报检索相关的文献数量已经非常庞大,综述类文献一般只能进行研究成果列举等定性分析;对整体领域的研究动态把握不足,所选取的样本往往无法覆盖研究领域的各个方面,数据不够全面[1],而针对多学科研究视角和研究方法创新方面,综述性文献也有其不足[2]。目前,文献调研已经由定性研究向定量研究转变,利用计算机数据挖掘技术,可实现高效精确的分析[3]。因此,我们有必要将情报检索的研究进行一个多层次、多学科视野下的数据梳理和分析,从而形成一个连贯、全面的研究体系。

本文对情报检索的研究以大量的文献数据为基础,基于文献计量思想,在技术统计数据的基础上形成可视化知识图谱。以此揭示情报检索相关领域主题词的分布以及作者之间的合著情况等信息,同时对该领域的概念延伸和研究热点进行分析。本文的研究以定量分析为主,定性分析为辅,通过对客观数据的定量分析,有效验证了以往学者采用定性分析法得出的分析结果,希望本文基于信息可视化方法的研究结论,能够有助于科技情报学界进一步把握情报检索领域的研究脉络和思路。

1数据来源与方法

11数据来源

本研究数据来源于SCI(Sciences Citation Index),SCI数据库由美国科学信息研究所于上世纪中叶创办,是著名的三大检索系统之一,其检索结果为学术界进行统计与评价时所公认。鉴于SCI在学术界具有相当的权威,可以作为对科技情报检索研究趋势的典型例证。因此本文选取SCI数据库作为数据来源。

本文使用Web of Science集成检索界面进行检索操作,检索字段定为“主题”字段,检索策略为“主题=(information retrieval)OR(patent retrieval)OR(bibliographic retrieval)OR(information search)OR(information technology)OR(informatics)OR(literature metrology)”,检索时间范围设定为1900-2015年,共计检索出121 376篇相关文献。

12数据清洗

数据清洗是文献计量工作的基础,且根据经验,数据清洗的工作量占据文献计量工作量的大部分。目前数据清洗可以采用人工清洗和计算机自动清洗两种方式,人工清洗效率低,准确度高,但无法应对大量文献集,计算机自动数据清洗效率高,但准确度不理想。一般所采用的数据清洗模式为计算机辅助人工清洗。

本研究中,数据清洗的主要任务是去除重复记录、无关记录、补充遗漏记录。由于所选用数据库为SCI,其对收录文献的重复记录控制较好,检索记录中基本不存在重复数据。故采用 “回溯方式”进行数据清洗,即在制定检索策略进行初次检索后,对检索结果进行分析,通过对“脏数据”出现的原因及形式的分析,回溯至检索阶段,制定数据清洗的方法及策略,去除与研究主题无关数据,循环实施,直至数据达到应用要求为止,最终得到103 733条符合要求的记录。

13文献计量方法

在情报检索领域中,将文献计量方法、统计学方法、可视化方法相结合,可对文献进行更深层次的统计分析,形成知识图谱[4],知识图谱可以直观图像的形式,对学科发展从不同角度进行剖析,其中需要运用系统化的数据采集和挖掘方法,对知识元素进行计量研究。

目前,已有一些软件可进行文献数据的可视化研究工作,主要针对规模较大的文献题录集合。例如,本文将采用Bibexcel进行计量分析和引文分析。通过对各类软件的试用,Bibexcel较适合于对文献进行批量处理,针对本次统计研究,需要先将与情报检索相关的基础数据以题录的形式进行下载,然后进行数据预处理,Bibexcel可将基础文献数据以矩阵形式呈现,数据矩阵最终可导入UCINET软件进行进一步分析,通过网络分析理论,形成合著网络数据和关键词共现网络数据,最后的可视化图谱生成可由Netdraw软件进行。所生成的网络图谱可以反映作者之间合著关系和情报检索的发展趋势。

2数据分析

21文献数量

在某一研究领域中,公开发表的文献数量是学科热度的标志之一,研究热点一般会产生较多文献,另外,文献发表数量的特定拐点,可能预示专业领域中的分支确立。在图1中,绘制了情报检索领域中1900-2015年的文献公开发表数量。1900-1956年间关于情报检索的研究文献为0,情报检索领域首篇文献产生于1956年,到2014年达到高峰,共有9 878篇相关文献发表;2015年有所回落,仍有超过9 000篇文献公开发表。从图1数据中看出,1990年之前论文数量较少但随时间起伏不大,表明1990年之前情报检索方法研究较平稳,既无热点事件也无衰退趋势;1990年以后情报检索方法的研究突然升温,每年均有显著增长,该时间点同互联网技术的兴起大致同步,因此有理由认为情报检索方法的研究与互联网革命有显著相关。而2009年达到阶段性高峰后,研究人员对情报检索的研究有所回落,但仍保持较高水平,可能受到了当前计算机科学和互联网技术的瓶颈限制。

22主题分布

在SCI数据库中,对于学科主题有较为明确的划分,主要依据是文献主题及关键词,在针对学科的科学分类基础上,形成了一个由粗到细的完备体系框架。从SCI所收录的整体文献库来看,有关情报检索主题的论文在超过100个主题类别中出现,若选取含10 000篇文献的主题为统计对象,结果如图2所示,依照数量排序,有5个主题包含较多的情报检索相关文献。根据图2所示数据解读,情报检索方面文献主要分布在计算机信息系统、图书情报学、人工智能、计算机科学理论以及电子工程等主题,其中计算机信息系统和人工智能占据了绝对的主导地位。

在计算机信息系统领域,学者们通过撰写情报检索理论的相关文献来解决情报检索的背景、情报检索基础理论、情报检索数学模型等一系列重要的、具体的研究问题。例如,BELKIN,NJ于1982发表了概述情报检索背景和理论研究的文章[5]。Lew,Michael S于2006年对基于内容的多媒体情报检索进行了探索研究[6]。MARON,ME于1960年就情报检索与相关性、概率型索引的关系进行了研究[7]。

在人工智能领域,学者们对图像检索、基于大众分类法的检索理论和情报检索向量空间模型等一系列的研究课图11900-2015年国内外文献产出量题进行了深入探讨。Salembier,P于2000年就采用二叉树表示图像处理、图像分割,情报检索进程的方法理论进行了研究[8]。Hotho,Andreas于2006年从大众分类法角度,对情报检索和分级排名进行了研究[9]。Castells,Pablo于2007年研究了基于本体的检索向量空间模型的适应性问题[10]。

在图书情报学领域,学者们主要在情报检索领域中研究情报数据之间的关系、认知理论以及行为学对情报检索方法论的影响。Ingwersen,P于1996年从认知角度研究情报检索的交互问题,分析了情报检索中的认知要素[11]。ELLIS,D于1989年从行为学方法论入手介绍了情报检索系统设计[12]。VANRIJSBERGEN,CJ于1977年主要对情报检索中共现数据的应用理论进行了研究分析[13]。

在计算机科学理论领域,学者们重点探索了比较前沿的多媒体信息检索、信息过滤和情报检索模型建立。Lew,Michael S于2013年研究了基于内容的多媒体信息检索[14]。BELKIN,NJ于2013年研究了情报检索中的信息过滤和垃圾信息去除[15]。2013年SALTON,G就情报检索的扩展布尔模型进行了研究[16]。

图3显示,在SCI数据库文献中,以情报检索作为主题的文献研究中,以计算机信息系统为研究方向的论文在1995年开始有大幅度增长,学者们开始就情报检索的背景、情报检索基础理论、情报检索数学模型等一系列问题展开研究。以人工智能为研究方向的论文在1995年开始有大幅度的增长,学者们对该主题的研究开始集中在对图像检索、基于大众分类法的检索理论和情报检索向量空间模型等一系列的课题。以计算机科学理论为研究方向的论文在2002年开始增长较大,学者们对该主题的研究主要从多媒体信息检索、信息过滤和情报检索模型等方面展开。而以图书情报科学为研究方向的论文则保持平稳的发展。在1995-2008年情报检索相关领域的各个主题的研究处于高峰期,可能与该期间的计算机技术和互联网技术迅速发展有关,这两方面的技术变革极大的改观了传统情报检索方式。

23期刊出版物分析

通过对JCR的分析,2015年,SCI共对3 000余种期刊进行了影响因子分析,其中情报学领域有116种期刊,计算机科学技术领域有333种期刊,超过600种期刊刊载了情报检索相关的文献。图4列举了发文量前十的期刊。根据布拉德福定律有关核心期刊的论述,情报检索核心期刊可划定在这些期刊中。

从各杂志每年的发稿数量来看,Lecture Notes in Computer Science以情报检索为主题的论文数量处于绝对领先地位,其他杂志发文数量呈波动性。在2009年后各杂志的相关发文数量均有回落,表明了该研究领域的热度下降。可以预见Lecture Notes in Computer Science在未来会成为情报检索研究的领头羊。

24被引分析

被引用频次不一定反映论文质量,被引频次高不一定质量高,但是影响力一般较大。因此高被引频次具有一定参考意义。表1列举了被引频次300以上的文献,从地域上看主要分布在美国、英国、荷兰,被引频次居首的是TASK COMPLEXITY AND CONTINGENT PROCESSING IN DECISION-MAKING-INFORMATION SEARCH AND PROTOCOL ANALYSIS,由美国学者PAYNE,JW发表。这篇文章从认知心理学的视角就情报检索和语言对负责决策的影响展开研究。使用两个流程跟踪技术,明确的信息搜索和口头协议,来检查信息处理策略主题以达成决策使用。在执行复杂决策任务时,使用的主题搜索策略符合补偿决策过程。

25国家和机构分析

由于不同地域优势不同,文献发表呈现出地域差别,某主题的发文量可能在某地域居多,这反映了在某一领域中,不同地域的水平差距。按照国别进行不同国家情报检索主题的文献统计,产出量从高到低为美国、中国、英国、加拿大、日本、德国、法国。其中,除中国外,其余国家均为发达国家,但中国为发文量仅次于美国的第二名,说明由于竞争情报、专利分析等信息服务在中国的推广,极大地促进了我国学术界对于情报检索方法论方面的研究。

26作者分析

论文发表一般呈现出少数学者生产大多数论文著作的现象,在学科逐步进展的同时,马太效应也会出现,这种少数学者发文量远多于大多数学者的规律,形成该领域的学术带头人现象,同时学科带头人的学术交流也非常活跃。

在SCI数据库以情报检索为主题的文献研究中,形成了以SPINK A、JARVELIN K、WILLETT P等为核心的高产作者,他们每个人的相关论文数量均在15篇以上。

在SCI数据库中,可进行作者频率统计,对主题为情报检索的文献进行作者统计,统计结果共计1 001人次,近300名作者发表文献5篇以上。作者合著网络关系如图9所示。从合著关系网来看Diaz-Galiano MC、Sanderson M在合作网络关系中居于中心位置,这说明学术交流及合作对其产生较大促进作用。从合作频次来看Bordogna G和Pasi G合作了11次,Fernandez-Luna GM和Huete JF合著了10次,合作频次居于前列。图8情报检索方法研究文献发文量15篇以上作者

27关键词分析

关键词的统计分析可以指示学科发展方向,经过统计,在1900-2015年间发表的情报检索相关文献中,关键词数量较多,达到1 000以上,将词频前10的关键词进行统计,如表2所示,词频前10的关键词数量占总比的141%。图10表示了关键词之间的共现关系,通过关键词共现分析发现,关键词以情报检索为中心,以本体论、扩展查询、算法设计为研究热点,各关键词之间高度相关。

3研究结论

情报检索理论方法是科技情报工作的核心。基于多年从事科技情报工作的经验和思考,本文对近数十年来情报检索的研究进展做概貌性描述。研究发现,学术界对情报检索的研究始于1956年,由于计算机和互联网技术的革命,1990年左右对于科技情报检索的研究有了突发式增长,对情报检索的工作方式产生了极大影响,计算机自动化操作和互联网信息获取取代了大量手工劳动,使情报检索的效率大大提高;通过对情报检索研究主题的分析表明:该领域研究主题主要集中在计算机信息系统、图书情报科学领域;通过对情报检索研究工作的地域分布进行统计,可知美国居于领先位置,在发文数量和质量方面都优于其他地区。中国具有一定的发文数量优势。同时,由于学术交流合作对于研究视野的开阔具有促进作用,中国学者可更多地展开同发达国家的学者的学术沟通,可优先选取在合著网络中处于中心的作者。依据本文的数据统计,在期刊杂志的选择方面,Lecture Notes in Computer Science、Information Processing Management等期刊是关于情报检索研究领域的重点投稿期刊,汇集了SCI数据库中最权威的期刊文献,可以重点向这些期刊进行投稿。在研究合作者的选择方面,可以重点争取与合著关系网络中的处于核心位置的作者进行合作,从合著关系网中看出,Diaz-Galiano MC、Sanderson M居于合著网络中的核心位置,显示了其在知识交换中获益最多。关键词词频趋势预示研究方向热点,本文绘制了关键词图谱,揭示了情报检索的未来研究热点,主要可能集中于本体论、查询扩展、算法设计等方面。

情报检索作为科技情报工作的核心,针对情报检索的研究还需要进一步的方法探讨,基于文献计量的定量研究是其发展方向,其中需要更多的使用自动化统计分析软件和可视化软件。同时限于数据库选择和样本收集的局限性,虽然SCI数据库具有较高权威代表性,但仍有遗漏可能;希望本文对情报检索领域的知识图谱分析,能够帮助研究人员开拓思路,在未来研究中进一步解决更多问题,改进不足。

参考文献

[1]崔智敏,宁泽逵.定量化文献综述方法与元分析[J].统计与决策,2010,(19).

[2]刘仲林.交叉学科分类模式与管理沉思[J].科学学研究,2004,(6).

[3]邱均平,沙勇忠.信息资源管理学[M].北京:科学出版社,2011:1-449.

[4]姚宏魏,海玥.基于科学知识图谱的盈余管理研究前沿分析[J].管理评论,2012,(6).

[5]Belkin N J,Oddy R N,Brooks H M.ASK for information retrieval:Part I.Background and theory[J].Journal of documentation,1982,38(2):61-71.

[6]Lew M S,Sebe N,Djeraba C,et al.Content-based multimedia information retrieval:State of the art and challenges[J].ACM Transactions on Multimedia Computing,Communications,and Applications(TOMCCAP),2006,2(1):1-19.

[7]Maron M E,Kuhns J L.On relevance,probabilistic indexing and information retrieval[J].Journal of the ACM(JACM),1960,7(3):216-244.

[8]Salembier P,Garrido L.Binary partition tree as an efficient representation for image processing,segmentation,and information retrieval[J].Image Processing,IEEE Transactions on,2000,9(4):561-576.

[9]Hotho A,J?schke R,Schmitz C,et al.Information retrieval in folksonomies:Search and ranking[M].Springer Berlin Heidelberg,2006.

[10]Castells P,Fernandez M,Vallet D.An adaptation of the vector-space model for ontology-based information retrieval[J].Knowledge and Data Engineering,IEEE Transactions on,2007,19(2):261-272.

[11]Ingwersen P.Cognitive perspectives of information retrieval interaction:elements of a cognitive IR theory[J].Journal of documentation,1996,52(1):3-50.

[12]Ellis D.;A behavioral approach to information retrieval system design[J].Journal of Documentation,1989,45(3):171-212.

[13]van Rijsbergen C J.A theoretical basis for the use of co-occurrence data in information retrieval[J].Journal of documentation,1977,33(2):106-119.

[14]Lew M S,Sebe N,Djeraba C,et al.Content-based multimedia information retrieval:State of the art and challenges[J].ACM Transactions on Multimedia Computing,Communications,and Applications(TOMCCAP),2006,2(1):1-19.

[15]Belkin N J,Croft W B.Information filtering and information retrieval:two sides of the same coin?[J].Communications of the ACM,1992,35(12):29-38.

[16]Salton G,Fox E A,Wu H.Extended Boolean information retrieval[J].Communications of the ACM,1983,26(11):1022-1036.

(本文责任编辑:马卓)

猜你喜欢
科技情报文献计量知识图谱
基于数据工程的国防科技情报生态体系构建
铜陵市科技情报工作存在的问题与发展对策
加强科技情报档案管理工作的建议
我国医学数字图书馆研究的文献计量分析
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展
基于创新环境下的科技情报研究