2000-2009年我国情报学研究的实证分析

2011-08-05 06:41樊浩
现代情报 2011年7期
关键词:多元统计分析共词分析情报学

樊浩

[摘要]本文采用词频统计和共词分析法,利用SPSS为数据统计和分析工具,以我国情报学领域5种核心期刊近10年刊载文献为样本,对我国情报学领域主要研究内容和研究热点作了分析,并概括出目前情报学技术化、理论化、宽泛化3个特性。以期能为我国情报学领域论文选题、科研立项及学科规划提供参考依据。

〔关键词〕词频分析;共词分析;多元统计分析;情报学

DOI:10.3969/j.issn.1008-0821.2011.07.040

〔中图分类号〕G250.2 〔文献标识码〕A 〔文章编号〕1008-0821(2011)07-0163-06

The Empirical Analysis of Information Science in China from 2000 to 2009Fan Hao

(School of Information Management,Sun Yat-sen University,Guangzhou 510006,China)

〔Abstract〕By word frequency statistics and co-word analysis,this paper used SPSS statistical and analytical tools,with five kinds of information science in core journals published literatures in recent 10 years as samples,analyzed the contents and research hotspots of the information science,and briefly summarized the current development situation of Information Science,hoping to provide some reference for information science in this field餾 article expatiates,scientific research project and discipline planning.

〔Keywords〕word frequency analysis;co-words analysis;multi-analysis;information science

情报学在我国已有半个多世纪的发展历史,并取得了一系列的研究成果,很多学者对情报学的发展历程及现状做了研究总结[1-5],但大部分所采用的定性总结的方法不能反映文献所隐含的内在信息。本文以SPSS为统计分析工具,采用关键词词频统计、共词分析方法,对我国情报学领域5种核心期刊十年来所刊载文献中的关键词词频和共现频次进行统计分析, 探讨分析2000-2009年我国情报学研究内容的发展变化,科学地反映了目前我国情报学领域主要研究内容和研究热点,概括出情报学发展的特性,为我国情报学领域论文选题、科研立项及学科规划提供决策支持。

1 数据来源与分析方法

1.1 数据来源

一个学科的核心期刊能够较全面的反映该学科的研究热点与水平。为保障本研究的科学性,本文选取了2000-2009年中文社会科学引文索引(CSSCI)来源期刊中的《情报学报》、《情报科学》、《情报理论与实践》、《情报杂志》、《情报资料工作》5种情报学专业核心期刊所刊载的文献为研究样本。本文所有数据均来源于中国知网(CNKI),在检索时选择期刊年限与来源期刊为检索控制条件,获得除会议通知、会议报道、征文通知等消息类文献的全部学术性研究文献,将这些文献的题录(作者、题名、摘要、关键词、期刊名等)导出保存为文本文件。为了保证研究结果真实可信,删除了没有关键词的文献题录,最后得到学术文献题录15 682条。利用SPSS统计软件对获得的数据进行了分析处理。

1.2 分析方法

词频分析法是利用能够揭示或表达文献核心内容的关键词或主题词在某一研究领域文献中出现的频次高低来确定该领域研究热点和发展动向的文献计量方法[6]。关键词或主题词是论文的文献检索标识,是表达文献主题概念的自然语言词汇,在很大程度上反映了论文的主要研究内容,在大量同领域论文的关键词集合中,隐含着该学科的研究现状、热点、发展规律和趋势等线索,如果某一关键词或主题词在其所在领域的文献中反复出现,则可反映出该关键词或主题词所表征的研究主题是该领域的研究热点[7]。

共词分析方法最早是在20世纪70年代中后期由法国文献计量学家M.Callon J.Law和A.Rip[8]提出的。经过30多年的发展,共词分析方法已经成为一种成熟的文献计量方法。它的原理主要是对出现在同一篇文献中的,能够代表本领域研究主题或方向的一组词进行两两统计,出现的次数越多则关系越亲密,次数越少则关系越疏远,以此为基础对这些词进行聚类分析,进而分析这些词所代表的学科和主题的内容变化。学者们已经利用共词分析方法产生了大量的应用成果,如人工智能、科学计量学、信息科学和信息系统、信息检索等领域。

2011年7月第31卷第7期2000-2009年我国情报学研究的实证分析July,2 基于关键词的词频统计

《情报理论与实践》2000-2003年所刊载的文献其关键词均为英文,为了便于统计分析,结合文献题名与摘要将这些关键词译成中文,再利用统计工具,将上述5 种情报学专业期刊2000-2009年间每年刊载的学术论文所有的关键词按词频高低进行排序。为了消除不同年份论文数波动所造成的影响,笔者以某年度每个关键词出现的次数占当年论文总篇数的百分比作为该年度该关键词的词频值(见表1)。并将10年来所有文献全部关键词按总词频的高低排序输出。表2列出了累计频次达到所有关键词总频次20%的高频关键词。

从表1可以看出,10年来情报学研究热点主要包括数字图书馆、信息服务、高校图书馆、竞争情报、网络、信息资源、信息检索、知识管理、本体、数据库、电子政务等。

表2 累计频次达总关键词频次20%的高频词

排序关键词频次排序关键词频次排序关键词频次1图书馆1 22416数据挖掘21731Web1322数字图书馆81817企业21132对策研究1273信息服务71118信息技术21133知识服务1244知识管理64819信息19334信息产业1225高校图书馆53520电子政务19035比较研究1216信息资源48021信息管理19036知识共享1157竞争情报41322本体18337信息资源管理1148信息检索36623信息系统18238因特网1099网络36224中国18039评价10810网络环境33225知识经济16140网络信息10411情报学31926元数据16041图书馆学10412电子商务26827知识产权15742理论研究10313信息化23228信息组织14443企业信息化10214搜索引擎23029XML14444图书馆管理10215数据库22430网络信息资源13645引文分析99

3 基于共词矩阵的研究热点分析

表2所示的关键词在情报学领域文献中出现频率最高,一定程度上代表了10年来我国情报学的研究热点,但仅按出现频次对这些词线性排列,还不能全面反映它们之间的关系。为了更好的描述高频关键词所隐含的内容,我们采用共词分析方法来揭示目前我国情报学所研究的主要内容。首先,两两统计45个高频关键词出现在同一篇文献中的次数,形成共词矩阵并根据需要转换为相关矩阵;其次,运用多元统计方法对转换后的相关矩阵进行分析处理,生成聚类图;最后,分析聚类图,揭示我国情报学目前研究的主要内容。

3.1 构建共词矩阵

利用统计工具,对表2所示的45个高频关键词统计出它们在15 682篇学术论文中两两同时出现的频次,形成一个45×45的共词矩阵(部分数据如表3所示)。该矩阵为对称矩阵,对角线上的数据为该词出现的总频次,如关键词图书馆共出现了1 224次,它与数字图书馆同时在26篇论文中出现,即表示有26篇论文同时使用了图书馆与数字图书馆这两个关键词。

表3 高频关键词共词矩阵(部分)

高频关键词图书馆数字图书馆信息服务知识管理高校图书馆信息资源图书馆1 2242616360152数字图书馆2678731121134信息服务16331711107335知识管理601210648132高校图书馆111731353514信息资源523435214480

表3中列出关键词两两共现频次,反映的是一种表象,因为两个关键词共现频次的多少直接受两个关键词各自词频大小的影响。为了消除频次悬殊造成的影响,用Ochiia系数[9]将共词矩阵转换成相关矩阵,即将共词矩阵中的每个数字都除以与之相关的两个词总频次开方的乘积,其计算公式是Ochiia系数=A、B两词同时出现频次/(A次出现的总频次×B次出现的总频次)1/2。如关键词图书馆和数字图书馆的Ochiia系数=26/(1224×787)1/2=0.0265。对角线上的数据表示某个词与自身的相关程度,经过换算得1。为了便于统计,再用1减去每个数字,这样对角线上的数变为0,如表4所示,限于篇幅,仅列出部分。

3.2 研究热点分析

借助SPSS统计软件,对转换后的共词矩阵进行处理,主要采用的方法是因子分析和和聚类分析方法。

3.2.1 因子分析

因子分析于1931年由Thurstone首次提出。因子分析的基本目的是用少数几个因子去描述多个变量之间的关系,被描述的变量一般是能实际观测到的随机变量,而那些因子则是不可观测的潜在变量。因子分析反映了一种降维的思想,通过降维将相关性高的变量聚在一起,不仅便于提取容易解释的特征,而且减少了需要分析的变量数目,降低了分析问题的复杂性。

将转换后的共词矩阵导入SPSS统计软件中,选取主成分分析法进行分析,碎石图如图1所示。从碎石图来看,提取5~7个因子较为合适。图1 因子个数碎石图

3.2.2 共词矩阵的聚类分析

聚类是将某个对象集划分为若干组的过程,使得同一个组内的数据对象具有较高的相似度,而不同组中的数据对象是不相似的。系统聚类是一种逐次合并类的方法,在规定了样品之间的距离和类与类之间的距离后,先让N个样品各自成为一类;开始时,因每个样品自成一类,类与类之间的距离与样品之间的距离是相等的;然后,将距离最近的两个类合并;如此重复,每次循环减少一个类别,直到达到某个类水平数时停下来,在此得到的聚类就是分析的结果[10]。SPSS自动将各类间的距离映射到0~25之间,并将凝聚过程近似地表现在图上。聚类分析的结果可以反映这些关键词之间的亲疏程度,将“亲缘关系”较近的关键词重新组合起来,能反映出这些关键词所代表的主题结构,从而获得目前我国情报学研究的热点[11]。

本文采用分层聚类方法,参数设置方面选择欧氏距离平方作为变量距离的测度方法,类间距离的计算方法采用组间连接,根据碎石图指定聚为5~7类,聚类结果如图2所示。

3.2.3 聚类结果分析

结合高频关键词的共词矩阵(表3)和层次聚类分析树状图(图2),并对其共现文献进行深入分析,可以揭示目前我国情报学的主要研究内容与研究热点。

(1)图书情报学基础理论研究

从图2可以看出,情报学与图书馆学距离最近。在当今数字环境中,“图书馆学”与“情报学”的融合发展已成为世界性潮流[12]。在理论基础、研究方法、分析内容与学科性质方面,“情报学”与“图书馆学”有着很多的相似点。一直以来,学术界存在着学科研究对象认识不统一、范围泛化、学科定位不清楚的固疾。同行学者们潜心致力于图书情报学基础理论的研究,从不同方面、不同层次对该学科的研究对象、内容、范围、研究方法、学科与思想体系进行探讨,对图书馆、情报、信息、资源、知识、数字、文献的基本概念,它们之间的区别、联系与特点等进行辨析,使图书情报学理论体系建设迈上了新高度[13]。

(2)网络环境下的信息检索

信息检索一直是情报学领域的核心内容,10年里共有366篇文献使用了该关键词。目前,跨语言信息检索、语义检索、与数据挖掘相结合的信息检索等都是该领域的研究方向。这反映了信息检索的专业人员不仅仅关注传统意义上的检索问题,其视野已拓展到搜寻、浏览与检索网络环境中的更广阔的信息资源。网络环境下信息检索的应用正在走向成熟。

(3)技术的大量应用

现代化信息技术在情报学研究领域得到广泛应用。聚类图中“元数据”、“XML”、“Web”、“数据挖掘”等聚成一类,表明我国情报学呈现出明显的技术化趋势,传统的研究应用工具已被现代信息技术所取代。然而,技术只是解决问题的手段,情报学发展的根本动力应该是基础理论研究。国外情报学研究已经改变“技术至上”的倾向,开始探索技术与理论、技术与人文、技术与经济并重的模式。

(4)竞争情报研究

竞争情报诞生于80年代,其标志为美国1986年成立的“竞争力情报专业人员协会”。作为情报学的一个分支学科,我国竞争情报研究已取得了丰硕的成果,其研究主题主要包括:竞争情报理论研究,竞争情报方法,竞争情报技术,竞争情报应用研究,竞争情报教育与人才,反竞争情报研究等。从图2看出,竞争情报应用研究特别是中小企业竞争情报应用成为关注重点。这说明,我国竞争情报研究正在突破理论层面的研究,开始理论联系实际。

(5)高校图书馆、数字图书馆建设及服务

网络时代的到来,对高校图书馆、数字图书馆的建设提供了新的契机,与此相关的电子服务也成为情报学领域的研究对象。图书馆中电子资源不断增加,图书馆馆际互借、资源共享、及不断增长的用户需求等使得图书馆的发展成为情报学的研究热点;高校图书馆外部环境的变化及丰富的内部资源等多种因素,也引起了情报学者的广泛关注。

(6)知识管理

知识经济的发展带动了知识管理的发展,知识管理成为情报学研究对象始于1999前后,到2004年左右达到了高潮。知识管理与知识服务密不可分,知识管理的目的是围绕知识增值与创新,为读者提供专业化、个性化的知识服务,而图书情报工作核心能力的定位是知识服务,这样看来对知识管理的研究还有上升的趋势。

4 结 语

本文以2000-2009年国内情报学领域文献的高频关键词为数据基础,通过词频分析方法、共词分析方法对研究热点进行了分析,以期望能够清晰地揭示出近十年国内情报学领域内主要研究内容与研究热点,并概括了情报学的发展特性。

4.1 技术化

情报学越来越趋向于定量研究,技术化是情报学发展不可避免的趋势。新兴技术为情报学技术化趋势提供了可能。

4.2 理论化

情报学理论性极强,实际应用效果反而不显著。应当注重理论联系实际,将情报学理论运用到现实生活中。

4.3 宽泛化

情报学与其他学科交叉、渗透、整合的趋势越来越明显,在情报学发展过程中,一方面引入了其他学科的理论、方法,使得情报学出现了许多新的分支学科和研究热点,极大的丰富了自身的研究领域;另一方面却与这些交叉学科展开了激烈的竞争,甚至面临着被众多学科蚕食的危险,给情报学的发展带来了危机。图2 聚类树状图参考文献

[1]严怡民.情报学研究现状与展望[J].情报学报,1994,13(1):6-12.

[2]靳娟娟.情报学学科建设研究历程的回顾与展望[J].图书情报工作,2003,(10):31-36.

[3]段宇锋,寇功杰.中国情报学研究的继承与发展(1990-2005)[J].情报学报,2008,27(2):285-294.

[4]刘旭旭.我国情报学研究的发展状况[J].情报理论与实践,2005,(6):577-580.

[5]雷银枝.对我国情报学学科发展现状的几点思考与建议[J].图书•情报•知识,2007,(5):70-73.

[6]马费成,张勤.国内外知识热点研究——基于词频的统计分析[J].情报学报,2006,(4):163-171.

[7]邱均平,丁敬达,周春雷.1999-2008我国图书馆学研究的实证分析[J].中国图书馆学报,2009,(5):72-79.

[8]Callon M,Law J,Rip A.Mapping the Dynamics of Science and Technology:Sociology of Science in the Real World[M].Macmillan,1986.

[9]曹玲,杨静,夏严.国内竞争情报领域研究论文的共词聚类分析[J].情报科学,2010,(6):923-925.

[10]杜强,贾艳丽.SPSS统计分析从入门到精通[M].北京:人民邮电出版社,2009.

[11]Newman,MEJ.Coauthorship networks and patterns of scientific collaboration[J].PNAS,2004,101(1):5200-5205.

[12]陈传夫.改革开放三十年我国图书情报学教育的发展[J].图书情报知识,2008,(9):9-12.

[13]郑俊生.2009年我国情报学图书馆学研究热点分析[J].图书馆工作与研究,2010,(3):169-173

注:“本文中所涉及到的图表、公式、注解等请以PDF格式阅读”

猜你喜欢
多元统计分析共词分析情报学
开放与融合:公安情报学进入情报学方式研究*
构建中国特色的情报学
多元统计分析方法在证券投资中的应用
数据挖掘技术在情报学领域的应用
知识管理视域下的图书情报学研究