“一带一路”倡议下图书馆联盟研究综述
——基于共词网络分析

2019-11-21 01:50严承希张皓珏
图书馆 2019年11期
关键词:共词聚类一带

严承希 张皓珏

(北京大学信息管理系 北京 100871)

1 选题缘由与意义

图书馆联盟的理论研究起步较早且发展较为成熟。图书馆合作可以追溯到19 世纪80 年代,但“联盟”这个词直到20 世纪50—60 年代才在图书馆及科教领域的专业文献中出现。图书馆联盟的概念是用来形容多个图书馆为协调信息服务供应商,共享资源与服务,并游说政府以获得更多资金开展的图书馆合作[1]。1940—2017 年全球图书馆联盟相关研究的引文数和平均引用次数在1990 年后逐年呈现指数递增趋势;出版文献数的递增趋势则符合Price 提出的科学发展出现的“饱和现象”,2007 年后出现近10 年的停滞(局部出现衰退),说明图书馆联盟研究需要新的驱动引发下一个发展周期[2]。

2013 年,习近平总书记提出构建“一带一路”倡议,图书馆作为文化交流与传播的主阵地,加强与“一带一路”倡议合作国家图书馆的合作,建立高效、实际的图书馆联盟,是“一带一路”文化交流合作机制的重要内容。近两三年来,以“一带一路”为主题的图书馆联盟应运而生,由我国图书馆牵头构建的联盟就有金砖国家图书馆联盟、中国—中东欧国家图书馆联盟等。一方面,图书馆联盟实践界的这一趋势将会影响和推动理论研究的发展;另一方面,对图书馆联盟的理论探讨也会助推实践工作。因此,本文通过提取以图书馆联盟为主题的文献中的关键词,构建共词网络并进行聚类分析与Burst 激增分析,旨在识别“一带一路”倡议视阈下图书馆联盟的研究热点及未来趋势,为图书馆联盟的研究发展提供实证支持,也为“一带一路”倡议下的图书馆合作提供借鉴。

2 数据来源与研究方法

2.1 数据来源

本文数据采集于Web of Science 平台,数据库选择为SCI-Expanded、SSCI、A&HCI、CPCI-S、CPCI-SSH,检索时间区间为1940—2018 年,以“主题:(library consorti*) OR主 题:(library alliance)OR 主 题:(library cooperation)OR主 题:(library collaborat*) OR 主 题:(collaborative librar*)OR 主题:(cooperative librar*)”为高级检索式,精炼条件为“文献类型:(ARTICLE OR PROCEEDINGS PAPER),类别:(INFORMATION SCIENCE LIBRARY SCIENCE)”,学科类别为情报与图书馆科学,共2 527 篇文献,记作All。笔者将政府公布的“一带一路”官网收录的68 个国家或地区作为筛选依据,得到相关文献共380 篇,记作B&R(数据采集截止时间为2018 年7 月31 日)。

2.2 研究方法

2.2.1 研究路径

第一步,对All 数据集与B&R 数据集中的文献分别提取关键词;第二步,利用Sati 软件进行关键词词频统计,得出高频关键词列表并构建高频关键词共现矩阵;第三步,构建共词矩阵;第四步,在共词矩阵的基础上,进行聚类分析和Burst 激增检测;最后,根据聚类结果和Burst 激增结果,对“一带一路”倡议下图书馆联盟研究的热点、主题和发展趋势进行比较、分析。

2.2.2 技术基础

(1)共词分析

共词网络是传统文献计量学中“词”层面的内容特征分析方法。共词分析从本质上属于内容分析方法的一种[3],通过对高频主题词之间的关系强度进行计算,反映热点词汇之间的关联情况。

本文采用相互包容指数法,即通过Equivalence 系数来度量术语的共现情况,具体公式如下:

其中,Cij为Ci和Cj同时出现的频次,Ci和Cj分别是主题词i 和j 出现的频次,Eij代表Ci和Cj之间的相似系数[4]。

采用Donohue 高低频词分界算法对已有的全量共词网络进行范围控制[5],具体计算公式如下:这里I1表示出现1 次的词频数量,n 为临界指数,即待选择的最优参数。

(2)聚类分析

共词网络研究一般对高被引的特征项进行聚类,从而生成独立的概念团。团簇包含的聚类术语可以作为类别特征,结合类中的高频术语可以在一定程度上发现学科领域热点和前沿方向。本文采用“GN”社区检测算法[6],并引入模块度Q[7],通过不同的聚类参数对聚类模型进行评价,选取最优参数聚类结果。模块度Q 值的计算公式如下:

其中,m 表示边数,ki表示节点i 的度数,A 则为邻接矩阵,δ 为狄拉克脉冲函数。

(3)Burst 激增检测

Burst 激增检测算法最早由John Kleinberg 在2003 年国际顶级年会知识挖掘与发现会议(KDD’03)上提出的[8],主要用于解决和抽取离散或者连续数据流出现的序列信号突变问题,常用于主题追踪与检测应用[9]。本文采用的批量检测公式具体如下:

其中,σ 表示状态qi(这里仅存在q0——非激增状态和q1——激增状态)的状态成本,而burstWeight 则为时间戳t1 到t2 之间的突发度,表现为状态成本迁移差值。

3 图书馆联盟研究的热点发现

3.1 聚类构建

本文选取以研究图书馆联盟为主题的文献中的关键词作为热点发现的分析对象,通过自然语言处理和数据过滤,对“图书馆联盟”的All 数据集按照关键词词频大小和分布进行统计,总计2 466 个关键术语,并运用式1 和式2 构建共词矩阵,结果见表1。

表1…………关键词共词矩阵(部分)

根据共词矩阵,本文采用式3 选取最佳聚类参数,图1结果显示,对于总体样本数据,当聚类数目为19 时,Q 达到全局峰值0.291;对于“一带一路”国家的相关共词网络而言,最佳聚类数为7(Qmax=0.361)。本文在相应最佳聚类数目的条件下,对两个网络进行GN 聚类。

图1…………Girvan-Newman 聚类模块度Q 评价

3.2 聚类结果分析

文章按照类簇由大至小,选出All 数据集和B&R 数据集中排名前5 名的聚类,结果如表2 所示。聚类结果显示:按照聚类大小排序和聚类术语之间的知识关联,目前关于图书馆联盟的研究热点分布主要涵盖信息管理与技术应用、信息服务与出版传播。不同国家研究的主要内容基本相同,但具体方向呈现差异。

3.2.1 信息管理与新技术应用(1)B&R:图书馆联盟的馆际互借和文献传递的运营模式受到较多关注

从B&R 数据集中的联盟(Consotia)、资源共享(Resource Sharing)、馆际互借(Interlending Interlibrary Loan)、文献传递(Document Delivery)、中国高等教育文献保障系统(CALIS)、评价(Evaluation)、市场(Marketing)等热点词汇可以看出,中国高等教育文献保障系统(China Academic Library & Information System,简称CALIS)是“一带一路”合作国家图书馆联盟的典型实践,并在理论研究界获得了较多关注,71 个成员馆的馆际互借和文献传递运营模式已成为中国图书馆协作与互联的代表作[10]。

(2)All:图书馆联盟的信息管理与新技术应用结合紧密

从All 数据集的热点词汇万维网(Worldwide Web)、数字图书馆(Digital Libraries)、数字贮存(Digital Storage)可以看出,以英国、加拿大学者等为代表的研究团队在分类法(Cataloguing)、信息检索(Information Retrieval)、信息管理(Information Management)等领域与新技术应用结合,不断取得极具影响力的成果。例如,加拿大学者Detlor B 讨论了智能代理在网络图书馆环境下信息检索与信息搜寻中的促进作用,提出了一种通用代理模型,以支持图书馆联盟中馆藏的跨库检索功能[11];思克莱德大学基于“使所有公民随时获得电子信息、学习和研究材料”这一愿景成立了大学数字图书馆研究中心,运用网络技术建立协作效率高、操作性便捷、便于访问的图书馆联盟服务体系[12]。

表2…………GN 聚类知识热点(部分)

对比All 数据集和B&R 数据集发现,“一带一路”成员国尤以中国学者为代表,其研究方向侧重于图书馆联盟馆际互借和文献传递的运营模式,而非成员国家如英国、加拿大学者的研究方向则侧重于图书馆联盟中的新技术应用,这也符合“一带一路”成员国大多是发展中国家,图书馆联盟起步较晚、发展相对滞后的背景。另外,不同于图书馆联盟发展较成熟的英国、加拿大等国,“一带一路”成员国更为关注的是如何做好馆际互借、文献传递等基础服务,这也是构建新的联盟首先要解决的问题。

3.2.2 信息服务与出版传播

(1)B&R:“网络分析”大量应用于图书馆联盟的科学评价和知识管理与服务研究

在B&R 数据集中,从资源(Resources)、信息服务(Information Services)、社会网络分析(Social Network Analysis)、信息素养(Information Literature)、万维网(Worldwide Web)、文献计量(Bibliometrics)、作者共著分析(Co-authorship)、图书情报学(Library and Information Science)等热点词汇来看,中国、印度、韩国等学者关于信息服务的研究将“网络分析”的量化研究方法大量应用于图书馆联盟的科学评价和知识管理与服务研究中。例如,Lee 基于社会网络分析构建出韩国公共图书馆的关键词网络,以评价韩国公共图书馆间的科研合作[13];Kirlidog M 通过wos 的文献资源统计、引文量和出版物数量等来研究土耳其的科学产出水平,特别是在电子资源获取和图书馆联盟方面所取得的进展情况[14]。

(2)All:将开放存取与图书馆联盟的服务创新紧密联系

开放存取已经成为世界各国关注的重点前沿问题。在All 数据集中,从开放存取(Open Access)、创新(Innovation)、通讯(Communication)、出版(Publishing)和图书馆服务(Library Services)等热点词汇来看,加拿大、英国、德国等研究团队将图书馆联盟的服务创新与开放存取紧密联系。在国际图书馆联盟联合体(International Coalition of Library Consortia, ICOLC)网站公布的188 个图书馆联盟中,参与数字出版的有88 个,占47%[15]。例如德国Karlsruhe大学图书馆开发了可检索26 个德国大学机构典藏的“科学文献的开放存取”[16]。

对比All 数据集和B&R 数据集发现,“一带一路”合作国家中国、印度、韩国等国家的学者们关于图书馆联盟的信息服务与传播研究侧重于科学评价和知识管理与服务研究,说明重视科研合作、提高用户信息素养,既是“一带一路”图书馆联盟的重要任务,也可以为联盟开展其他服务奠定良好基础。而对于大多数非“一带一路”国家的图书馆联盟来说,自身发展的深度、广度及用户素养都要优于发展中国家,因此他们的关注点也反映出信息传播与出版模式的转变,即由纸质版文献收费模式,不断向电子化期刊公开免费的发展过程。

4 图书馆联盟发展趋势预测

4.1 Burst 激增检测

主题词的词频增长率的变化本质上体现了研究前沿中热点信息的动态走向。因此知识领域的科学发展趋势和变化可以根据主题术语和突现词的共现关系来实现[17]。本文运用式4 对图书馆联盟文献数据集All 进行数据建模(两类分别为“是”或者“否”突发词),其中s 为(0,1]区间的常参,率参数比系数α 取默认经验值2,突发权重取前5%(突发度大于3),python 代码所获取的激增术语结果如下:

表3…………不同S 权值下的Top5%…Burst 激增检测结果

由表3 分析可得:突发词的突发起始时间多是近5、6 年之前(即2011 年后),随着参数s 的调整,模型结果保持一定的稳定性,此时突发词如馆际互借(Interlibrary Loan)、知识服务(Knowledge Service)、科学合作(Scientific Collaboration)、模式(Pattern)等无论在突发时间或者突发度上都排名靠前,表明它们是近5 年以来图书馆联盟发展的重要研究领域和主题。其中馆际互借、知识服务、出版模式、科学合作等词一直以来都是图书馆联盟研究的热点词汇,而文献采购模式与出版模式的改变、“超级联盟”的出现、大数据时代的来临与近年来各国图书馆越发意识到提供深层次知识服务的重要性等都可能是引发上述词汇突变的原因,因此,如关于读者决策采购模式(Patron Driven Acquisition,PDA)[18]、开放存取[19]、超级联盟[20]、运用MapReduce 挖掘有效知识等研究[21],成为未来图书馆联盟的发展趋势之一。

4.2 激增检测结果优化分析

表3 所示的突变词只反映出图书馆联盟研究未来的主题领域,对于图书馆联盟研究趋势和方向的预测,仍需更具意义和专业指向的突变词。因此,在表3 的基础上,笔者进一步选择s 为0.8 时的突变词作为分析对象,并通过专家识别出解读性较强的突变词汇,如表4 阴影所示,主要包括:

(1)科研合作研究

从文献计量分析(Bibliometric Analysis)、学科交叉度(Interdisciplinarity)、共词分析(Co-word Analysis)和共引分析(Co-citation Analysis)等突变词可以看出,图书馆联盟科研合作研究是未来的研究趋势之一。主要方向有:利用内容分析法和作者共著分析法探索图书馆实践者与研究者的异化和合作问题[22],运用直接引用、引文耦合和合著分析三种文献分析方法对图书情报领域进行跨学科度分析[23],采用Brillouin's 系数分析对信息科学领域进行交叉学科度分析[24],通过共词分析方法进行知识结构分析[25]、图书情报机构研究核心识别[26]、作者共引分析[27]等。

(2)学科服务研究

学术交流(Scholarly Communication)、科研数据管理(Research Data Management)等突变词为代表的学科服务研究是未来图书馆联盟研究的趋势之一。例如研究型图书馆未来的发展策略研究[28],大学数字化学术交流中的电子出版合作研究[29],建立为教学和科研提供线上数据支持的新型图书馆联盟研究[30],对图书馆与科研数据管理实践探索的梳理和趋势预测[31]等。

(3)信息服务研究

突变词为代表的信息服务研究也是未来图书馆联盟研究的重要趋势。例如公共图书馆联合参考咨询中关于问题分类回答的有效性研究[32],用户对于联合虚拟参考咨询服务的推荐服务满意度研究[33],通过大学公布的培训计划进行信息素养水平分析研究[34],运用iSkills 标准化技术评估学生的信息能力[35],探索图书馆信息能力培养的新模式[36]等。

表4…………Burst 激增监测(s=0.8)

5 总结与展望

本文基于共词网络分析,探讨了近70 年图书馆联盟研究的热点与趋势,并选取“一带一路”国家文献作比较分析,识别“一带一路”倡议下图书馆联盟研究的侧重点。总体来说,图书馆联盟的研究热点主要涉及信息管理与新技术应用、信息服务与出版传播。“一带一路”合作国家图书馆联盟的研究相对滞后于全球范围内图书馆联盟研究,但中国、印度、韩国等国家发展迅速,尤其是中国CALIS、CASHL、NSTL 等图书馆联盟的成立,推动了图书馆联盟研究的快速发展,在“一带一路”合作国家中处于领先地位。而“一带一路”国家对馆际互借、文献传递、信息素养等研究方向的侧重,也体现出在目前形势下建立跨区域跨文化的图书馆协作交流机制,亟待解决信息资源共建共享等核心问题。图书馆联盟未来的研究趋势向科研合作、学科服务和信息服务的方向发展,体现了图书馆联盟的服务从文献服务到信息服务再到知识服务的过渡与升级。对于“一带一路”倡议下的图书馆联盟来说,其发展既需要打破政策、体制、文化、语言的壁垒,也离不开传统图书馆服务协作的沉淀与积累。

本文对实证模型的参数等均采用了优化选择排序,并围绕“一带一路”倡议下的“图书馆联盟”展开多角度逐层量化分析,对探索和理解“图书馆联盟”这一重要图书馆学研究课题提供了新的视角和参考。但是这种方式是初探性质的,不免存在一定局限性。未来我们将结合引文分析、期刊分析等分析维度,力争对“一带一路”倡议下图书馆联盟体系的构建进行进一步阐述。

猜你喜欢
共词聚类一带
一带一路风光无限
基于K-means聚类的车-地无线通信场强研究
“一带一路”我的梦
ДОВОЛЬНО ЗАПРЯГАТЬ,ПОРА ЕХАТЬ!
图书馆与档案馆信息公开研究重点及趋势比较研究
基于Matlab的共词矩阵构造
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
基于加权模糊聚类的不平衡数据分类方法
“走出去”能否搭上“一带一路”这趟车?