基于CiteSpace 的Web of Science 图书情报领域的主题探测

2021-03-25 08:04马宇驰吉林财经大学图书馆
图书馆理论与实践 2021年2期
关键词:社交文献领域

马宇驰(吉林财经大学图书馆)

1 引言

分析某一学科在特定时间段的热点,能够帮助专家学者迅速梳理领域知识结构、明晰主流研究项目、把握该领域在当前及未来一段时间的发展趋势。

目前,国内对于图书情报学(Library and Information Science,LIS) 的行业热点展望常见于领域内某个主题的演进回顾、分析及前瞻。如,奉国和等运用CiteSpace,以CSSCI 为数据库检索源,对国内机构知识库研究文献进行分析,识别了机构知识库领域核心期刊、研究团队、关键节点文献等知识演进要素[1];肖荻昱以CNKI 数据库为检索源,利用CiteSpace 绘制了图书馆智库领域的文献作者、机构、关键词及研究前沿图谱[2];胡浪基于CNKI 的数据,通过CiteSpace 呈现了国内图书情报学的研究现状,指出了计量学在图书情报领域中的增长态势[3];苏福等运用CiteSpace,对2014—2015 年被Web of Science(WoS)收录的图书情报学期刊进行分析,绘制出当年的领域研究热点[4];2014 年,孙杰等对SSCI 收录图书信息学Top5 的期刊进行CiteSpace 关键词聚类分析,并与国内学者在国际期刊中的发文热点进行对比,总结学界发展过程中的异同[5]。前人的研究或基于国内数据源、或未经过相应的数据清洗流程、或数据截取的时间跨度短、或因撰写时间久远而削弱了对当下借鉴的时效性。本研究尝试运用数据清洗方法、网络密度分析结合时序分析法,剖析近五年图书情报学在SCI 优质期刊中的研究主流及研究热点,为该领域的相关研究提供一定的借鉴。

2 数据来源与方法

2.1 数据源

以WoS 和其期刊引文报告(Journal Citation Reports,JCR) 作为数据来源。WoS 按主题将其收录的期刊大致分为250 个学科类别,每份期刊和书籍都至少属于一个学科类别。在2018 年版的JCR 中,共236 个类目,包含图书情报学(Information Science&Library Science,LIS)类目的数量为1,此类目下包含期刊出版物的数量为89 个。

2.2 期刊选取原则

作为权威的文献计量大学排行,荷兰莱顿大学科学技术研究中心(Centre for Science and Technology Studies,CWTS)及美国免费期刊信息分析平台Scimago 发布的排行报告在选取优秀出版物的过程中,均将专业领域内前10%这一比例作为选取依据[6]。因此,本研究同样采用了“10%”作为抽取比例,即选取10 个期刊,按照JCR 的期刊影响因子(Journal Impact Factor)数值降序排列(见表1)。

表1 2018 年图书情报学影响因子TOP 10 期刊

在WoS 中的检索策略为SO=(International Journal of Information Management) or SO= (Journal of Computer-Mediated Communication) or SO=(Journal of Knowledge Management) or SO= (MIS Quarterly) or SO= (Government Information Quarterly) orSO=(Journal of The American Medical Informatics Association) or SO=(Information&Management) orSO= (Journal ofStrategicInformation Systems) or SO= (Information Processing&Management) orSO=(Journal ofInformetrics)。检索时间截止到2019 年12 月24 日,时间跨度为最近 5 年,索引为SCI-EXPANDED、SSCI,共检索到文献4,060 篇。在WoS 的数据导出界面中选择“全记录与引用的参考文献”,文件格式选择“纯文本”,由此得到用于共现分析的数据文件。

2.3 应用工具

CiteSpace 是知识可视化的表现手段,其工作原理是应用论文中关键词的词频统计及共现分析、文献的共被引分析等理论,同时结合聚类分析、应用数学分析方法、图形学等信息可视化技术,形成对知识内在结构的描绘和对知识间相互联系的揭示。作为计量学在实践领域的一项应用,CiteSpace 常被用于两个方面:① 某学科或多学科交叉下的研究主题发现、热点定位及前沿趋势探析;② 学科覆盖下的杰出科研人员、优势科研机构和国家的可视化标识,以及科研人员之间、机构国家之间的合作共现显示。

3 结果

3.1 数据清洗结果

应用文献目录数据分析某一领域热点的研究已广泛开展,但由于数据质量优劣不一,基于该方法的结果的效度难以得到保障。潘玮等构建了数据清洗的“DEAN”流程,清洗4 类数据对象,即来自同一数据库或多数据库间的重复(Duplicates) 条目,不符合检索需求的文献类型或检索策略错误(Errors) 记录,具备相同语法或语义概念的同义不规范关键词(Alias),含有子网或低频次阈值的噪声干扰关键词(Noises),并证实该流程提升了对于研究主题识别的有效性和准确性[7]。

按照“DEAN”数据清洗步骤,本次数据清洗的流程及结果见表2。

表2 “DEAN”流程各环节功能及结果

将清洗后的数据导入CiteSpaceV,在功能参数区中将时间切片中的时间范围设置为“2015-2019”,时间切片为 1 年,节点类型(Node Types) 按照分析对象先后选取“Institution”“Author”“Keyword”等,每个时间切片选择“Top 50”,连线强度选择“Cosine”,然后进行数据分析,在可视化的数据分析界面,文献的关键词以节点的形式出现在视图中。节点为年轮状彩色圆环图,靠近外圈的环以暖色显示,代表相对近期文献;内圈的环用冷色显示,代表相对早期的文献,圆环厚度及节点面积与关键词频次成正比。图中连线表示其两端连接的节点存在于同一篇文献中,具有共现关系。

3.2 发文机构分析结果

选取发文频次机构的数据形成发文机构共现图(见图1),在发文频次排名前10 的机构中,9 所来自美国,1 所来自中国。WoS 收录的文献数量是评估机构科研力量的因素之一[8],相比于企业、科研院所及社会研究组织,大学科研团队在LIS 领域中研究力量具有明显优势。从国家角度来说,美国大学科研团队表现出明显优势,这为我国培养LIS 领域研究人员所进行的联合办学、学术交流提供了地区借鉴。排名前两位的布列根和妇女医院 (Brigham and Women’s Hospital)和哈佛大学医学院(Harvard Medical School)均来自医学领域,这表明LIS 领域与医学学科深度交叉融合,医学领域对LIS 人才需求量较其他学科更大,高校在构建LIS 专业学生培养计划时,可适当加大对医学信息管理等专业的学科投入力度。

3.3 作者分析结果

根据作者数据绘制作者共现图(见图2),在发文数排名前10 的作者中,4 人来自美国的机构,5 人来自欧洲的机构,1 人来自中国的机构,且从事医学信息学研究的作者占比较高,与发文机构分析结果一致。

图1 发文机构共现图

图2 作者共现图

高产作者中排名第一的是英国胡弗汉顿大学的Thelwall M(发文频次27),其近五年主要致力于传统文献计量指标与替代计量学(Altmetrics)的社交网络影响力计量化指标的对照分析研究,如全球最大的科研社交网络服务网站“ResearchGate”是否能广泛反映现有的学术层级以及各国学者在使用“ResearchGate”提供的服务过程中是否受益于该网站,他对ResearchGate 的用户进行人口统计学分析,他还基于Mendeley进行替代计量学分析,凭借对“读者数量”的跟踪,证实了“读者数量”在反应科研成果利用率上同传统文献计量学“引文数”所发挥的作用高度相关[9]。排名第二的是美国哈佛大学医学院医学信息学专业的David A K,他的研究以中大型科研团队合著为特征,通过研发以患者为中心的网络化工具包分析包含患者和护理人员共同参与的急性护理过程中的各项医疗信息。此外,他的研究还涉及到临床诊断支持系统、电子处方系统的处方错误分析、药物过敏预警的失败案例等[10]。意大利国家研究委员会的Giovanni Abramo 论证了由CWTS 提出的New Crown Indicator(the Mean Normalized Citation Score, MNCS),及诸如国际合作率、高被引文献数等一系列需计算比率即与自身体量无关的计量指标在衡量科研绩效过程中的不适用性;确定了基于SIMCA 的多元随机模型作为衡量科研产出的计量体系[11-12]。

3.4 研究主题分析结果

自动聚类视图采用的方法是对数似然比算法。通过聚类算法生成知识聚类,从聚类的施引文献中提取标签词,以此来表征对应一定知识基础的研究主题[13]。关键词共现聚类见图3,其中代表网络模块化的指标聚类模块值(Modularity)为0.8328,当其大于0.3 时就意味着网络社团结构显著;另一个评价指标聚类平均轮廓值(Silhouette)为0.7951,在0.5 以上时可以认为聚类结果是合理的。

由图3 可知,2015-2019 年图书情报领域的研究热点包括社交媒体(SocialMedia)、知识分享(Knowledge Sharing)、文献计量学 (Bibliometrics)、开放创新(Open Innovation)、自然语言处理(NaturalLanguageProcessing)、信息技术(Information Technology)、电子健康记录 (Electronic Health Records,EHRs)、知识管理(Knowledge Management)、社交商务 (SocialCommerce)、情感分析(Sentiment Analysis)。下面是对LIS 研究态势的演化过程分析。

3.4.1 以时间为视角的主题间演化态势分析

图3 2015-2019 年关键词共现图

(1)2015 年,聚类排名靠前的主题为知识管理和以各种模型、理论为基础的实证分析与案例研究。数据技术是贯穿LIS 历年的研究热点,自然语言处理技术在当年成为热门,为之后的机器学习、深度学习、情感分析及语义分析提供了基础,而后者又是社交商务、电子商务、智慧医学信息系统实现的必要工具,技术进步所累积的成果时至今日仍在为LIS 的学科发展提供支持。当年的文献计量学热点聚焦在书目数据库的构建、引文影响因子、全计数法与分数计数法等理论研究。

(2)2016 年,谷歌云、亚马逊云平台的崛起使分布式计算、大数据技术成为当年的热门工具。大数据与各个行业互相渗透融合的同时,也催生了许多有价值的应用平台与产品,而基于电子健康记录利用大数据技术优势形成的一系列研究成果成为当年的最大聚类。电子政务获得了当年极高的关注,开放政府数据和电子政务关系密切,对于开放政府数据的用户接受和信息系统研究成为当年的另一热点,大量用户数据具有潜在价值,通过数据技术情感分析发挥价值,为社交商务、电子商务的发展提供基础。

(3)2017 年,电子商务成为当年新出现的聚类,电子商务的概念及相关理论并非当年首次出现,也并非LIS 领域独有。在LIS 领域中电子商务的集中聚类主要由于大数据等计算机技术使对用户生成内容的开发成为可能,为公司组织提供了商业模式上新的视角,在这个过程中发挥作用的大数据及信息系统技术是LIS 的核心研究点之一。创新成为当年的热门,公司和政府机构都将数字化创新管理列为研究重点。计量学方面,被广泛应用的Bibliometrix 在这一年上线,实现文献计量学分析中的主要分析和科学可视化,并成为科学知识图谱分析的主流工具之一。

(4)2018 年,大数据从幕后到台前,从云计算本身的历史演进,到与各个行业应用场景的融合, 涌现了大量对于大数据本身理论和技术的讨论。在这一年,网站数据量大量积累,后台计算能力急速增长、通讯网络全面部署,研究人员开始关注大数据及人工智能对个人隐私、信息安全的冲击。数据平台如Facebook、Twitter 等面临泄露用户隐私的质疑。同时,涌现了大量关于数据技术文本挖掘的研究成果。典型的例子是非结构化文本处理技术逐步成熟,使商业智能开发和健康领域的深度学习布局成为可能。

(5)2019 年,伴随各类线上线下活动、各种信息系统、信息服务游戏化程度加深,社交媒体及社交网站转向聚焦相关游戏化研究。技术接受模型被更多的研究者所重视,结合整合型技术接受与使用理论(UTAUT),广泛应用于区块链、移动银行等新型商务模式的研究。IT 创新结合了创新绩效的进展,为公司的决策制定提供了科学的参考,探索更多应用场景的融合。此外,科学技术的双刃剑效应引起了学者的关注,如在与数据技术紧密结合的医疗健康行业,虽然大数据技术、移动医疗(M-Health)提升了医院的诊疗效能,但是在一定程度上造成了医生身心压力大、职业倦怠等问题。

3.4.2 以内容为视角的主题内演化态势分析

LIS 的主题包括研究对象和研究方法,二者并不是孤立存在的,而是彼此促进、互相完善。对于单个主题内部的研究分支演化态势并非排他的,不存在某一热点的出现替代消亡之前的研究对象。LIS 的主题依托图书馆作为知识平台及信息枢纽,以数据技术为技术核心,以图书馆学、情报学、传播学理论为辅助工具,向相关领域辐射。

社交媒体的历史并不久远,但短短十余年间,社交媒体对人类生活产生了颠覆性改变和巨大的影响,其引起的关注不只发生在行业内,同样延伸到了学术界,包括医疗、商务、政务等方面。关于社交媒体的研究可以分为三个层次。① 将社交媒体本身视为研究对象,对社交网络的度量、社区结构、牢固和薄弱的联系、社交网络的演变、网络结构和关系、价值观念和衡量策略、社会资本等核心因素进行评述[14];将传播学理论应用于因果链框架结构的构建,更好地理解使用社交媒体的原因和利用社交媒体带来的影响[15]、对于社交媒体的疲劳效应和用户心理健康的分析[16]、对于Gamification 特点和内在需求满足的研究[17]。② 将社交媒体上用户行为特征与某一行业进行联合分析,进行规律的总结和概括,从而指导组织的战略规划行为,如社交网络的兴起发展过程中对人们消费及健康行为的改善[18]。③ 脱离用户行为属性,抽取用户生成的数据,应用回归分析、结构方程模型等手段实现假设推理性的研究,如应用数据分析技术的行业分析,开发数据的潜在商业价值[19]。

电子健康记录 (Electronic Health Records,EHRs)正在对医学相关领域进行着一场变革,在健康诊疗护理中形成的海量数据已是学界公认的重要资源。聚焦于EHRs 的研究首先着眼于计算机技术,包括数据清洗、自然语言处理、文本挖掘、情感分析、可视化等。得益于数据技术发展,EHRs 成为显著新兴的研究热点,其研究课题较为活跃,内部态势相对分散,呈现出“探索—总结—再探索”的规律。微观上表现为结合医学信息特点的数据技术研究,如基于特定规则算法或机器学习,在结构化及非结构化的健康记录输入过程中能有效探测识别目标患者人群[20]。这类研究以统计学为基础,以算法为工具实现,主要表现为利用处理后的结构化数据构建功能性医疗平台,提高健康机构的诊疗护理质量的实证研究。如,利用递归神经网络对心力衰竭进行早期探查[21]、应用云服务移动健康监测平台远程帮助患者预防脑卒中[22]。

有关电子政务的研究主要包含两个方面。一方面是提高用户参与电子政务积极性的研究,另一方面是提高政府开放数据透明度的研究。在电子政务方面,有学者论述了电子化政府的公共价值,并结合Facebook、Twitter 等社交网络阐明了社交媒体内容质量与公民参与电子政务积极性的关系[23],以及社交媒体内容质量对公民信任度、政策实施效果的影响[24]。在开放政府数据 (Open Government Data,OGD) 方面,从对OGD 主导模型的梳理[25]到归纳OGD 项目的主流生态环境[26],过渡到OGD 项目的核心不只在于平台的构建,更在于数据集本身的质量[27]。

关于商务经济的研究主要包括两类。一类是基于社交网络平台,对社交商务、移动商务、电子商务等商业模式的分析。这类热点得以兴起的原因在于:① 技术上,随着近年来数据技术的飞速发展,云存储、云计算能力日益完善,为获得、处理、分析、利用商务信息数据提供了先进的技术支持;② 在场景上,Facebook、Twitter、微博等社交平台经过多年的发展,积累了大量用户行为记录,为理解用户行为、完善社交网络传播学原理提供了丰富的案例。在总体层面,如社交商务的定义、研究主题和发展趋势的演进[28];在个体层面,通过数据获取,帮助用户选择最优的机器学习模型,运用自然语言处理技术进行面向服务评论的情感分析,如对星巴克、希尔顿酒店等的分析。移动商务带来非经济利益的同时,学界也在思考技术带来的负面影响,基于UTAUT等模型,展开了对于用户隐私保护不足的反思讨论[29]。另一类是结合经济学、管理学模型,分析在社交媒体上的社交行为作为中介变量或调解变量在组织内服务创新、知识创新、知识管理、知识分享、知识共创等活动中产生的作用或对绩效的影响。

文献计量学以科研绩效评价为主,理论和实践互为补充,相辅相成,旨在构建完善的科学书目信息源,全面收集科研成果数据,研发基于用户的信息图谱可视化工具,客观科学地呈现科研绩效。① 在理论方面,聚焦于标准化工作,包括对采样时间范围的标准化[30]以及基于算法分类法的跨学科标准化实践[31],并讨论在标准化程序下科学计量研究中的全计数法、分数计数法以及MNCS 作为研究绩效评审指标的科学适用性[11,32]。② 在构建文献信息源方面,谷歌学术作为科学信息源和科研产出评估数据源的适用性讨论;引文计数在Google Scholar、Web of Science、Scopus 三种信息源之间的异同对比分析;替代计量学领域对于新兴学术主题的社交网站 ResearchGate、Academia.edu 和 Mendeley 的研究。③ 在实践方面,依托统计学和算法模型,文献计量学领域的研究逐渐由回顾转为结合现状的前瞻预测,如结合神经网络学习方法的引文技术预测模型、Altmetric.com 对于长期计数的预测模型、文献老化预测模型等。

数据技术侧重对数据操作及数据分析方法本身的关注,包括利用自然语言处理、文本挖掘、情感分析、神经网络、决策树等技术实现商业需求。LIS 行业对于大数据的关注从最初的定义、分析方法、非结构化数据相关分析的各种算法到分布式计算、云计算等前沿技术的评述,以及大数据在物联网、智慧城市中的角色定位。其中,分布式账本技术使系统的互操作性有了质的飞跃,实现了医疗、物流供应等多领域的应用升级。当前,大数据的发展正经历着“新兴—实用—探索”反复循环交织的过程,人们在积极探索大数据在各行业应用的同时,也在不断完善发优化自身对于数据的分析能力,包括认知分析能力、对更高强度的非受控语言的处理能力、更加多元的决策支持模型的开发能力[33]。

4 结语

通过对2015-2019 年LIS 领域顶级期刊的分析,得到以下结论。① 高校的研究机构在LIS 领域中占核心地位;美国及欧洲占主导地位,中国在LIS 领域顶级刊物范围内也有高产作者。② LIS 领域的高产作者来自于医学机构,或者与医学机构深度合作,医学信息学存在较大发展潜力。③“社交媒体”“知识共享”“文献计量”“电子健康记录”“社会电子商务”等成为代表研究热点的高频关键词语。④ 图书情报领域的研究主题在传统LIS 领域、计算机领域内不断深化完善,以数据技术为核心、LIS 相关理论为工具,与其他学科联动扩展,越来越多地与医学、健康护理、商业经济、网络传播学进行交叉融合。

本研究不免存在一定的局限性,由于CiteS-pace 所呈现的关键词节点仅能定性呈现。在定量的角度上,节点所代表的值来自整个文献数据集合里该关键词出现的次数,软件若能对关键词在具体文献中出现次数加以权重划分,该研究将有更强的说服性。

猜你喜欢
社交文献领域
电子战领域的争锋
社交牛人症该怎么治
聪明人 往往很少社交
将现代科技应用于Hi-Fi领域 Perlisten S7tse
Hostile takeovers in China and Japan
社交距离
2020 IT领域大事记
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
领域·对峙
你回避社交,真不是因为内向