不同数据源下图书馆学研究的文献计量分析

2018-09-19 01:55
图书馆理论与实践 2018年8期
关键词:图书馆学数据源发文

胡 浪

(广东松山职业技术学院图书馆)

传统图书馆学研究被认为是纯人文科学,早期其研究方法基本上沿用社会科学的调查法、历史法和比较法等。20世纪80年代初,学界开始就图书馆学研究方法进行研究和探讨,并逐步形成按“哲学方法、一般研究方法、专门研究方法”划分的图书馆学研究“三层法”。就“专门研究方法”而言,各家观点各不相同,概括来说有图书馆统计法、读者调查法、移植法、文献计量法、引文分析法、信息处理法、检索法等方法。其中,文献计量法和引文分析法均被公认为是专门研究方法的重要组成部分。[1-4]

进入21世纪,随着信息技术的发展,文献计量学的研究也随之呈现出新的发展趋势。单从计量单位来看,文献计量学已不仅仅局限在以篇、册、本为单位的文献单元的计量上,而是深入到文献的内部知识单元,包括题名、关键词、词频、引文信息、作者、研究机构等,都已成为文献计量的研究对象。这些有关知识单元及文献题录信息的计量学研究,丰富了文献学研究的理论和实践,尤其是对主题研究的演进和趋势判定等,都给予了量化甚至是可视化的技术支持,促进了主题研究的发展。本文主要是对不同数据源进行的文献计量分析,就图书馆学研究中存量文献的作者及机构、研究热点等内容的比较研究,分析其反映该主题研究特性的异同和优劣,探寻不同研究目标设置下所适用的检索策略和检索路径。

1 数据来源及数据采集

本文主要使用中国知网CNKI数据库进行基础数据收集和整理,采用CiteSpaceⅤ进行统计分析,三种数据源分别采用以下不同的检索路径。

(1)近5年图书情报类核心期刊载文。在CSSCI(2017-2018)来源期刊中共有图书情报档案类期刊20种,剔除档案和情报类期刊,剩余图书情报类核心期刊有11种,分别是中国图书馆学报、图书情报工作、大学图书馆学报、图书情报知识、图书与情报、图书馆杂志、国家图书馆学刊、图书馆论坛、图书馆建设、图书馆学研究和图书馆。在CNKI检索“文献来源”中分别输入上述11种期刊名称,检索到2012-2016年共15,976篇文献记录,通过数据清洗,得到12,861篇文献(检索时间:2017-10-30),下载这12,861篇文献的题录信息,以纯文本格式保存,作为第一种数据源,以下简称“核心期刊数据源”。

(2)“图书馆学研究”高被引文献。主题研究的高被引文献是从事相关(或相近)研究的人员广泛关注并实施引征的文献集合。按照图书馆学研究可能覆盖的范围,在高级检索“主题”中输入“图书馆学+图书情报学+文献学”,检索到涉及图书馆学研究的论文共有30,759篇文献,按被引频次从高到低排序,取前3%的论文做高被引文献,[5]考虑并列关系,选择被引频次大于18的文献共959篇,下载这959篇文献的题录信息,并以纯文本格式保存,作为第二种数据源,以下简称“高被引数据源”。

(3)“图书馆学研究”最新文献。最新文献是指最新发表的关于“图书馆学研究”的文章,反映当前图书馆学研究的最新成果。在上述检索到的30,759篇文献中,剔除通知、公告以及医药学文献研究论文,按发表时间从2016年1月到2017年10月共1,638篇文献,下载这1,638篇文献的题录信息,并以纯文本格式保存,作为第三种数据源,以下简称“最新数据源”。

2 数据源和结果分析比较

2.1 数据源比较

显然,上述三种数据源是从“期刊”和“主题”两个方向对图书馆学研究的回溯,两者互有交集又互有区别。“期刊”来源虽然单一,但专业领域核心期刊往往代表其主流和方向,为广大研究人员所认同,因而,使用核心期刊数据分析某个领域研究态势成为一种较为普遍的方法。“主题”检索来源多样,除期刊外还有会议论文、博硕论文等其他多种文献源,文献检索更为全面、详实,同样成为主题研究的常用方法。

通过检索发现,核心期刊数据源的12,861篇文献中,被引频次在18次及以上者共882篇,占比6.9%,按所有文献被引前3%计,高被引文献最低被引频次为29次,远高于“主题”检索被引数据指标(且仅为近五年数据),显示核心期刊数据源文献有相对较高的学术影响力。那么,是不是高被引数据源就更能反映图书馆学研究的现状和态势呢?从高被引数据源文献的时间分布(见图1)可以看到,其峰值分别出现在2003年和2007年,也就是说高水平研究的成果需要十年左右时间才能充分兑现其学术影响力。可以明确的是,在高被引数据源中,某个关键词出现的频次越多,说明对它的研究越充分、水平也越高;反之,要么说明其缺乏研究价值,要么则是处于新兴阶段的价值洼地,亟待研究。

图1 高被引数据年份发文

当然,“核心期刊”的期刊选择以及“主题”检索主题词的确定对结果都会产生显著影响。剔除档案及情报类核心期刊,是为了减少非同源研究文献对主题研究浓度的稀释;而“图书馆学+图书情报学+文献学”的“主题”检索词的设定是为了尽可能全面涵盖图书馆学研究的方方面面。

2.2 研究机构及作者分析比较

由于三种数据源所含文献时间跨度各不相同,在CiteSpaceⅤ参数设置界面上,须将其时间切片功能区中分析时间按实际年份设置区间:核心期刊数据源分析时间为2012-2016年,高被引数据源分析时间为1980-2016年,最新数据源分析时间为2016-2017年。其他设置为:时区分割设为1,阈值选择Top 100。设置完成后,运用CiteSpaceⅤ软件,分别对上述三种数据源就研究机构、作者和关键词进行统计和可视化处理,再做比较研究和分析。

2.2.1 机构分析比较

研究机构是科学研究主体的组织形式,是揭示学科或技术领域发展状况的重要指标,对学术团体或科研机构发表的专著、论文、专利等文献量的统计分析是文献计量学的研究内容之一,[6]研究机构发表上述文献的数量既能代表其科研生产能力,也能反映其在不同领域科学研究的影响力和贡献值。通过运行CiteSpace,可以得到三种数据源下研究机构的发文量排名(见表1)。

表1 不同数据源下研究机构发文排序对照表(前20位)

初看表1,不同数据源导出的结果有些相似,名校教学院系、知名图书馆及研究中心(所)成为榜单的主角,尤其是武汉大学、北京大学、南京大学、中山大学、南开大学及中科院情报中心等六个研究机构在每个榜单都名列前茅。得益于多年积累的人才资源和先发优势,这些机构无一例外都成为了国内图书情报领域的标杆。仔细分析,不同数据源所反映的内涵和特征其实互有差异、各不相同。

(1)不同数据源所反映的机构实力各不相同。核心期刊数据源来自8家图书馆核心期刊和3家图书情报两栖类核心期刊,11家期刊年发文量合计仅为2,400篇左右。由于核心期刊对自身学术地位的珍视和对发文稿件的严苛,使得其门槛高、录用难,在很大程度上保证了核心期刊载文的质量和创新性,而高质量、创新性论文是成为高影响力文献的基础和前提;同时,核心期刊更能凝聚高水平研究机构和团队的研究力量,其成果无疑也更能反映专业领域的研究前沿和发展方向。因此,核心期刊数据源机构发文量代表的是机构的“整体实力”。

高被引和最新数据源是对主题设定下的检索结果,未对文献来源和期刊加以限制,因而其来源更加广泛和全面,除上述11种核心期刊外,还包括其他核心或非核心期刊以及会议论文、博硕论文等。由于设定条件不同,这二者也存在显著的区别。最新数据源除了发文时间,未做其他限定,它反映的是图书馆学近两年研究的成果,是一定时间内存量文献的集合,因此,最新数据源机构发文量代表的是机构的“勤勉状态”。而高被引数据源则是过往图书馆学研究的精华和代表,不仅来源广泛,而且历时绵长,可以反映相关领域研究的变迁和发展路径。由于文献体量相对较小,有时个体的发挥直接提升整体的排名,因此,高被引数据源机构发文量代表的是机构“个体实力和整体实力融合”的结果。

(2)不同数据源所隐含的数据结构也不相同。由于三种数据源所含文献量迥异,单纯的数量比较显然不合适。调整CiteSpace阈值参数(c,cc,ccv)为(1,2,20),其中c=1,即提取频次为1的词,得到三个数据源研究机构数量并做去重处理,再分别计算前1%、3%的机构文献量占比,得到表2。

表2 不同数据源下研究机构数据结构表

从表2可以看到,按核心期刊数据源、高被引数据源、最新数据源排序,机构平均发文量和前1%(3%)机构发文占比均呈递减趋势,表明发文机构的集聚度从高到低排列,其中,高被引数据源更靠近核心期刊数据源,而远高于最新数据源。热力学中有个表征物质状态的参量叫“熵”,其物理意义是表示体系混乱程度的度量,越随机、越分散的排列,熵值越大;而且,熵值增大是个自发的过程(如液体的汽化),而反向则必须施以外力才能实现。文献的分布有些类似,发文分布越随机、越分散,其聚集度就越低,“熵”越大,越接近自然分布状态,就像最新数据源;而按被引量排序后取出的高被引数据源以及核心期刊编辑“百里挑一”摘取后的核心期刊数据源,随着人为干预的加入,发文分布更加有序,其聚集度就更高,“熵”就更小,反映到文献的机构分布上,就是同样比例的核心机构的发文量更大,占比也更高。当然,由于高被引数据源和最新数据源文献数据量总体较少,几家排名靠前的机构发文数据易对结果产生较大影响,有时会影响其信度。

2.2.2 作者分析比较

高影响力作者是科研机构科研产出的主要力量,往往代表一个领域的发展方向,而作者的科研能力和创造的价值可以通过其发文量和被引频次来衡量,[7]本文主要通过发文量对作者进行分析。运行CiteSpace,可以得到三种数据源下作者的发文量排序(见表3)。

从表3可以看到。① 不同数据源下发文量名列前20位的作者既有图书情报学界的著名学者,也有新近涌现的青年才俊,图书馆学研究呈现出生机勃勃、人才辈出的良性发展局面。② 鉴于数据源的文献类型,三个榜单前列大体呈现“老、中、青”有区分又相结合的特点。高被引数据源文献历时长久,不乏老一辈学者的身影,如,武汉大学的黄宗忠、北京大学的吴慰慈等学者;核心期刊数据源则是中青年学者的主战场,邱均平、郑建明、刘兹恒、柯平等都是各自学校的代表;最新数据源则以新锐为主,活跃着一大批朝气蓬勃的青年学者,代表图书馆学研究的未来。③ 武汉大学、北京大学、南京大学、中山大学、南开大学等国内图书情报领域的顶级机构各有数位学者名列前茅,以他们为主体形成的各自学校的核心学者群显示出强大的团队优势和科研生产力,这与机构排序也是一致的。④ 凭借个人优异表现也能使所在机构位居前列,如,华东师范大学的范并思、黑龙江大学的蒋永福几乎就是凭一己之力使所在单位在表1的高被引数据源中高居第四和第七位;另外,个别专科学校位列高被引和最新数据源榜单也是例证。

通过数据源比较和对研究机构及作者的分析可以发现,不同数据源因其来源及文献类别的不同,所揭示的内涵和适用的范围也各不相同。由于图书与情报事业的融合发展,在核心期刊数据源中除了图书馆学、文献学论文外,还会有涉及情报学方面的文章,因而其文献涉及的领域更为多样;但就文献来源而言,核心期刊数据源只包含11种核心期刊,对其他专业期刊、博硕及会议论文等均未涉及,难免遗漏重要文献。而高被引数据源和最新数据源如果所含文献量偏小,分析结果容易产生漂移而影响其信度。所以,在“图书馆学研究”这类涉及较大领域的研究中,应将这两种数据源结合起来研究,才能得到完整、可信的研究成果;而在更小范围的主题研究(如“阅读推广”“数字图书馆”等)对机构和作者的分析中,则适合以高被引数据源为主,并辅以最新数据源,在时间维度上做比对和分析,方可形成全面、动态的结论。

表3 不同数据源下作者发文排序对照表(前20位)

2.3 研究热点分析比较

2.3.1 高频关键词比较

词频分析法是文献计量研究中的常用方法之一。关键词是一篇文献核心内容的浓缩和提炼,某一关键词在其所在学科(领域)文献中的出现频率,反映出该关键词所表现的主题在该学科(领域)所受到的重视程度。因此,通过选取高频关键词可以确定该学科(领域)的研究热点与发展动向。[8]通过运行CiteS-pace,可以得到三种数据源下关键词排序,合并同类并剔除“图书馆”“公共图书馆”“大学图书馆”等表示称谓的名词后,取排名前20位的高频关键词列为表4。

表4 不同数据源下高频关键词(前20)

图书馆工作是围绕图书馆资源的建设、管理、研究和服务等工作的总和,而图书馆资源包括图书馆本身、纸本资源、数字资源、空间资源和人力资源等几个部分。显然,图书馆资源是本体,而建设、管理、研究和服务是基于本体的人为运作,其中“服务”是图书馆工作的目标和任务,“建设、管理、研究”是为实现目标和任务而采取的措施、手段和方法,它们互相协同、相互促进,使图书馆成为一个有机整体。按照这样的分类方法,将表4中不同数据源下的高频关键词重新归类后,得到高频关键词归类表(见表5)。

表5 不同数据源下高频关键词归类表

(1)从内容上看,除了“图书馆学”和“图书馆员”共存在三个榜单外,不同数据源下高频关键词存在明显的侧重和差异。按大的类别分,核心期刊数据源明显偏向“服务”,即基于资源的推广和利用,这类高频关键词占比过半,表明核心期刊特别强调图书馆应用领域的理论研究。最新数据源侧重于“研究”,尤其是大数据条件下运用文献计量、引文分析、共词分析及社会网络分析等方法进行的数据挖掘研究,同时还注重对图书馆史的研究。而高被引数据源则相对均衡,主要体现在“管理”和“研究”上,其中既有知识管理、图书馆管理等基础理论研究,又有上升到精神层面的图书馆哲学和图书馆精神的研究,表明这些方面的研究相对成熟、成果也较为丰富。

(2)从数据来源看,不同数据源所形成的高频关键词群各自带有反映其数据来源及关注焦点的特征,究其成因,与“人”的偏好和关注度密切相关。①最新数据源几乎没有门槛,因而最能代表近两年图书馆研究人员对图书馆工作的思考和研究,是对图书馆研究的全景展现。② 核心期刊数据源由于资源稀缺,加上核心期刊的栏目设置习惯和选稿用稿的偏好,使得发文质量精益求精,因此,核心期刊数据源基本上反映的是高水平学者群的关注焦点,因而也更能体现和代表图书馆研究的研究水平、发展方向。因而这种方法使用极其广泛,如,邱均平[9]、侯剑华[10]、苏娜[11]等学者都从国内外图书情报领域最具影响力的核心期刊入手,分析该领域的研究热点、前沿主题及其演进趋势,并取得可信的研究成果。③ 高被引数据源则是图书馆学研究中影响力大、被引频次多的文献集合,与后续研究人员对其的关注程度正相关,其中的高频关键词,不仅为人们所关注,而且说明对该主题的研究成果也较为丰富,并在一定时期内成为当时的研究热点和前沿。从实际数据看,该数据源时间跨度长达38年,因此,以高被引数据源做相关主题热点研究时,必须考虑其高频关键词密集分布的时间区间,从而做出正确的判断,得出合理的结论。

2.3.2 热点分析比较

研究热点可看作某研究领域中研究者共同关注的一个或多个研究主题,共词分析可反映目标领域的热点概况。[12]通过运行CiteSpace,对上述三种数据源的关键词做共词分析,可以得到不同数据源的研究热点视图(见图2-图4),为避免因节点大小反差过大而使大部分节点无法清晰显示,在图2中隐去了“图书馆”“公共图书馆”“大学图书馆”等表示称谓的超高频次节点。

图2 核心期刊数据源热点图

图3 高被引数据源热点图

图4 最新数据源热点图

图2 是以“图书馆学”为主体、图3和图4则为图书馆学、图书情报学、文献学及情报学分立格局的热点视图,符合各数据源检索目标的设定。围绕“图书馆学”,图书馆事业、数字图书馆、实证研究、热点研究、文献计量等内容的研究在每个图中都有明确的反映,成为显著的共性。同时,从三个图中,也能发现各个图所反映出的不同数据源之间研究热点的明显差异。

(1)核心期刊数据源与其他两个数据源存在明显差异,除“图书馆学”外,最突出的是以阅读推广和学科服务为主的图书馆服务以及以图书馆联盟、数字资源和开放获取等为主的资源建设及利用两个部分,分别位于图2的右上和下部,结构非常清晰。① 图书馆服务,最典型的主题有两个:一是“阅读推广”,从2006年开始,图书馆学人不断就这个命题展开研究并付诸实践,王波[13]、范并思[14]等学者就图书馆阅读推广及其意义给出了自己的见解并广为接受;二是“学科服务”,当前,图书馆尤其是高校图书馆正努力打造集“知识中心、学习中心、文化中心”于一体的服务中心,以“学科服务”为先导,服务“双一流”建设,充分发挥图书馆的资源优势,不断创新服务理念和模式。② 资源建设及利用。大数据时代,以资源共享、开放获取为目标,构筑资源整合平台,建立起来的图书馆联盟正日益影响着人们的工作和学习,促进着图书馆的变革和发展。

综上可知,核心期刊数据源历时5年,从其热点视图可以看到其节点清晰、分布均匀,很好地反映出近五年以“图书馆学”为主的相关研究全貌,从时间和内容分布上都是表现近年来图书馆研究较为理想的路径和方法。

(2)高被引数据源热点。高被引数据源主要表现的热点有两部分。① 位于图3上部图书馆学研究、方法论体系等组成的专业研究主题,特别突出的关键词有两个,分别是“研究图书馆”和“图书馆哲学”。张晓林[15]提出,科学研究已进入数据密集型科学发现的第四范式时代,研究图书馆要建立支持知识发现的数字知识基础设施、支持决策分析的科技动态监测服务体系,建立协同知识服务的观念和机制,提高研究团队嵌入服务的能力。在探讨“图书馆哲学”时,蒋永福[16]、周庆山[17]等学者一致认为,图书馆哲学是一种科学精神、职业理想和学术境界,是图书馆人工作之余静静深思图书馆现象时所获得的思维深处的感悟与理解。② 位于图3下部以文献计量、影响因子和h指数等为主的情报学主题。随着图情专业的融合发展,传统图书馆工作占的比重越来越小,大量学科评价、文献研究等工作的开展越来越依赖于基于各种参数的计量分析及包括引文分析、社会网络分析、共词分析等方法的运用,由此产生了大量有影响力的文献,促进了图书馆学研究的发展。

综上可知,高被引数据源虽然文献量最小,但历时长久达37年,通过CiteSpace分析得到的视图却是最为复杂且重叠交错的。它反映的是业已深入研究的主题变迁,所以高被引数据源所涉及的主题不一定是最新的,但一定是最精深的,这也是高被引数据源最大的特点。

(3)最新数据源热点。最新数据源热点也明显分为两块,一是图4左下,围绕图书馆学、包括研究热点、文献计量及可视化等的应用研究,二是图2上部,以图书馆史、图书馆学史为主线的基础研究。近年来对“图书馆学家”的研究逐渐增多,成为最新数据源的一个亮点。

总的来说,基于文献自身的影响力,使得核心期刊数据源和高被引数据源更能代表图书馆学研究的主流和发展方向。高被引数据源时间跨度大,更适合反映某个领域研究热点的演进历程,而核心期刊数据源包含的文献更加丰富,既可以展现学科的整体动态,又能反映近年来学科研究的热点和前沿。当然,最科学、有效的方法还是将二者结合起来,兼顾研究的广度和深度,才能取得最佳的成果。而最新数据源只是对主题研究最新成果进行检索,适合做快速掠影式的扫描,深入研究则明显感觉力所难及。

3 结论

本文基于不同数据源对图书馆学研究进行比较以及对数据源所含研究机构、作者、关键词及研究热点等内容进行统计和比较,明确其在图书馆学研究中的异同,得到了不同研究目标设置下所适用的检索策略和检索路径。

(1)从数据源比较来看,核心期刊数据源更具代表性和影响力,但难免有遗漏;“主题”检索更加全面但又难免参差不齐;高被引数据源具有较高的学术影响力,但也存在文献量偏少及被引迟滞的不足。

(2)从机构发文量来看,核心期刊数据源代表的是机构的“整体实力”,高被引数据源代表的是机构“个体实力和整体实力融合”的结果,而最新数据源代表的是机构的“勤勉状态”;另外,发文机构集聚度按核心期刊数据源、高被引数据源、最新数据源递减,发文分布由有序向随机过渡,“熵”值递增。从发文作者比较来看,三个榜单前列大体呈现“老、中、青”有区分又相结合的特点,表明图书馆学研究正处于生机勃勃、人才辈出的良性发展局面。

(3)不同数据源所形成的高频关键词群各自带有反映其数据来源及关注焦点的特征:核心期刊数据源明显偏向于“服务”方面的应用研究;最新数据源侧重于大数据环境下的数据挖掘研究以及对图书馆史的研究;而高被引数据源则兼顾了“管理”和“研究”,在知识管理、图书馆精神、图书馆哲学等方面形成了较多高影响力的经典成果。

(4)从研究热点视图来看,核心期刊数据源比较集中地反映出以“图书馆学”为主的图书馆学研究全貌,而高被引和最新数据源热点视图呈现的是图书馆学、图书情报学、文献学及情报学分立的格局;就图形而言,核心期刊和最新数据源视图构图明快、脉络清晰,高被引数据源则因历时过长而致节点连线密布难辨。

综上,核心期刊数据源涉及图书馆工作的方方面面,领域广、数量大,适合做全域性分析研究;高被引及最新数据源则是对所有文献载体按主题全面检索的结果,反映的是主题研究的全貌,适合做小范围主题研究分析。因此,对图书馆学研究热点及其演进的研究,需将核心期刊数据源和高被引数据源结合起来分析。下一步研究将对选定不同期刊源、期刊周期及其自身高被引文献进行更为细化的比较分析,以期得到更加全面、可信的结论。

猜你喜欢
图书馆学数据源发文
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
基于真值发现的冲突数据源质量评价算法
中国比较图书馆学发展探究
WONCA研究论文摘要汇编
——初级保健晚期疾病患者照顾者的识别障碍:3个数据源的三角化测量
广西图书馆学会2013年年会暨第31次科学讨论会在贵港举行
广西图书馆学会2012年年会暨第30次科学讨论会在南宁举行
广西图书馆学会第九次会员代表大会在南宁召开