国内三大中文学术期刊数据库平台对比分析

2018-11-01 03:04韩璐曾月蓉王影邓文荣
电脑知识与技术 2018年19期
关键词:对比分析聚类分析

韩璐 曾月蓉 王影 邓文荣

摘要:通过对国内三大中文期刊数据库平台数据内容、检索功能、聚类分析等三个方面的对比分析,说明了三大数据库平台的共性与个性化特点,为用户选择购买、平台使用提供判定依据。

关键词:中文期刊数据库 ;数据内容;检索功能;聚类分析;对比分析

中图分类号:G250 文献标识码:A 文章编号:1009-3044(2018)19-0006-04

目前,科研机构、公共图书馆、高校图书馆使用最多、利用率最高的中文学术期刊资源服务平台主要有三种:中国知网的(以下简称知网期刊)、重庆维普(以下简称维普期刊)和万方数据资源系统(以下简称万方期刊)。这三大中文期刊数据资源服务平台文献分类丰富,收录期刊数量多,内容更新速度快,用户广泛。对比三大期刊平台建设,虽然数据资源内容有重复、平台功能和技术、个性化服务特点有类似,但各自有特色,尤其对近年来知识组织与信息聚类技术、可视化技术的发展,各个平台的侧重点出现明显差异,给相关机构使用造成一定的困扰。三大平台早期版本对比分析已经有不少研究成果,内容主要集中在数据情况、基本检索功能等比较分析上,由于当时平台还未推出更多的知识服务功能,所以没有这方面的比较分析。本文主要是针对三大平台的数据资源组织和知识服务功能进行分析对比,为用户在平台使用、选择引进时提供参考。

1 三大中文期刊平台内容对比分析

1.1 数据情况对比

1.1.1 学科范围及资源特色

从表1可看出,三大期刊数据库中“维普期刊”的学科分类最为细致。三者相同之处在于学科范围都涵盖自然科学、工程技术、人文科学等领域,同类型产品数据内容存在同质化现象,因此不可避免地存在重复。 除了传统的学术论文外,分类及延伸产品也有很多重复和交叉。在资源收录方面,三大期刊数据库各有其针对性的发展方向和价值特色,都有一定的使用客户群,这是三大期刊数据库可以共生共存,共发展的原因。

1.1.2 收录数量、收录年限

将三大期刊数据库按收录年份及种类进行对比(如表2)可见,维普期刊收录的种类最多,尤其是现刊的收录种数为三者之首;三者对比核心期刊收录完整率相差无几,但维普收录率最高为100%;三者在独家授权期刊方面:知网期刊种类最多,其次是维普期刊且大部分为内部刊物;三者在优先出版刊物方面:万方期刊最多,其次是知网期刊,维普期刊暂时无优先出版刊物。从期刊收录年限对比而言,知网期刊在三者中占据优势,大部分可加回溯至创刊时间。

从上表可以看出三大期刊数据在资源上的差异:知网期刊工具书检索功能强大,涵盖范围广,在工具书方面形成了另外两者无法比拟的优势,有强大的整合能力,对于不同数据类型都可系统分类,细化有序。维普期刊力求多元化发展,产品具有类型的优势,自有特色数据库,自建的方志、科技视频、中国医学会期刊等数据库特色非常明显,因此有一定的竞争力。万方期刊集中在主力产品《中文科技期刊数据库》上,专注于期刊文献的收录和二次加工,其收录的期刊更全,很多内部发行刊物、地方刊物、行业刊物都有收录。

1.2 出版时效

数据内容能及时更新是用户选择的重要因素,数据库平台出版周期短,说明该数据库出版时效快,更体现了优先价值。从如下表3可见,知网期刊和维普期刊可以做到每日更新,而万方在时效性方面较前两者差距不小。

1.3 数据库导航

在数据库功能上看,知网期刊具有学科导航,期刊导航,首字母导航。学科分类为十大专辑,各大专辑又进一步按层次划分为168个专题,专题库再划分更为细微的子专题,所有文献均按专业学科分类编辑,整个数据库划分为若干类应用性、针对性极强的专业化数据库,形成一个合理的面相专业对象的知识结构,给用户提供一个简洁明了的导航检索体系。期刊導航中,核心期刊按2014年版“中文核心期刊要目总览”核心期刊表分类,只包括被2014年版“中文核心期刊要目总览”收录的期刊。“世纪期刊”按期刊的知识内容分类,只包括1994年之前出版的期刊。期刊的影响因子按《中国学术期刊影响因子年报(2016版)》结果显示。

维普期刊具有学科导航,期刊导航,地区导航,首字母导航四种导航方式。其中学科分35个学科大类,又进一步划分为457个学科小类,给用户提供一个严谨、规范、科学的导航检索体系。期刊导航按照刊名途径组织数据,给用户提供刊名检索导航体系,其中刊名不仅按照学科来聚集,也有按照首字母来聚集;地区导航按照全国31个省份及其下属地市来进行导航。

万方期刊具有学科导航、地区导航、首字母导航三种分类导航方式。学科分类包括8大学科体系,94个学科小类;地区导航按全国31个省份来聚集期刊;首字母导航按照期刊名的字母来聚集期刊。

1.4 检索功能分析

三大期刊数据库根据不同的用户需要,开发设置了具有相应特色的检索功能,虽在检索方式相差不多,但是在检索功能设置方面,都更侧重于自己的功能特色及方向,将三者的检索功能细化列表比较而言(如下表),可以看出:知网期刊的检索功能更全面,更细化,范围广,检索方式、路径更灵活,多元化,用户可以更方便、更准确地检索到所需的文章,在三大数据库中检索功能最强、最方便,维普其次,万方相对较弱些。

1.5 检索结果处理对比

从下表4相比较可见,三大期刊数据平台检索处理功能从显示、标记、排序、保存四个方面对比,维普的显示格式最多,显示的字段也较其他两个要全面,万方排序功能最有热点时效性,从结果保存功能上看,三大期刊数据平台具有共性和各自特点。

2 知识服务功能

三大期刊平台近年来最大的特点是针对检索结果开发的聚类展示功能。其主要是通过对检索结果以不同的方式进行聚类分析,辅之以聚类图谱等方式,给用户呈现更为清晰的检索结果集及知识结构情况。聚类展示功能通常又分为基于整体检索结果和基于文章两种聚类分析。各个平台由于数据字段情况不同,可以实现的聚类分析功能就各不相同,知网期刊的由于字段内容最丰富,可以实现的聚类分析内容最多。其次是维普期刊数据库,聚类分析相对较少的是万方期刊数据库,这与其数据库字段相对较少有关。表5是三大平台的检索结果聚类分析特点对比。

下图1展示了知网期刊基于关键词的共现网络,共现网络体现了包含相关关键词的文献可能关相关关系。图2展示了维普期刊高频主题共现关系,主题共现可以辅助读者了解相关主题的相关性。图3展示了万方期刊的知识脉络发展状况,有助于读者了解相关主题领域的随时间进展状况。

如上三张图展示说明,信息挖掘与聚类技术的发展使三大平台逐步向知识服务过渡,平台功能发生了本质飞跃,数据资源的种类也较以前更加丰富,资源的组织形式也更加富有特点。

3 结论

三大中文期刊数据库作为最重要的中文期刊资源,在高校、公共图书馆、科研机构广受重视,检索数量和全文下载量都非常惊人,成为科技人员必不可少的科研辅助工具。因此,文献资源建设人员随时在关注其情况变化,为资源的引进做出决策判断。

通过对比分析发现,三大期刊平台在数据内容、检索功能、知识服务功能等方面都各具特点:

1) 数据内容方面。维普期刊的品种最丰富,尤其是收录了很多机构的内部出版物,具有重要的参考价值;知网期刊对期刊文章的标引数据字段最全,除了常见字段外,还标注了大量特殊字段,给读者更多的检索选择。另外知网期刊收录的期刊回溯年限较早,已逐步超过了维普期刊收录年限;万方期刊数据相对来说標注的主要是基本字段。

2) 检索功能方面。知网期刊的数据字段最为丰富,可提供的检索字段最多。资源导航功能最为丰富,可以保存用户的检索历史,在引文关联检索方面具有强大功能;维普期刊检索功能也较为丰富,但在字段检索、引文方面的功能不如知网期刊数据库;万方期刊数据库在字段检索、检索策略、数据导航、引文关联等方面最为简单。

3) 知识挖掘与服务功能。知识挖掘与服务主要是通过聚类分析与图谱展示作为主要体现形式。知网期刊数据库在知识挖掘与聚类分析方面功能最丰富,基于检索结果集有8种聚类功能,基于文章有8种聚类分析;维普期刊基于检索结果集有8种聚类分析,基于文章有4种聚类分析。万方数据基于检索结果集有4种聚类分析,基于文章有5种聚类分析。

总的来说,三大期刊数据在资源品种和服务功能上具有明显差异:知网期刊力求多元化发展,产品具有类型的优势,自有特色数据库,自建的工具书、地方志、科技视频、中国医学会期刊等数据库特色非常明显,充分体现了数字期刊网络出版与网络服务的特点。维普期刊专注于期刊文献的收录和二次加工,其收录的期刊更全,很多内部发行刊物、地方刊物、行业刊物都有收录,这是其内容上的优势和特点。相对来说,万方期刊在资源品种和功能服务上相对较少一些,但其收录了大量独家期刊,如万方医学期刊,是行业的不二之选。随着信息技术、数据库技术、聚类与可视化技术的发展,三大中文期刊服务平台都在资源品种收集、服务功能方面不断在竞争中进步,带给用户更加丰富的、更具特点的使用体验,用户可以根据自己的需求选择适合自己的平台。

猜你喜欢
对比分析聚类分析
戴·赫·劳伦斯《菊馨》三个版本对比分析