过刊数字化回溯与PubMed LinkOut全文链接在医学科技期刊网络全文平台中的应用*

2014-03-26 05:38董文革
中国科技期刊研究 2014年4期
关键词:过刊血液学全文

■董文革 王 玥 刘 谦 李 梅 刘 爽

1)《中华血液学杂志》编辑部,天津市和平区南京路288号 300020,E-mail:dongwg@sina.com

2)《中国肺癌杂志》编辑部,天津市和平区南京路228号 300020,E-mail:wangyue81@gmail.com

随着互联网技术的迅猛发展,传统出版业正经历着一场前所未有的数字化变革。从21世纪90年代起,陆续出现了CNKI、万方、维普等大型文献数据库,基本实现了文献形态和检索方式的数字化[1]。与此同时,越来越多的科技期刊建立了独立的网络出版平台,集采编、在线办公、网络发布为一体,在提升期刊品牌形象,加快数字化建设,扩大期刊影响力等方面都发挥了重要的作用[2]。

期刊作为一种连续性出版物,它最基本的特性是出版的连续性[3]。因此,期刊的数字化过刊回溯在网络环境下的期刊质量建设中具有非常重要的意义,是期刊实现数字化、网络化的一项重要工作。然而,仅完成过刊回溯上网对提高期刊的展示度作用有限,因为没有链接进入的单刊网站只是个信息孤岛,我们要想方设法借助一些权威网站、数据库为本刊网站带来更多的流量。《中华血液学杂志》与《中国肺癌杂志》在这方面进行了尝试,在完成过刊回溯上网工作的同时,利用PubMed LinkOut服务实现了全部文章的PubMed可检索及链接到期刊网站全文的功能。本文以这两本杂志为例,介绍实现过刊数字化回溯及PubMed全文链接的过程,探讨过刊回溯对期刊质量建设的重要意义,供广大医学科技期刊同行参考。

1 过刊数字化回溯

我国科技期刊数量庞大,内容丰富,很多期刊经过数十年的积累,过期期刊已普遍成为图书馆馆藏的重要组成部分[4]。然而,随着数字出版媒体的快速发展和无线移动终端的不断普及,我们正迅速走向无纸化社会,各类大型电子文献数据库已成为读者查阅文献的主要目标,越来越少的作者会到图书馆查阅资料。与此同时,我国科技期刊的数字化、网络化工作起步较晚,科技期刊的网络出版平台基本上都是在近些年建立起来的,同时受当时人力、物力、财力所限,大多数期刊仅将现刊上网,最终导致了大量的过刊沉睡在图书馆与编辑部的仓库里而得不到利用。因此,如何对大量沉睡于书库的过刊资源进行深层次的开发利用,已成为广大科技期刊工作者亟需面对解决的问题。

一项调查[5]结果显示,STM在线出版平台上20%~25%的下载文章,至少是5年前发表的。较早的学术论文对科学研究具有一定的指导意义和潜在价值,研究者在发表新见解的同时,必然会参考较早的研究成果。因此,提供过刊论文在线检索、阅览和下载势必会受到科研人员的欢迎,重新焕发过刊论文的二次生命,加快促进科研进展。20世纪90年代,美国出现了JSTOR、MUSE等期刊文献回溯数据库,一些国外著名出版商 Springer、Nature、OUP、Elsevier等都完成了回溯数据库的建设。国内期刊的数字化、网络化工作起步较晚,因此在过刊数字化回溯方面还有很大的发展空间。

过刊数字化回溯是将全部印刷版期刊(从第1卷第1期起)扫描成常用阅读格式的文件(如PDF),与现刊在线版一样发布在期刊网络出版平台上,同时提供目录及摘要信息,供读者阅览、下载[6]。对于创刊较早、历史悠久的期刊,过刊回溯工作量庞大,通常分批进行过刊数字化回溯。相比于纸质过刊管理,过刊数字化管理成本较低,网络共享程度高,检索效率高。过刊回溯是期刊质量建设的重要成就,也是期刊全心全意服务读者、作者的重要体现。同时,期刊的过刊回溯对于图书馆也有重要意义,使图书馆在获取、编目、读者查询、馆际互借等方面为用户提供更完备、高质量的服务。

技术方面,过刊回溯主要通过高分辨率地扫描印刷版期刊,生成过刊文章的PDF文档及每页TIFF图像文件,同时提取生成每期期刊与每篇文章的元数据信息,并使用OCR软件处理每页图像,输出XML文件以支持全文检索。经过一系列自动化及人工的质量检查后,数字化过刊文档即可入库供读者使用[6]。

在数字化出版时代,国内越来越多的科技期刊自建了OA网络出版平台,提供免费全文下载,过刊数字化回溯的工作也在逐步推进。但一个没有检索系统、推介网站链接进入的单刊全文平台只是一个信息孤岛。几乎没有读者能够记住并直接在浏览器地址栏中输入某个期刊网站的域名来访问我们的网站。因此,即使我们的网站功能完备、内容丰富、过刊回溯连续完整,读者都很少有机会看到,失去了过刊回溯的大部分意义。在这方面,《中华血液学杂志》与《中国肺癌杂志》进行了尝试,利用作为PubMed收录期刊的得天独厚的优势,通过PubMed过刊回溯与LinkOut全文链接搭建了检索系统与单刊网站的桥梁,提高了网站的访问量,充分发挥过刊的资源优势,提升期刊在国际同行间的展示度。

2 PubMed与LinkOut全文链接

2.1 PubM ed与过刊回溯

MEDLINE是美国国立医学图书馆(U.S.National Library of Medicine)最重要的书目文摘数据库,内容涉及医学、护理学、牙科学、兽医学、卫生保健和基础医学。收录了全世界70多个国家和地区的4 000余种生物医学期刊,现有书目文摘条目1 000万余条。PubMed系统是由美国国立生物技术信息中心(NCBI)开发的用于检索 MEDLINE、PreMEDLINE数据库的网上检索系统。PubMed具有权威、免费、检索功能强大、个性化定制功能丰富等优点,是目前国际上使用最广泛、影响力最大的生物医学信息资源检索系统[7]。

国际著名学术期刊出版商Elsevier、Springer等旗下的PubMed收录期刊都实现了PubMed过刊回溯,及LinkOut链接到出版商网络平台的文章全文。PubMed现收录中国出版的科技期刊120余种,只有少数期刊完成了PubMed过刊回溯和LinkOut全文链接,非常不利于向国际同行展示自己的学术成果。

2.2 LinkOut全文链接

LinkOut是NCBI提供的一项允许第三方将特定的NCBI数据库记录与相关网络资源进行连接的服务。通常情况下,出版商及其他全文提供商使用LinkOut提供从PubMed条目到他们的在线期刊全文的链接。链接提供者负责链接信息的提供和链接的日常维护[8]。

所有被PubMed收录的期刊均可申请使用LinkOut服务,出版商在提交全文链接之前务必保证对应的论文条目电子数据已提交完毕。在开始使用LinkOut服务之前,链接提供者需要向LinkOut客服邮箱发送申请邮件,邮件要提供申请者的名称、邮箱、联系人电话、PubMed帐号、期刊名称、ISSN、在线全文的访问限制等信息。并准备两个XML文件:标识文件(identify file)和资源文件(resource file)。标识文件包含链接提供者组织机构的信息;资源文件描述需要链接的PubMed条目,并包含LinkOut需要的用于生成链接的相关信息[8]。下面简要介绍这两个文件的功能和制作方法。

2.2.1 标识文件(identify file)

标识文件包含在LinkOut列出的链接提供商的基本信息,如ProviderId,名称,网址等。该文件必须为纯文本文件,使用记事本等文本编辑器进行编辑,文件须命名为 providerinfo.xml,并且大小写敏感。图1所示为一个providerinfo.xml文件示例,该链接提供者为 Good Publisher,Inc.,ProviderId为8888。

图1 providerinfo.xm l文件示例

2.2.2 资源文件(resource file)

资源文件描述生成链接的PubMed条目,并包含LinkOut生成链接时需要的信息。文件中提供的链接必须直接指向文章全文,而不能在读者点击后再进行额外的搜索动作。资源文件后缀名为.xml,文件名称可以包含字母数字和下划线,不允许使用特殊字符和空格,链接提供者可根据需要提交多个资源文件。图2所示的资源文件描述了JCell Biol在线全文的链接。资源文件主要包含两个功能:选取PubMed记录(<ObjectList>)、为记录生成链接(<ObjectUrl>),下面分别介绍两部分代码的编写方法。

图2 resource文件示例

<ObjectList>标签用于选择NCBI数据库中的记录,资源文件中描述的链接将被应用在这些记录上。<ObjectList>可以包含一个或多个<ObjId>或<Query>子元素。 <ObjId>元素包含记录的PMID,<Query>元素包含一个有效的PubMed检索,通过这两种方式获取到的记录都会应用<ObjectUrl>元素中的描述生成对应链接。图3,图4分别给出了使用<ObjId>和<Query>元素检索记录的示例代码。

<ObjectUrl>用于描述在线全文的链接,它包含<Base>、<Rule>、<SubjectType>和<Attribute>4个子元素,其中<Base>和<Rule>连接在一起形成链接的URL,<SubjectType>和<Attribute>描述记录被链接到的资源。<Base>是所选记录全文URL的固定部分,通常是提供商网站的URL;<Rule>包含URL其余可变的部分。图5给出了使用<Base>+<Rule>描述链接的例子,其中链接的可变部分的构成方式为“issn/卷/页码”。

图3 使用〈ObjId〉选择记录示例

图4 使用〈Query〉选择记录示例

图5 使用〈Base〉+〈Rule〉描述链接

3 两种期刊的实践

3.1 期刊网站过刊回溯进展

《中华血液学杂志》于1980年创刊,由中华医学会主办,现为北大中文核心期刊、中国科技论文统计源期刊,同时被国内外多家检索系统收录。该刊于1997年被MEDLINE收录,由中华医学会负责PubMed每期文章元数据的提交,目前在PubMed可检索文章2400余条。《中华血液学杂志》于2012年采用玛格泰克网刊发布系统建立了期刊的官方网站。网站提供文章摘要和PDF全文的浏览、下载,编辑部正积极开展本刊网站的过刊回溯工作,目前已回溯至2011年。

《中国肺癌杂志》于1998年创刊,由天津医科大学总医院主办,现为中国科技论文统计源期刊,北大中文核心期刊,同时被CA、EMBASE、EBSCO等检索系统收录。该刊于2010年7月被MEDLINE收录,由编辑部自行制作提交每期元数据文件及LinkOut链接文件,目前在PubMed可检索文章1800余条。《中国肺癌杂志》于 2008年使用 Open Journal Systems(OJS)搭建了网络全文平台,并于2011年3月完成过刊回溯工作。自1998年创刊第1卷第1期第1篇文章开始,至今发表在本刊的所有文章都已实现PDF全文上网发布在本刊网站(www.lungca.org)。在回溯过刊的过程中,为了方便后期生成PubMed LinkOut全文链接,我们为所有过刊文章分配并注册一个DOI号,同时在文章的PDF文件中添加对应的DOI号。

对于历史较久远的刊期如何生成PDF文件的问题,两种期刊分别做了不同的尝试。《中华血液学杂志》保留有过刊的方正排版文件,编辑部使用转换工具自行转成PDF。而《中国肺癌杂志》曾迁址,很难再找到过刊当年的排版文件,因此选择从CNKI和万方数据库中下载文章的PDF全文。

3.2 PubM ed条目回溯

《中国肺癌杂志》于2010年7月被PubMed收录,MEDLINE批准索引的该刊论文从2010年1月出版的第13卷第1期开始。为了更好地保证期刊数据在PubMed检索平台的连续性、完整性,编辑部与NCBI数据提供支持小组沟通之后,获准向PubMed提交2010年前的文章数据。过刊数据的制作提交方式与现刊相同。尽管这些过刊记录不会被MEDLINE索引,也就是说它们不包含一些额外的功能,如MeSH主题词等,但所有记录都是可以在PubMed检索到的,这已经能够基本满足一本迫切希望提高网站文章访问量、下载量,提升国际同行间展示度的中文期刊的需求。

《中华血液学杂志》目前在PubMed上已回溯至1997年,更进一步的回溯工作会在完成1997年至今本刊网站及LinkOut链接的回溯工作之后进行。

3.3 LinkOut全文链接回溯

如2.2.2节所述,在制作LinkOut资源文件时有两种选择记录的方式:使用PMID(<ObjId>)或PubMed(<Query>)检索。两种期刊根据各自的情况,分别选择这两种方式编写资源文件。

在完成本刊网站的过刊回溯后,《中国肺癌杂志》的全部文章都已注册了DOI,因此可以使用DOI方便地生成所有PubMed条目的链接。图6所示为《中国肺癌杂志》的资源文件,使用 <Query>的PubMed检索选择本刊的所有条目,通过“http://dx.doi.org/+DOI”的规则生成每个条目的全文链接。这种方式的资源文件编写较简单,短短20行的文件就能完成全部文章LinkOut链接的生成任务,且今后无需修改,只要保证向PubMed提交的元数据文件中包含了DOI号即可。但前期准备工作任务量较大,因DOI在国内的流行是近几年的事,早年的过刊大多没有分配注册DOI,所以需要从头开始完成DOI分配、添加至PDF文件、DOI注册等一系列工作。

《中华血液学杂志》自1997年被收录起,向PubMed提交的注册文件均没有包含文章的DOI信息,因此不能使用DOI方式直接生成链接。而要使用PMID逐条选择PubMed条目,并用该文章在本刊网站摘要页面的URL作为全文链接。图7所示<Link>标签描述的是《中华血液学杂志》一条PubMed记录的链接:使用 <ObjId>21429408</ObjId>选择PMID为21429408的记录,并将它的LinkOut链接指定为“http://www.hematoline.com/CN/abstract/abstract582.shtml”。

《中国肺癌杂志》与《中华血液学杂志》使用的LinkOut链接回溯方式差异较大,两种方式都有各自的适用情况,各有利弊,表1比较了两种期刊客观条件的差异及两种不同实现方式。图8所示为《中国肺癌杂志》完成过刊回溯后,在PubMed检索到的1998年创刊号第1篇文章,点击右上角的“CJLC”图标可直接链接到位于本刊网站该篇文章的PDF全文。

图6 《中国肺癌杂志》资源文件

图7 《中华血液学杂志》资源文件节选

表1 两种期刊实现LinkOut全文链接回溯方式的比较

图8 《中国肺癌杂志》创刊号第1篇文章

4 总结与展望

科学研究具有明显的继承性和延续性,过刊论文对于科研的主题查新、成果鉴定及回溯检索都具有重要的参考价值。传统的过刊信息检索主要通过书本式索引和馆藏目录的方式,随着期刊数字化、网络化的不断发展,越来越多的用户开始使用计算机网络检索作为主要手段来获取信息。目前国外各大商业出版社和学会的在线出版平台及数据库都完成了过刊数字化回溯,如Elsevier,OUP,Springer,JSTOR,PMC等。近年来,国内数据库及期刊社也在积极开展过刊回溯工作。很多期刊也搭建了自己的网络全文平台,完成过刊回溯,发布文章的PDF和HTML格式全文。然而一个独立的单刊网站不会被太多读者注意到,作为办刊者需要考虑到是如何为网站带来更多的访问量和文章下载量,让更多读者读到我们的文章,从而提升期刊的展示度。

《中华血液学杂志》与《中国肺癌杂志》在建立了网络全文平台后都开展了该刊网站的过刊回溯工作。同时,作为PubMed收录期刊,也进行了过刊PubMed条目回溯,并利用PubMed提供的LinkOut服务为期刊所有PubMed条目建立了LinkOut全文链接。

实践证明,过刊回溯结合PubMed LinkOut链接能为网站文章的访问量带来明显提升。《中华血液学杂志》在2013年5月使用DOI为PubMed条目生成链接后,DOI解析量由4月份的3次跃升为5月份835次和6月份1236次。《中国肺癌杂志》自2011年3月完成过刊回溯以来,DOI月解析量一直保持在8000多次。极大地提高了文章的展示度,将期刊网络全文平台和过刊回溯工作的价值最大化,有效提升期刊在国际同行间的展示度,增加文章下载量和被引用的机会,对提高期刊影响力有明显促进作用。

目前国内编辑部主要使用手工方式制作元数据,而国外主流出版商大多已实现元数据的自动提取、上传,极大地提高了过刊回溯工作的效率和质量,这也是我们今后进一步努力的方向。总之,完成期刊的过刊数字化回溯及PubMed LinkOut全文链接能够重新焕发医学期刊过刊论文的二次生命,提高期刊的展示度和网站文章的访问量、下载量,对提升期刊影响力和国际展示度有一定的积极作用,是学术期刊全心全意为读者、作者服务的重要体现。

1 顾凯,邹栩.我国药学期刊的网站建设现状与分析.中国科技期刊研究,2013,24(1):29-32

2 程维红,任胜利,路文如等.中国科技核心期刊网站建设现状.中国科技期刊研究,2011,22(5):649-655

3 周月琴.关注网络环境下期刊的连续性.图书馆杂志,2009,28(1): 35-37

4 华薇娜,许美琪.美国过刊数据库概况及对我国开发过刊数据库的思考.中国图书馆学报,2004,30(4):75-77

5 Jan Willem Wijren.Journal backfiles in scientific publishing-a marketwhite paper.British Labrary[2013-07-11].http://www.bl.uk/reshelp/atyourdesk/docsupply/productsservices/digitisation/journalbackfileswhitepaper.pdf

6 刘金铭.国外过刊数字化和数字档案库进展.中国科技期刊研究,2013,24(2):223-232

7 林晓华,钟伶.基于PubMed开展学科服务的探索.图书馆学研究,2013,34(4):56-58

8 [2013-07-13].http://www.ncbi.nlm.nih.gov/projects/linkout/doc/publinkout.html

猜你喜欢
过刊血液学全文
临床血液学检验规范化培训教学模式探索与实践
基于血液学细胞形态学技能学习的轻游戏教学软件开发探索
青年再造
发现“西方中医”
反腐
来信
富硒女贞子对山羊生产性能、血液学和血清生化指标的影响
银屑病患者血液学检验指标变化特点及其临床诊治价值探讨
《中国蔬菜》网站实现在线投稿和过刊浏览
《中国蔬菜》网站全新开通 实现在线投稿和过刊浏览