图情期刊科学数据规范调查与分析

2021-11-03 07:45陈飞飞宋丹阳
数字图书馆论坛 2021年9期
关键词:图情可用性声明

陈飞飞 宋丹阳

(山东师范大学图书馆,济南 250014)

2018年国务院办公厅发布《科学数据管理办法》,提出“主管部门和法人单位应积极推动科学数据出版和传播工作,支持科研人员整理发表产权清晰、准确完整、共享价值高的科学数据”[1]。科学数据是科学研究的重要产物,也是开展新的科学研究的重要基础。对于科研人员而言,研究论文与形成研究论文的基础数据之间的联系是强大而直接的,但目前期刊论文在发表时往往限于篇幅,仅发表学术思想及发现,而蕴藏着科学理论的科学数据经常被掩埋在零散的实验室记录本中[2],读者在阅读论文时科学数据与论文直接的联系就会减弱或完全缺失,科学研究的可重现性大大减弱。期刊作为当前科学研究成果及学术交流的主要载体,在推动科学数据出版和传播,鼓励研究人员发表、共享科学数据方面有着重要的责任和天然的优势。期刊科学数据规范的制定对于促进科学数据共享、实现科学数据的重复使用、提高科学研究的可重现性都有着非常重要的作用。

期刊科学数据规范的制定与实施过程中,涉及的最直接、最重要的人员就是期刊编辑和科研人员,他们对期刊科学数据共享的认识与认可,是期刊科学数据规范制定和实施的基础和条件[3]。图情是科学数据相关研究的主要学科领域[4],科学数据管理与共享已进入众多图情期刊的选题指南中[5-6],图情期刊对于科学数据规范的制定有更加全面的理论基础和用户基础。但是,目前国内期刊科学数据规范的制定还尤为不足,对国外图情高影响力期刊科学数据规范的调查分析,可为我国图情期刊科学数据规范的制定提供一定的参考。

1 期刊科学数据规范概述

近年来,国内外学者对期刊科学数据规范进行了大量的研究。由于不同学科领域的研究对象、研究方法以及共享理念等存在差异,直接导致期刊对科学数据重视程度的不同[7],各学科领域间科学数据规范的发展程度也存在较大差异。大量学者对各个学科领域内期刊的科学数据规范进行研究,例如:Zenk-Moeltgen等[8]对社会学期刊的数据规范进行了研究,只有少数社会学期刊有明确的数据规范,但大多数期刊都参考了出版商协会提供的共同规范;Rousi等[9]分析了神经科学、物理学和运筹学领域高引用期刊的研究数据共享规范,在规范存在、力度和具体性方面,研究领域之间仍存在相当大的差异;Vasilevsky等[10]对生物医学期刊的研究数据规范进行了研究。

为推动更多期刊制定和实施数据政策,各出版集团纷纷制定了科学数据规范,出版集团的科学数据规范为期刊科学数据规范的制定提供了指导和参考[11]。部分学者对出版集团的期刊数据规范进行研究。例如:李莉等[12]选取ACS、RSC和Elsevier期刊数据库作为调研对象,对其期刊发表规范中提交科研数据的类型、格式和方式进行分析;彭琳等[13]通过对中国科学院主办的65种SCI收录的英文科技期刊进行调研,调研了期刊的数据规范及其强度,并从数据提交、审查、存储和长期保存、引用要求等方面对样本期刊的数据规范进行了分析。

同时,部分学者对科学数据规范中的某一环节进行了研究。例如:雷雪[14]对期刊科学数据可用性声明规范进行了梳理;司莉等[15]以图书情报领域5种期刊为调查样本,对科学数据引用行为进行了研究。

目前尚未有学者对于图书情报领域期刊的科学数据政策进行分析和研究。因此,本研究对图情领域高影响力期刊的科学数据规范进行系统的梳理分析,了解图情领域高影响力期刊的科学数据规范强度如何、何处共享、如何共享等问题,以期为国内图情以及其他学科期刊制定和完善科学数据规范提供参考和借鉴。

2 研究方法

本研究选取46种图情领域高影响力期刊为样本,通过对其官方网站内容进行定性分析,审查其科学数据出版规范。

2.1 数据收集

在本研究中,图情领域高影响力期刊选择2020年JCR期刊引证报告中图情学领域(Information Science & Library Science)所收录的影响因子大于1.5的46种期刊为研究样本。对期刊科学数据规范的审查于2021年7月完成,主要数据来源于期刊官方网站中作者指南。如果期刊指南明确地与出版商的科学数据规范存在链接且指示作者查看此信息以遵守其数据共享规范,则在本文的分析中使用出版商科学数据指南。如果期刊的科学数据规范与出版商的科学规范不一致或缺少直接、明确的链接,则优先考虑期刊的规范和指南,并在本文的数据中使用。如果期刊的作者指南因以下原因而无法在网上公开获取,如仅在邀请的基础上接受投稿,则该期刊不包括在本文的数据中[9]。

2.2 数据分析与编码

通过对期刊网站的科学数据规范相关内容进行整理和分析,参考期刊科学数据相关论文,得出期刊网站科学数据规范主要集中在科学数据共享、数据存储、数据引用、数据可用性声明以及数据审查5个方面,将这5个方面作为编码类目,同时结合Piwowar等[16]、Resnik等[17]、Hrynaszkiewicz等[18]对5个类目进行了编码,最终编码框架如表1所示。

表1 科学数据规范编码表

对科学数据规范的编码由两位编码员独立完成。每个人都审查了期刊网站上的科学数据规范并对规范进行编码。审查时间为2021年7月25日—8月25日。编码完成后对编码员编码之间的一致性进行统计评估,对于存在差异的编码,通过重读规范来进一步解决,必要时咨询第三方。经统计两位编码员的编码一致性为86.8%。

3 调研结果

3.1 科学数据规范

在46种被调查的图情领域高被引期刊中,其中36种(78.3%)期刊都将科学数据的相关规范纳入到了其期刊投稿的作者须知中。21种期刊采用了弱科学数据规范,即期刊鼓励论文结论所依赖所有数据集都可供审稿人和读者使用,如International Journal of Information Management[19]鼓励作者在适当的情况下共享支持其论文的数据,并能够将数据与已发表的文章相关联。11种期刊的科学数据规范被作为附加材料的一部分被提及,未做详细规定。将科学数据作为发表论文强制性要求的有2种期刊,如International Journal of Geographical Information Science的科学数据规范[20]中规定,在不会违反对受试者的保护或其他有效的道德、隐私或安全问题的前提下,作者论文中所涉及的科学数据需要与读者进行共享。

在期刊的作者指南中,对于科学数据规范使用率较高的名称有Research Data、Data Sharing Policy、Supplemental Material/Supporting Information、Transparency And Openness Promotion(TOP)Guidelines,分别有14种(30.4%)、8种(17.4%)、6种(13.0%)、6种(13.0%)的期刊使用命名。

3.2 科学数据存储

鼓励作者将数据存储在数据存储库中是期刊数据存储的主要做法,在存在科学数据规范的36种期刊中,30种(83.3%,N=36)期刊建议或要求将科学数据存储在数据存储库中,对于存储库的选择,有期刊给出了建议数据存储库名单,也有期刊对存储库进行了指定,还有期刊让作者自主选择存储库。如European Journal of Information Systems[21]通过Figshare数据库发布其期刊数据。另外,2种期刊鼓励将数据作为补充材料在线提交给期刊,在电子版期刊出版时作为补充材料随期刊论文一同出版。如Research Evaluation[22]提出所有被视为补充数据的材料必须与主要手稿同时提交,以供同行审查。3种期刊的作者可以根据情况选择将数据提交给期刊或存储在数据存储库中,如Learned Publishing[23]指出,作者可以选择将数据上传至数据存储库或者作为补充文件添加到论文中随论文一起发表,但补充文件仅以PDF格式提供。

3.3 科学数据引用

在36种存在科学数据规范的期刊中,28种(77.8%,N=36)期刊鼓励或要求作者对科学数据进行科学规范的引用,部分期刊对科学数据引用的格式进行了详细说明,并给出了引用模板。其中8种期刊要求作者论文发表时必须引用相关数据,20种期刊鼓励作者引用相关数据。如Journal of the American Medical Informatics Association[24]支持Force 11数据引用原则,并要求所有公开可用的数据集在参考列表中使用登录号或唯一标识符(如数字对象标识符)完全引用,并指出数据引用应包括DataCite建议的最低信息:[datasets]*作者、年份、标题、发布者(存储库名称)、标识符。

3.4 数据可用性声明

数据可用性声明用来告诉读者与论文相关的研究数据是否可用,在哪里可用,以及在什么条件下可以访问数据。在制定了科学数据规范的36种期刊中,共有24种(66.7%)期刊鼓励或要求作者提交数据可用性声明,其中9种期刊要求作者在论文发表时必须提供数据可用性声明,如Journal of Computer-Mediated Communication[25]指出包含数据可用性声明是在其期刊上发表文章的一项要求,声明应尽可能通过链接数据或提供所需的唯一标识符来描述和提供访问方式。15种期刊鼓励作者提供数据可用性声明,如International Journal of Information Management[26]鼓励作者提交数据的可用性说明,如果数据无法访问或不适合发布,可以在数据可用性声明中说明原因,如说明研究数据是保密的。

鼓励或要求作者提交数据可用性声明的24种期刊中,Elsevier出版的8种期刊鼓励作者提交数据论文到其数据期刊Data in Brief中,Elsevier的科学数据规范指出数据论文是一种新的文献形式,可以确保作者数据得到积极的审查、整理、格式化、索引、提供DOI,并在发布时向所有人公开,鼓励作者将提交给Data in Brief的数据论文作为一个附加项目与修订版的手稿一起上传。如果期刊论文被接受,则数据论文将自动转移到数据期刊Data in Brief中,在那里被编辑审阅、公开发布并链接到论文上[27]。

3.5 科学数据评审

同期刊论文发表前的同行评审一样,数据评审是对科学数据质量进行控制的重要一环。本次调查的制定了科学数据规范的36种期刊中有12种期刊对数据评审做出了相关说明。其中:6种期刊在期刊论文同行评审时对科学数据进行审阅,如Information Systems Journal[28]指出,附加材料信息是论文不可分割的一部分,将进行相应的审查;4种期刊鼓励或者在评审者要求时提供相关数据,如Scientometrics[29]要求作者应准备发送相关文件或数据,以验证所提供结果的有效性;2种期刊明确指出不对科学数据进行正式的同行评审,如Journal of Health Communication[30]要求作者准备在审阅者请求时共享与数据存储相关联的链接,当一个或多个数据集与一份手稿相关时,这些数据集不会作为期刊提交过程的一部分进行正式的同行评审。

4 讨论与建议

4.1 加快制定合适的期刊科学数据规范

通过调查可以看出,在图情领域高影响力期刊中制定科学数据规范是比较普遍的,36种(78.3%,N=46)期刊将科学数据的相关规范纳入到了其期刊投稿的作者须知中。但通过对我国图情领域CSSCI期刊的科学数据规范进行调查发现,21种CSSCI来源期刊中仅2种(9.5%)期刊制定了科学数据规范,分别是《数据分析与知识发现》《图书情报知识》,科学数据规范制定比例远低于国际图情高影响力期刊。在科学数据规范强度的调查中,21种(66.7%,N=36)期刊采用了弱科学数据规范,即鼓励作者共享与论文相关的科学数据。期刊要求作者共享与发表论文相关的科学数据,可能会激励作者分享数据,但同时也是对不情愿的作者的一种潜在威慑,影响作者的投稿意愿。罗晓兰等[31]的调查显示,强科学数据规范会影响作者投稿以及继续投稿的意愿。因此,在现阶段,我国图情期刊应积极制定合适的期刊科学数据规范,在设置科学数据规范强度时可参考图情高影响力期刊的做法,以鼓励作者共享其科学数据论文为主,强科学数据规范可优先在高影响力期刊中进行,以高影响力期刊来带动科研人员的科学数据共享意识。

4.2 鼓励或要求作者将科学数据存储至数据存储库

对科学数据的存储主要有两种方式:一是存储在数据存储库中;二是作为补充材料提交给期刊,在电子版期刊网站上存储。本次调查中,30种(83.3%,N=36)期刊建议或要求将科学数据存储在数据存储库中。科学数据存储和维护的成本和负担较大,对于期刊来说压力较大,因此,与数据存储库合作,建议或要求将科学数据存储在数据存储库中,并将科学数据存储信息链接到期刊论文中是当前多数期刊的选择。建议国内期刊在充分调研的基础上,选择适合期刊特点的数据存储库,建议整理数据存储库清单,引导和指导作者将科学数据存储在数据存储库中。

4.3 鼓励或要求作者引用科学数据

早在20世纪80年代,Howard D. White便指出社会科学学者应该像引用文献一样以规范化的格式列出其使用的数据[32]。2018年7月,我国《科学数据引用》国家标准正式实施,标志着我国科学数据可以像学术论文一样被学术同行标准化引用[33]。科学数据引用不仅是促进数据共享与重用的重要途径,也可增加数据创造者的被认可度,提高数据的透明性,利于科学过程的重现与研究成果的印证[15]。本次调查中,28种(77.8%,N=36)期刊鼓励或要求作者对科学数据进行科学规范的引用。国内图情期刊应以《科学数据引用》标准为指南,将科学数据的规范化引用加入到其作者指南中,同时为作者提供科学数据引用指导和案例介绍,鼓励或要求作者规范化引用科学数据。

4.4 鼓励或要求作者提交数据可用性声明

数据可用性声明是实现期刊论文与科学数据相联系的重要途径,对增加数据透明度、实现科学数据共享具有重要作用。在制定了科学数据规范的36种期刊中,共有24种(66.7%)期刊鼓励或要求作者提交数据可用性声明。数据可用性声明为作者提供了一种标准化的方法来描述他们的数据是如何共享的,数据可用性声明并不一定意味着数据当前是共享的,作者可在声明中表明将根据读者请求来共享数据,或者声明他们的研究无法进行数据共享的原因[34]。期刊应制定各自的数据可用性声明模板,鼓励或要求作者根据模板生成自己研究论文相关数据的数据可用性声明。

4.5 与数据存储库合作,共同推进科学数据评审

科学数据对于期刊评审者验证科学研究结论的正确性以及可重复性具有重要作用。本次调查中,有10种期刊在科学数据规范中规定将对科学数据进行同行评审。本次调查中,建议或要求将科学数据存储在数据存储库中是图情领域高影响力期刊的主要做法,大多数据存储库会对提交的数据进行必要的质量控制,建议或强制数据以标准的机器可读的格式进行存档,以提高数据的可重用性和互操作性[35]。期刊评审专家对科学数据的评审主要侧重验证科学数据如何影响结论、科学研究结果的正确性以及可重现性等方面。因此,期刊应与数据存储库合作,共同推进科学数据评审。同时,期刊应鼓励或要求期刊评审专家在期刊论文评审时对其科学数据的可用性及可重现性进行充分的验证,保证数据的科学性。

5 结论

期刊科学数据规范对推动科学数据共享,实现科学数据重用具有重要作用。本研究对46种图情领域高影响力期刊的科学数据规范进行了调查,对其科学数据规范强度、数据存储、数据引用、数据可用性声明以及数据评审等内容进行了分析,以期对国内期刊科学数据规范的制定提供参考。但本研究仅通过期刊投稿指南对期刊科学数据规范进行调研具有一定的局限性,与各期刊的编辑进行有效的互动调查,是进一步明确期刊科学数据规范的有效途径,也是值得进一步讨论的议题。

猜你喜欢
图情可用性声明
数字时代图情档学科教育的数据化创新
本刊声明
本刊声明
基于辐射传输模型的GOCI晨昏时段数据的可用性分析
机构知识库网站可用性评价指标的计量学分析
新文科建设背景下的图情档学科建设(笔谈)“新文科”呼唤图情档成为“硬”学科
聚青年学者之睿智 窥图情档学科之未来
——写在《图书与情报》“图情档青年学者专辑”出版之前
本刊声明
本刊声明
医疗器械的可用性工程浅析