中美科学数据政策比较
——以《科学数据管理办法》和《促进联邦资助科研成果获取的备忘录》为例*

2022-12-17 07:49邢文明
图书馆论坛 2022年11期
关键词:数据管理备忘录资助

邢文明,杨 玲

随着大数据时代的到来和数据密集型研究范式的深入发展,科学数据作为重要的基础性科技资源受到了国际社会的普遍重视。国际社会纷纷通过制定相关政策、为科学数据的存储与监护提供基础设施及服务、为科研人员管理与共享科学数据提供指导和帮助等多种措施,推动科学数据的开放共享。在这些措施中,通过制定相关政策以促进、规范和保障科学数据共享无疑是最切实有效的,为诸多国家所采用[1]。

作为当今世界最重要的发展中国家和发达国家,中美两国的政府均出台了有关科学数据开放共享的政策。2013年2月22日,美国白宫科技政策办公室(Office of Science and Technology Policy)发布了《促进联邦资助科研成果获取的备忘录》(Increasing Access to the Results of Federally Funded Scientific Research,以下简称《备忘录》),要求每个年度研发资助经费超过1亿美元的联邦机构都必须制定计划,提升其资助的科研项目成果的可获取性,为公众利用这些成果提供便利[2]。2018年3月17日,我国国务院办公厅印发《科学数据管理办法》(以下简称《办法》),提出要进一步加强和规范科学数据管理,保障科学数据安全,提高开放共享水平,更好地为国家科技创新、经济社会发展和国家安全提供支撑[3]。本文将从比较研究的角度,对两项政策进行比较分析,以期为完善和优化我国的科学数据管理与共享政策提供参考。

本文选取这两项政策进行分析,主要有以下两个原因。(1)二者是迄今仅有的国家层面的科学数据政策。尽管世界上的重要国家(如美国、英国、法国、德国、加拿大、澳大利亚等)纷纷出台相关政策以推进和规范科学数据的开放共享,但其他国家的相关政策大都是由某一政府部门或机构发布的。毋庸置疑,国家层面出台的政策,其位阶和效力更高,是其他相关政策的指南和依据,更具全局性和重要性。同时,国家层面的政策还体现各国对本国科学数据管理与共享战略的顶层设计、优先重点和推进策略,因而具有较好的比较分析意义。(2)美国是世界上较早重视并开展科学数据管理与共享的国家。早在1991年,白宫科技政策办公室就发布了关于研究数据管理的政策声明,要求对全球变化研究项目所产生的科研数据实行“完全与公开”(Full and Open)的共享[4],经过30年的探索与积累,已建立了较完善的科学数据管理与共享的实践体系,因而其政策也具有较好的借鉴意义,值得我国参考。

1 文献述评

国外在科学数据管理政策实践方面已取得了丰硕成果,国际组织[5]、政府及其各部门[6]、科研资助者[7]、科研机构(如研究中心[8]、高校[9]、出版机构[10]、数据中心[11])等不同主体均制定了有关科学数据开放共享的政策。同时,国外在理论研究方面也进行了诸多探讨,主要包括:制定和优化科学数据政策的理论探讨[12]、科学数据开放共享利益主体的行为研究[13]、科学数据开放共享服务探讨[14]、专业领域科学数据开放政策的分析研究[15]、科学数据开放政策实证研究[16]等。

国内有关科学数据政策的研究,始于以中国科学院孙枢院士为首的科学数据共享政策考察团撰写的《美国科学数据共享政策考察报告》。随后,相关研究成果大量出现,可分为如下几个方面:一是有关国内外科学数据开放共享政策的调研分析与经验总结,如对国际组织[17]、科学资助机构[18]、科研机构[19]、高校图书馆[20]、出版商[21]、数据中心[22]等不同利益主体,对海洋科学[23]、人口与健康科学[24]、生命科学[25]、医学科学[26]、农业科学[27]、天文科学[28]等不同学科领域的数据,以及数据保存[29]、数据安全[30]、数据汇交[31]、数据共享[32]等不同环节的政策内容进行调研分析与借鉴;二是有关政策框架及评价指标体系的研究,如徐天雪运用定性和定量相结合的方法,为科学数据开放共享政策建立评估指标体系[33];卫军朝等从系统性、整体性的视角出发,对分散的科学数据开放政策进行梳理,构建相互协调、有机联系的科学数据开放保障政策体系[34];路鹏等以宪法、党和国家的科技政策为指导,将与有关科学数据共享的现行、正在制定和将要制定的全部政策法规组合起来,形成相互间具有内在联系的科学数据共享政策法规体系,为科学数据共享立法提供政策法规体系框架[35];三是有关《科学数据管理办法》的解读与优化研究,如部分学者对《科学数据管理办法》进行解读和剖析[36],关注政策的实施细则,依据《办法》的基本原则与要求,建立本省或本部门的科学数据管理办法,为我国科学数据管理政策的推进贡献力量。

综上可知,尽管国内外有关科学数据政策的研究已较为丰富,围绕政策的调研分析,评估借鉴、解读探讨等方面都有较多的成果。但从比较的角度,探讨不同政策的异同,尤其是从国家层面对不同国家的科学数据政策进行对比分析的研究尚不多见。

2 研究设计

文章借鉴国内学者顾立平在《前瞻导论:形塑未来与推动政策》[37]一书中提出的政策内容分析方法展开研究,即设置若干观测问题并建立分析框架进行细化分析。同时,邢文明等[36]指出,《办法》存在着“数据生命周期”和“相关责任者”两条主线,其中,前者围绕科学数据管理与共享的主要环节(采集与生产、汇交与保存、共享与利用等),明确各阶段的主要任务及工作要求,后者从组织管理的角度明确各责任主体的职责与分工。笔者基本认同这种看法,但认为数据生命周期的各环节其实质是科学数据管理与共享的业务流程。据此,结合《备忘录》和《办法》中的具体内容,本文分别从一般信息(政策目标、科学数据的定义、适用范围)、组织管理(管理体系、工作机制)、业务流程(数据管理计划、数据采集与生产、数据保存与安全、数据开放与公开、数据获取与利用)三个维度、十个观测点对两项政策进行比较分析(见图1)。

图1 中美国家层面科学数据管理政策的比较框架

3 多维度视角下《办法》与《备忘录》的比较分析

3.1 一般信息

3.1.1 政策目标

《备忘录》的政策目标是“加速科学突破和创新、促进产业发展、提高经济增长和就业。通过长期保存和开放获取,促进这些出版物和数据被有效再利用,使联邦科研资助的影响力最大化,也使得公共投资的可审计性最大化”。而《办法》的政策目标则是“进一步加强和规范科学数据管理,保障科学数据安全,提高开放共享水平,更好支撑国家科技创新、经济社会发展和国家安全”。二者都强调“促进科学数据的开放获取以充分发挥数据对于推动科技创新和经济社会发展的价值”,但与《备忘录》相比,《办法》多了“保障科学数据安全以支撑国家安全”的目标追求。

3.1.2 科学数据的定义

对于科学数据的定义,《备忘录》沿用美国公共与预算管理办公室(OMB)A-110[38]通告中的定义:“被科学界普遍接受的、用以证实研究发现的、以数字形式记录的实际资料,包括用于支持学术出版的数据集,但不包括实验室记录、初步分析、科学论文草稿、未来研究计划、同行评议、同行通信或物理实体(如实验样本)”;而《办法》第二条指出:“本办法所称科学数据主要包括在自然科学、工程技术科学等领域,通过基础研究、应用研究、试验开发等产生的数据,以及通过观测监测、考察调查、检验检测等方式取得并用于科学研究活动的原始数据及其衍生数据。”

二者相较,《办法》包含的“科学数据”范围更广,而《备忘录》的定义更明确。主要体现在:(1)《备忘录》仅指“以数字形式记录的”数据,而《办法》并没有强调这一点;(2)《备忘录》明确指出“实验室记录”不属于科学数据,而《办法》则包括“原始数据及其衍生数据”;(3)《备忘录》通过排除方式进一步明确科学数据的内涵:“不包括实验室记录、初步分析、科学论文草稿、未来研究计划、同行评议、同行通信或物理实体(如实验样本)”,而《办法》没有明确哪些不属于科学数据。

3.1.3 政策的适用范围

政策的适用范围是对实施客体或实施对象的界定。《备忘录》的适用范围是“年度研发资助经费超过1亿美元的联邦机构”,而《办法》的适用范围包括两个方面:一是“政府预算资金支持开展的科学数据采集生产、加工整理、开放共享和管理使用等活动”;二是“任何单位和个人在中华人民共和国境内从事科学数据相关活动,符合本办法规定情形的,按照本办法执行。”

二者的共同点是均重点关注公共资金资助产生的科学数据。其不同点在于:一方面,界定适用范围的角度有所不同,《备忘录》从责任主体(资助科研活动的联邦机构)的角度加以界定,而《办法》则是从行为规范和责任主体相结合(科学数据的采集生产、加工整理、开放共享和管理使用等活动及从事相关活动的单位和个人)的角度加以界定;另一方面,《办法》的适用对象较《备忘录》更为宽泛,《备忘录》的规范对象仅是年度研发资助经费超过1亿美元的联邦机构,而《办法》的规范对象不仅包括各级各类政府资助的科研活动,也包括非政府资助的科学数据相关活动。

3.2 组织管理

政策的组织管理包括宏观层面的组织管理体系和微观层面的工作机制。其中,宏观的组织管理体系主要是明确相关责任主体的职责与权限,理顺科学数据管理的权责划分;微观的工作机制则是明确科学数据管理工作的具体内容以及标准规范,确保各项工作有效落实。两者共同保障政策的顺利实施。

3.2.1 科学数据管理的责任主体及其职责

分析《备忘录》的政策文本,发现该政策中的责任主体有白宫科技政策办公室、资助科学研究的联邦机构、受资助者、用户等四个类别。同样,梳理《办法》的政策内容可发现,该政策中明确了国务院科学技术行政部门、主管部门、法人单位、科学数据中心、科学数据生产者和科学数据使用者等六类责任主体。尽管二者的责任主体及其职责不同,但其指导思想却基本一致,即明确不同责任主体的职责义务,形成职责明晰、各司其职的科学数据管理体系,确保科学数据管理与共享顺利进行。

3.2.2 科学数据开放共享的工作机制

良好的工作机制是确保科学数据管理与共享顺利进行的关键。分析发现,《备忘录》确立了以联邦资助机构“公共获取计划”(Public Access Plan)为核心的实施机制,即要求资助科学研究的各联邦机构制定并落实公共获取计划,确保联邦政府资助的科研成果得以公开获取。而《办法》则根据“国家统筹、各部门与各地区分工负责”的原则,确立统筹管理与分工负责相结合的机制,各级责任部门一方面要宣传并贯彻落实国家和部门(地方)科学数据管理政策,另一方面要统筹规划/指导/组织开展本部门(地区/单位)的科学数据工作,建立健全本单位科学数据相关管理制度,确保科学数据管理与共享的顺利进行。由此可见,《备忘录》确立了以资助科学研究的联邦机构为核心的实施机制,而《办法》则确立了上级部门统筹协调和综合指导、下级部门组织实施相结合的工作机制。

3.3 业务流程

3.3.1 数据管理计划

数据管理计划(Data Management Plan,DMP)是一份概述研究者在科研过程中以及结束后如何对科学数据进行管理、保存及提供共享的规划文档[39],有助于确保科学数据的创建、保存、归档和利用有章可循、有据可依,同时也能确保科学数据共享、重用和长期保存的一致性、准确性与可追溯性[40]。《备忘录》要求得到联邦政府经费资助的研究人员均需制定数据管理计划,说明将如何确保研究过程中产生的数据得到妥善的长期保存与获取,或说明为什么长期保存和公共获取这些数据是不适宜的。而《办法》并未提及数据管理计划。

3.3.2 数据的采集与生产

按照相关标准采集(或生产)高质量的数据是确保数据可用性的关键,因而确保数据的质量是数据采集与生产阶段的主要目标。对于科学数据的采集与生产,《备忘录》并没有相关规定,而《办法》则分别对不同责任主体的职责加以明确,构建了系统完善的数据采集(生产)质量保障体系:(1)国务院科学技术行政部门负责组织研究制定国家科学数据标准规范;(2)有关科研院所、高等院校和企业等法人单位(以下简称“法人单位”)是科学数据管理的责任主体,应“建立科学数据质量控制体系,保证数据的准确性和可用性”;(3)法人单位及科学数据生产者要“按照相关标准规范开展科学数据采集生产和加工整理,形成便于使用的数据库或数据集”。可见,《办法》确立了周密的科学数据质量保障体系,通过严格管理和建立标准规范,确保数据优质可用,为科学数据的共享奠定坚实的基础。

3.3.3 数据的保存与安全

数据的保存是实现数据长久可用,充分发挥其潜在价值的基础。分析发现,《备忘录》与《办法》均重视科学数据的保存,但同时又各有侧重,体现在:(1)《备忘录》更注重数据的可获取和可利用,指出“由联邦机构全部或部分支持的非保密研究所产生的数字格式的科学数据应被存储到可公开获取的数据库中,并支持数据的查询、检索和分析”;而《办法》更注重数据的安全保护,通过建立安全保护措施和容灾备份机制确保数据在存储过程中不被非法获取和恶意使用、不致丢失损毁等;(2)《备忘录》考虑数据保存的成本,指出“在长期保存、获取的价值与相关成本和管理责任之间寻求平衡”;而《办法》则特别重视数据的保密管理以保障国家安全。一是在数据开放前明确数据的密级和保密期限、开放条件与对象;二是在对外提供数据时实行安全审查制度,并围绕数据的保密与安全明确相关责任主体的职责。

3.3.4 数据的开放与公开

科学数据的开放与公开是保障数据自由利用的前提。对于科学数据的开放与公开,《备忘录》并未特别强调如何建立公开机制,但强调要确保数据的可获取性:一方面要求将科学数据“存储到可公开获取的数据库中”,另一方面要求“在确保联邦资助的研究成果得到长期保存的同时,不断优化其查找、存档和传播的途径,促进其在可获取和可互操作方面的创新”。而《办法》则以“开放为常态,不开放为例外”为指导思想,明确多种数据的公开方式:(1)编制和公布科学数据资源目录,如第十九条指出:“由主管部门组织编制科学数据资源目录,有关目录和数据应及时接入国家数据共享交换平台,面向社会和相关部门开放共享”,同时第二十条要求:法人单位“按要求公布科学数据开放目录”;(2)通过数据出版以促进开放与传播,如《办法》第二十二条规定:“主管部门和法人单位应积极推动科学数据出版和传播工作,支持科研人员整理发表产权清晰、准确完整、共享价值高的科学数据”。由此可见,《备忘录》的规定简洁高效,注重目标导向,而《办法》则注重过程的规范性,通过多种途径推动科学数据的开放与公开。

3.3.5 数据的获取与利用

数据的获取及使用是开展数据管理与数据保存的最终目的,也是实现数据价值的关键环节。如前所述,《备忘录》以“公众最大程度获取联邦资助(科研项目)产生的科学数据”为目标,一方面强调将数据“存储到可公开获取的数据库中,并支持查询、检索和分析”,以确保其可及性,另一方面要求优化数据的“可获得性和互操作性”,以确保其可用性;同时还要求资助科研的联邦机构“支持与科学数据管理、分析、存储、保存、监管有关的培训、教育和人力资源建设”。而《办法》则注重科学数据使用者的义务,指出要“遵守知识产权相关规定,在论文发表、专利申请、专著出版等工作中注明所使用和参考引用的科学数据”。

4 研究结果

4.1 《备忘录》关注科学数据的可用性,《办法》强调开放与安全并重

由上述分析可知,在政策理念与目标层面,《备忘录》关注科学数据的最大限度获取与利用,而《办法》则强调科学数据的开放与安全,将国家安全放在突出位置。在政策实施层面,《备忘录》更注重目标导向,要求资助科学研究的各联邦机构制定和实施公共获取计划以确保数据的获取与利用;而《办法》更注重过程管理,围绕数据的生命周期,对数据的采集、汇交、保存、开放、共享、利用等做出相对较详细的规定。同时,《办法》设专章对数据的保密与安全管理进行详细规定。

4.2 《备忘录》通过多种机制确保数据的可获取与可利用

相较于《办法》,《备忘录》不仅在目标上强调科学数据的可获取和可利用,也通过具体措施加以保障。例如,在数据可获取方面,强调数据必须存储到可公开获取的数据库或存档库,并提高公众发现和获取联邦资助的研究所产生的数字内容的能力;在数据可利用方面,强调在确保联邦资助的研究成果得以长期保存的同时,不断提升其被检索和获取的便捷性。

4.3 《备忘录》重视公私合作,《办法》鼓励市场化增值服务

《备忘录》鼓励公私合作,强调政府和企业共同开发科学数据蕴藏的价值,以实现公共和私有力量的紧密协作,提高数据的可获取性和可重用性,避免不必要的对已有机制的复制和资源的重复投入。美国的公私合作主要是指政府和社会资本合作,促进科学数据的共享利用。这种合作模式,于政府而言,可利用外部资源提升自身的公共服务能力和治理水平,缓解资金紧张的压力,合理分担风险;于企业而言,基于政府开放的数据资源,可开展大数据领域的创新创业,激发大数据产业的活力,促进经济发展与就业[41],从而实现《备忘录》“加速科学突破和创新、促进产业发展、提高经济增长和就业”的目标。与此对照,《办法》要求政府预算资金资助形成的科学数据按照“开放为常态、不开放为例外”的原则进行开放共享,并在此基础上,鼓励法人单位、社会组织和企业围绕自身形成的科学数据资源进行分析挖掘,形成有价值的科学数据产品,开展市场化增值服务,以实现科学数据整体效益的最大化。

从政策表述看,二者关注的重点有所不同。《备忘录》强调公共部门与社会力量的密切沟通与协作,共同推行统一的标准、规范和准则,形成多方互利共赢的局面,着眼于塑造实现数据价值最大化的生态和文化;而《办法》则鼓励社会力量积极参与科学数据的增值开发和市场化服务,通过挖掘和揭示数据的潜在价值,以满足社会对科学数据多层次、多样化的需求,着眼于数据价值的充分发掘。

4.4 《备忘录》重视数据管理计划的制定

比较美、中两国科学数据政策的内容,发现《备忘录》重视制定数据管理计划。对于受资助科研项目所产生的科学数据,该计划规定:需详细描述如何确保其长期保存和公开获取,若不适宜长期保存和开放获取,则给出说明。数据管理计划作为科学数据管理的第一步,可提前规划好数据在整个生命周期中所面临和需要解决的问题,使得数据管理有规可循、有制可依,有利于规范数据管理秩序,提高数据管理质量。

5 启示

5.1 引入科学数据开放的FAIR原则,确保科学数据的可用性

FAIR原则是2014年在荷兰莱顿的劳伦兹会议上提出的初步构想,并于2016年发布,是一套旨在确保使用者易于发现、获取、操作和使用数据的数据管理指南,即建议研究者和资助机构在存储和开放数据时,应遵循可发现(Findable)、可获取(Accessible)、可互操作(Interoperable)和可重用(Reusable)的原则。自发布以来,FAIR原则及其理念已得到众多利益相关者的广泛引用、认可和采纳[42],被诸多专家学者在多个场合推荐,并发布了不少相关研究成果和实施指南。美国2013年发布的《备忘录》就包含了FAIR原则的若干精神,如要求科学数据存储时应确保其可检索、可获取和可互操作性。我国在实践探索与实施方面也做了诸多努力,如由中国科学院计算机网络信息中心和CODATA中国全国委员会联合主办的《中国科学数据(中英文网络版)》致力于科学数据的开放、共享和引用,促进科学数据的可发现(Findable)、可访问(Accessible)、可理解(Intelligible)和可重用(Reusable);中国科学院地理科学与资源研究所和中国地理学会联合创建的“全球变化科学研究数据出版系统”,以出版和传播全球变化相关领域的科学研究数据和数据论文为核心、以促进全球变化科学研究领域数据开放和共享作为宗旨,确保数据产权清晰、安全可靠、质量可信、计算机可识别、系统可交互、数据可挖掘再用。2019年9月,国际科学理事会数据委员会(Committee on Datafor Science and Technology,CODATA)及其国际数据政策委员会在北京召开了开放科学数据政策与实践国际研讨会,肯定了世界各地已发布的数据政策及其实施进展,并于2019年11月在CODATA官方网站发布了《科研数据北京宣言》(以下简称《宣言》)。《宣言》指出:科研数据具有全球公共产品的基本属性,应按照FAIR原则的精神推动其开放和共享利用。《办法》也强调科学数据的充分利用,但对数据的可获取性和可互操作性不够重视。我国在制定和完善相关政策时可吸收和借鉴FAIR原则的相关理念,将确保数据可发现、可获取、可互操作和可重用的相关措施纳入政策内容体系。比如,在数据开放前,为科学数据集建立唯一标识符并将数据集与研究成果相关联;为数据集添加尽可能充分的元数据,以确保数据的可发现和可理解;数据发布时应包含明确的使用条件和协议,以促进数据的合理使用等,从而推动科学数据的充分共享与利用。

5.2 加强政府与社会的协同联动,实现科学数据价值最大化

通过《备忘录》与《办法》的比较可知,美国国家层面的科学数据政策非常强调政府与企业的联动发展,主张公私合作,实现科学数据价值最大化。科学数据的开放与共享、分析与挖掘、管理与应用,不仅能促进科学研究的进步,发展新兴学科,而且能催生新型经济形态、促进经济高质量发展。有效收集数据,科学分析数据,最大化数据的价值,成为社会主义市场经济发展的必然要求。2020年4月9日,国务院发布《中共中央 国务院关于构建更加完善的要素市场化配置体制机制的意见》(以下简称《意见》),数据作为一种新型生产要素首次被写入文件中,与土地、劳动力、资本、技术等传统要素并列[43]。《意见》围绕推进政府数据开放共享、提升社会数据资源价值、加强数据资源整合和安全保护等方面提出指导意见,为数据要素市场培育指明方向[44]。在此背景下,我国科学数据政策应进一步明确政府、企业和其他社会主体之间合作的原则目标、领域方向、方式途径、权利义务等,以更好地推动数据要素市场化的培育与发展,充分发挥各方力量与积极性,更好地促进数据价值的实现。

5.3 将数据管理计划纳入科学数据管理政策文本

数据管理计划作为推进科学数据管理共享的有效工具,对规范科学数据的采集与生产、促进数据的保管与长期保存、推动数据的开放共享等都具有重要作用。目前,不少国家的科研资助机构都将数据管理计划作为科研项目申请中必不可少的一部分,并以此为依据推动科学数据的管理与开放共享。我国《办法》尚未将数据管理计划纳入政策体系,仅指出“政府预算资金资助的各级科技计划(专项、基金等)项目所形成的科学数据,应由项目牵头单位汇交到相关科学数据中心”。尽管有助于推动科学数据的汇交,但不少项目在实施过程中由于缺乏前期规划和数据保管意识,在结束时无数据可交或汇交的数据不完整、数据质量不高。《办法》出台后,我国部分地区、主管部门和法人单位等也相继出台了各自的科学数据管理办法或实施细则。笔者调研发现,目前仅有中国科学院发布的《中国科学院科学数据管理与开放共享办法》提出“将科技项目数据管理计划作为项目立项的必要条件,列入项目评审内容”,并明确了科研项目数据管理计划的主要内容:“项目预期产生的数据内容、类型、规模、质量、提交时间和最终汇交的科学数据管理机构名称等”,而各地方和主管部门的相关办法并没有明确提出数据管理计划的要求。因而,我国应加大数据管理计划的应用与推广力度,将数据管理计划列入各政策中,并以数据管理计划为依据,规划和规范数据管理的过程,更好地推进国内科学数据的开放共享[45]。

猜你喜欢
数据管理备忘录资助
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
航发叶片工艺文件数据管理技术研究
高校资助育人成效的提升路径分析
“隐形资助”低调又暖心
民主党版备忘录遭白宫怒怼
数据挖掘在学生成绩数据管理中的应用研究
数据挖掘在学生成绩数据管理中的应用研究
2600多名贫困学生得到资助
遭车祸仍信守资助承诺