科学数据价值鉴定策略研究

2024-02-18 17:19何思源
档案与建设 2024年1期
关键词:科研档案

摘 要:科学数据归档是实现科学数据集中管控和共享服务的基础,但目前处于起步阶段,归档范围和保管期限等价值鉴定难题尚未得以解决。文章在系统梳理国内外科学数据价值鉴定相关文献资料的基础上,构建由前置条件(档案属性)、核心要素(档案价值)、辅助要素组成的科学数据鉴定标准体系;提出科学数据价值鉴定方法论,采用负面清单与风险审查相结合的方法界定归档范围,综合运用宏观鉴定法和直接鉴定法识别需要永久保存的科学数据。

关键词:科学数据;科研档案;价值鉴定;数据归档;长期保存

分类号:G272.3

Research on Strategies for Value Appraisal of Scientific Data

He Siyuan1,2

( 1.School of Information Resource Management, Renmin University of China, Beijing 100872; 2.Electronic Records Management Research Center of Renmin University of China, Beijing 100872 )

Abstract: Scientific data archiving is the basis for realizing centralized control, sharing and utilization of scientific data, but it is in the initial stage and has not yet solved the problems of value appraisal, such as the scope of archiving and retention period. On the basis of systematically combing domestic and foreign literature related to scientific data value appraisal, this paper constructs a scientific data appraisal standards system consisting of pre-conditions (archival attributes), core elements (archival value), and auxiliary elements; puts forward a methodology for scientific data value appraisal, defines the scope of archiving by combining the negative list and risk review, and comprehensively apply the macro-appraisal method and direct appraisal method to identify scientific data that need to be permanently preserved.

Keywords: Scientific Data; Scientific Records; Value Appraisal; Data Archiving; Long-term Preservation

1 引 言

在數据密集型的“第四范式”时代,科学数据是指在自然科学、工程技术科学等领域,通过基础研究、应用研究、试验开发等产生的数据以及通过观测监测、考察调查、检验检测等方式取得并用于科学研究活动的原始数据及其衍生数据[1],其已然成为驱动科技创新和经济社会的战略性资源。科学数据是科研档案资源体系的有机组成部分,档案部门应将其纳入归档范围,对具有档案价值的科学数据进行归档。《科学技术研究档案管理规定》已明确将科学数据列入科研文件材料归档范围,但在实践中,科学数据归档尚处于初步探索阶段,仍面临着一系列的现实挑战。档案部门面临的首要挑战便是价值鉴定,一是“归什么”,需要界定归档范围;二是“存多久”,需要判定保管期限,尤其是要识别具有永久保存价值的科学数据。

目前,档案学领域的科学数据相关研究主要涉及长期保存[2]、汇交[3]、鉴定[4-8]等方面。研究在鉴定方面已有一定探索,但仍然存在局限,一是缺乏分层分类的鉴定标准,较少考虑鉴定标准的优先级等应用问题;二是尚未形成关于科学数据价值鉴定的方法论。因此,本研究将对科学数据价值鉴定的政策、指南与学术文献进行系统分析,在构建鉴定标准体系的基础上提出鉴定方法论,旨在为科学数据归档实践提供参考。

2 研究方法及数据来源

本研究采用文献研究法。数据来源主要包括三个方面:一是各国国家档案馆的科学数据鉴定政策;二是行业组织、科研资助机构、科学数据中心、企业等机构发布的科学数据鉴定指南;三是期刊论文、学术报告等学术文献(见表1)。

3 鉴定标准体系

对表1所示文献进行分析后发现,现有的科学数据价值鉴定标准主要有三类:一类是前置条件,即科学数据成为档案必须满足的基本条件;一类是核心要素,即判断科学数据是否需要归档及保存多久时需要重点考虑的因素;一类是辅助要素,即价值鉴定需要考虑的现实限制性因素(见表2)。

3.1 前置条件

需要归档的科学数据必须满足前置条件,但仅满足前置条件的科学数据并不一定需要归档。前置条件主要是基本的档案属性。由于科学数据具有类型多样、结构复杂、格式各异等特点,失用风险较高,所以可用性是出现频率最高的前置条件,主要表现在背景信息(即有充分、准确的元数据及说明文档)和格式两个方面。前置条件的本质是归档要求。在科学数据归档中将其作为鉴定标准有其深层原因。在国际科学数据归档实践中,档案馆、图书馆、科学数据中心等机构通常处于保管链末端,采用“抢救式”收集模式,即从已有的科学数据中选出需要归档的部分,此时科学数据已经形成但质量参差不齐,因此,需要运用这些前置条件进行筛选。当然,理想状态是将这些前置条件作为归档要求,确保科学数据在形成阶段就满足这些条件,而不是等到科学数据形成后再用这些条件进行筛选。

3.2 核心要素

科学数据的价值主要表现为重要性、独特性和相关性。重要性是指科学数据对利益主体的有用性,包括当前的现实价值和未来的潜在重用价值,对数据形成者的第一价值和对其他科研人员、历史学家、政府、企业、公众等利益主体的第二价值,科学研究价值这一本原性价值和凭证价值、文化/遗产/历史价值、行政管理价值、经济价值、社会价值等。独特性是指科学数据的唯一性,即科学数据是独一无二的,这是科学数据价值鉴定不同于其他文件材料鉴定的重要方面。主要涉及三个指标:一是相同数据是否已在其他地方得到妥善保管且可以获取;二是是否有质量更高的同类数据或相似数据作为替代;三是是否完全无法复现、短时期内无法复现或复现成本极高。相关性是指科学数据与档案部门的契合度,包含两层含义:一是科学数据的主题与档案部门收集范围的一致性程度,对档案室而言,除档案部门的收集范围外,还要考虑科学数据与本单位核心业务职能的一致性;二是科学数据与现存档案资源体系的关联性程度,即是否能够有效补充现存档案资源,从而形成更加科学合理的资源体系。例如,某观测数据现在以数字形式生成,而在现存档案资源中存有过去记录的以纸质等形式存在的关于同一观测对象的数据,二者结合能够形成完整时间线,从而发挥更大价值。

3.3 辅助要素

除档案价值外,在科学数据鉴定时还要考虑其他要素。一是归档保存的成本,可按档案管理流程将其分为接收成本、处理成本、保存成本和利用成本。其中,接收成本、处理成本和利用成本较容易被忽视。保存成本也并非一次性投入,由于技术更新及载体老化,保存成本将在保存周期内持续增长。二是档案部门的能力,涉及物质条件和管理资源。表现为档案部门的能力越强,对成本的承受能力也就越强。

4 鉴定方法论

科学数据价值鉴定可通过“两步走”战略,首先通过负面清单与风险审查相结合的方法界定归档范围,再综合运用宏观鉴定法和直接鉴定法识别需要永久保存的科学数据。

4.1 界定归档范围

(1)逆向思维:制定负面清单

決定“归什么”向来是归档工作中的难题。尤其是当档案部门面对海量而陌生的科学数据时,常常感到无所适从。与决定“归什么”相比,逆向思维下的排除法可能更容易操作和执行,可从不予归档的角度出发设置负面清单,负面清单外的科学数据即为需要归档的科学数据。在制定负面清单时需综合考虑表2中的所有鉴定标准。根据不同标准,可将负面清单进一步分为“黑名单”和“缓冲区”。“黑名单”是真正意义上不需要归档的科学数据;“缓冲区”是由于不符合档案属性、现实限制性因素而暂缓归档或逻辑归档的科学数据。

“黑名单”与鉴定标准中的核心要素(档案价值)对应,包括不重要的、可重复的、不相关的科学数据。一是不重要的科学数据,包括科研人员认定的明显的噪声数据或仪器设备故障时形成的科学数据,与研究发现和科研结论关联度较低的过程性数据,与解释核心数据无关的工程设备数据、外部环境数据等。以射电望远镜为例,除核心天文数据外,还有大量关于望远镜运行状况的设备数据,这些数据虽然也属于科学数据,但核心天文数据并不需要借助它们进行解释,因而无需归档。此外,科研人员可能会从自身角度出发,认为某些数据没有归档的必要,但档案部门需要慎重考虑这些数据在未来是否会对其他利益主体有更广泛的价值,如果仍认为没有必要,则不予归档。二是可重复的科学数据。第一种情形是从外部公开渠道获取的数据,即相同的科学数据已在其他地方得到妥善保管且能够提供高效便捷的获取服务,此时无需归档,但需要在元数据或说明文档中清晰记录如何获取这些数据。第二种情形是存在相互替代且质量更高的同类数据或相似数据,此时无需归档。第三种情形是易于复现且复现成本低于保存成本的数据,如模拟数据、仿真数据、模型数据、小规模的实验数据,此类数据通常无需归档,但需要在元数据或说明文档中清晰记录数据收集、处理、分析的方法,以便在需要时能使用相同的方法复现数据。三是不相关的科学数据。不同档案部门在核心职能和收集范围方面存在显著差异,尤其是档案室作为组织机构内设部门,需要考虑本单位的核心职能需求。例如,美国地质调查局(U.S. Geological Survey, USGS。以下简称“USGS”。)下属的地球资源观测与科学中心(Earth Resources Observation and Science Center, 以下简称“EROS”。)将不再保存阿波罗号飞船拍摄的摄影记录,因为eRoS主要保存地球陆地的科学数据,而这些照片大多是关于太空的,超出了EROS的职能范围。[35]

“缓冲区”与鉴定标准中的前置条件和辅助要素对应。第一,不满足前置条件的科学数据可暂缓归档。如果科学数据无法满足真实性和可靠性要求,档案部门应要求数据形成者提供真实、可靠的数据版本,若无法提供,则应将其纳入“黑名单”;如果无法满足完整性要求,应要求数据形成者补充完整,并重新提交;如果无法满足可用性要求,应要求数据形成者提供全面、规范、准确的元数据、说明文档及相关材料,按照长期保存要求进行格式的转换或登记备案,并重新提交。第二,成本过高且超出档案部门能力范围的科学数据可暂缓归档。理论上讲,档案部门不能借由成本及能力问题而规避归档职责,放弃具有档案价值的科学数据的归档。但在物理归档的情况下,不得不考虑成本及能力等现实因素,此时可暂缓归档,在探索出成本更低、更高效的归档解决方案时,或档案部门具有更多可用于科学数据归档的物质条件和管理资源时,再进行归档。此外,也可以采用逻辑归档,这种思路在国际档案界应用较为广泛,即科学数据的管理权限移交至档案部门,但实体仍然保存在具有能力保管数据并提供访问获取的形成机构或专门的科学数据中心。科学数据的分布式存储并不会降低其档案价值,只要有集中式目录来保证数据获取即可。[36]例如,美国国家档案与文件署(National Archives and Records Administration,NARA。以下简称“NARA”。)和USGS于2008年签署合作协议,将USGS的EROS(截至2008年已有3PB的数据)作为NARA的附属档案馆,NARA拥有对已归档的EROS馆藏的法律保管权和最终责任,USGS负责满足NARA提出的保存和获取标准。[37]

(2)安全思维:开展风险审查

制定负面清单后,需对其进行风险审查,确保没有出现应保存而未保存的情况。首先,需要全面梳理相关国家法律法规和制度规范、科研资助机构的资助政策、学术出版商的出版政策、学术共同体的行为准则等规范性文件,确保遵循其中的数据归档要求(B2-3、B5-6、B9)。例如,《研究中的数据和信息管理:支持澳大利亚负责任研究行为准则的指南》规定“多数临床试验数据需保存15年及以上”“基因治疗等领域的研究数据需永久保存”[38]。其次,从科研诚信和学术道德建设的角度出发,需要留存能验证研究发现和结论的原始数据。中共中央办公厅和国务院办公厅联合印发的《关于进一步弘扬科学家精神加强作风和学风建设的意见》明确规定“论文等科研成果发表后1个月内,要将所涉及的实验记录、实验数据等原始数据资料交所在单位统一管理、留存备查”[39]。最后,从科研项目管理角度出发,对于科研项目活动中形成的科学数据,需要归档保存项目任务书(申报书)、数据管理计划等相关文件中明确提到的科学数据,以确保科研项目顺利结项。若在负面清单中发现上述数据,应及时将其从负面清单中剔除。

4.2 识别永久数据

(1)宏观鉴定法

宏观鉴定法的鉴定对象是科学数据的生成环境,通过评估科研人员(即数据形成者)、科研活动(即数据形成的业务活动)等的重要性来衡量科学数据的价值(A1-5、B4、B7、C4、C6-7)。

对于科研项目形成的科学数据,美国、加拿大、澳大利亚等国国家档案馆均在项目层面采用宏观鉴定法进行鉴定,并根据项目重要性将其对应到不同保管期限。通常情况下,对应永久保存的科研项目或多或少具有以下特征:一是贡献突出,如获得国家、国际社会的重要奖项;二是知名科研人员主持或参与;三是对公民、社会、政府机构产生重大影响;四是受到媒体的广泛关注;五是引发重大争议;六是慎重的科研活动(如与人有关的药品的研究)。但在实际工作中,科研项目的规模可能非常庞大,例如,国家自然科学基金重大项目、国家科技重大专项、国家重点研发计划等科研项目的经费动辄在几千万甚至上亿元,可能形成海量数据,在这种情况下,在项目层面实施宏观鉴定可能会带来颗粒度过粗的问题,因此,可以考虑在子项目或各项科研任务层面使用宏观鉴定法。

长期观测数据(即对客观现象进行实地观测所取得的数据,数据取得的过程中一般没有人为的控制和条件约束[40])同样适用于宏观鉴定法。在实施时,可根据生成科学数据的科学装置、仪器设备的重要性及观测对象的战略性、基础性等方面进行鉴定。例如,散裂中子源、子午工程等大科学装置形成的观测数据以及青藏高原综合科学考察研究形成的观测数据、调查数据都具有重要的战略价值。

需要注意的是,不能将宏观鉴定得到的结果绝对化,应作为参考依据服务于后续的直接鉴定法,因为在重要的科研活动中可能出现价值有限的数据,在相对较小且重要性有限的科研活动中也可能出现贡献突出的数据。我国出台的推荐性行业标准《科学技术研究项目档案管理规范》(DA/T 2—2023)就规定在项目层面进行宏观鉴定并统一划定保管期限,但这一做法可能导致保管期限全面偏高,需要永久保存的科学数据增多,进而带来不必要的资源浪费。

(2)直接鉴定法

在宏观鉴定结果的指导下,需进一步深入科学数据的内容质量层面进行直接鉴定(B6-7、C6),此时应主要考虑表2中的核心要素。运用直接鉴定法时,可在科学数据集的层面进行。

第一,根据重要性标准对科学数据的有用性作出判断。需要永久保存的科学数据应至少满足下列要求中的一点:一是价值深度,在某个价值维度具有非常高的价值;二是价值广度,能够覆盖多个价值维度,应用场景多元,利用群体广泛。已经进行数据出版或通过同行评议的科学数据往往具有较高价值,可考虑永久保存。此外,由于永久科学数据最终需要进入档案馆,所以在鉴定永久价值时需要超越数据形成者的视角,站在国家和社会的层面进行思考。

第二,根据独特性原则,需要重点强调长期观测数据。观测数据的数据来源是自然界,自然界各种事物和现象通常是不可重复的,因而也就无法通过技术手段复现这些观测数据,所以观测数据具有非常强的独特性。就生成目的而言,观测数据本身就具有公共资源属性[41],带有服务多元需求的目标,在价值广度方面具有显著优势,而且观测数据可作为基准,用来确定未来的变化情况和异常事件的发生频率[42],也符合重要性标准的要求。尤其是长时期、大范围、高精度对某一基础性自然事物或现象(如地质、气象、水文、海洋等)进行观测或调查形成的数据,需要永久保存。此外,就数据版本而言,通常情况下,具有永久保存价值的是原始数据,而非衍生数据,尤其是容易复现的衍生数据。但这一点并不绝对,随着处理程度的提高,数据越容易被用户理解,反而越不利于重用,需要在数据的可理解性和可重用性之间进行平衡,在此基础上决定保存何种版本的数据,必要时也可保存多版本的数据。[43]例如,在天文领域,原始观测数据通常带有噪声,反而是经过降噪处理之后的数据具有更高的保存价值。

第三,根据相关性原则,需要聚焦本单位核心业务职能与档案部门重点收集范围,永久保存的科学数据应是高相关度的数据。

5 结 语

虽然科学数据已不再是新生事物,但科学数据归档仍处于初步探索阶段,价值鉴定成为档案部门面临的首要难题。本研究基于国内外科学数据价值鉴定相关文献资料提出了鉴定标准体系和“两步走”的方法论,但在实践中,仍需结合各学科领域科學数据的类型、特点、规模、格式、结构、价值等方面,提出适合本学科领域的个性化、针对性的价值鉴定标准与方法,进而为科学研究留存最宝贵的信息资产,为充分释放科学数据价值潜力奠定基础。

注释与参考文献

[1]科学数据管理办法[EB/OL].[2023-06-30].https://www.gov.cn/zhengce/content/2018-04/02/ content_5279272.htm.

[2]張静,潘亚男,单嵩岩.档案管理视角下我国科学数据长期保存现存问题与对策分析[J].档案与建设,2023(10):61-64.

[3]孔祥盛.汇交政策视角下科学数据与科研档案协同管理困境与反思[J].档案与建设,2023(1):62-66.

[4][32]宋文凤.科学数据价值鉴定研究[D].长春:吉林大学,2013.

[5][33]毛天宇.数字监护研究中档案学理论的应用及启示探析[J].档案学通讯,2016(1):34-38.

[6]何思源.科研档案和科学数据协同治理的动因分析[J].档案管理,2020(6):64-66.

[7][34]NOONAN D, CHUTE T. Data curation and the university archives[J].American Archivist,2014(1):201-240.

[8][31]ALTMAN M, ADAMS M O,CRABTREE J, et al. Digital preservation through archival collaboration: the data preservation alliance for the social sciences[J].American Archivist,2009(1):170-184.

[9][36][42][43]National Archives and Records Administration. Appraisal policy of the National Archives[EB/OL].[2023-06-30]. https://www.archives.gov/records-mgmt/scheduling/ appraisal#appendix2.

[10][41]United States Department of Energy. DOE records disposition schedules[EB/OL].[2023-06-30].https://www.energy.gov/cio/doe-recordsdisposition-schedules-0.

[11]United States Geological Survey. Records disposition schedules[EB/OL].[2023-06-30]. https://www.usgs.gov/survey-manual/recordsdisposition-schedules.

[12]Library and Archives Canada. Multi-Institution disposition authorizations: Operational case file records(Authority No. 2005/006)[EB/OL].[2023-06-30]. https://library-archives.canada.ca/eng/services/governmentcanada/information-disposition/disposition-governmentrecords/multi-institution-disposition-authorizations/ Pages/2005-006-operational-case-files.aspx.

[13]National Archives of Australia. What we keep: principles for selecting the Australian Governments national archives[EB/OL].[2023-06-30].https://www.naa. gov.au/information-management/disposing-information/ transferring-information/transferring-informationnational-archives/how-we-select-national-archives.

[14]National Archives of Australia. General records authority 37[EB/OL].[2023-06-30].https://www.naa.gov.au/information-management/records-authorities/ types-records-authorities/general-records-authority-37.

[15]International Council on Archives. Management and preservation of scientific records and data[EB/OL].[2023-06-30].https://www.ica.org/ en/new-handbook-management-and-preservationscientific-records-and-data.

[16]Digital Curation Center. Introduction to curation: Appraisal and selection[EB/OL].[2023-06-30].https://www.dcc.ac.uk/guidance/briefingpapers/introduction-curation/appraisal-and-selection.

[17]Digital Curation Center. How to appraise and select research data for curation[EB/OL].[2023-06-30]https://www.dcc.ac.uk/guidance/how-guides/appraiseselect-data#c2.

[18]Digital Curation Center. Digital curation manual: Instalment on “appraisal and selection”[EB/ OL].[2023-06-30].https://era.ed.ac.uk/bitstream/ handle/1842/3331/Harvey%20appraisal-and-selection. pdf sequence=1&isAllowed=y.

[19]WHYTE A. Five steps to decide what data to keep[EB/OL].[2023-06-30].https://www.dcc. ac.uk/guidance/how-guides/five-steps-decide-whatdata-keep.

[20]Digital Preservation Coalition. Assessment:Selection of digital materials for long-term retention[EB/ OL].[2023-06-30].https://www.dpconline.org/ pages/handbook/dec-tree-select.html.

[21]TJALSMA H, ROMBOUTS J. Selection of research data: Guidelines for appraising and selecting research data[EB/OL].[2023-06-30].https://pure. knaw.nl/ws/portalfiles/portal/4546511/selection_of_ research_data_def.pdf.

[22]National Research Council. Preserving scientific data on our physical universe: A new strategy for archiving the Nations scientific information resources[EB/OL].[2023-06-30].http://elibrary.pcu.edu. ph:9000/digi/NA02/1995/4871.pdf.

[23]National Health and Medical Research Council. Management of data and information in research:A guide supporting the Australian code for the responsible conduct of research[EB/OL].[2023-06-30].https://www.nhmrc.gov.au/sites/default/files/ documents/attachments/Management-of-Data-andInformation-in-Research.pdf.

[24]Library of Congress. Appraisal and selection of geospatial data[EB/OL].[2023-06-30]. https://www.digitalpreservation.gov/meetings/ documents/othermeetings/AppraisalSelection_ whitepaper_final.pdf.

[25]National Aeronautics and Space Administration. Selection criteria[EB/OL].[2023-06-30].https:// sedac.ciesin.columbia.edu/lta/Appraisal.html.

[26]United States Geological Survey. NSLRSDA records appraisal tool[EB/OL].[2023-06-30]. https://www.usgs.gov/media/files/nslrsda-recordsappraisal-tool.

[27]GRAY J, SZALA A S, THAKAR A R, et al. Online scientific data curation, publication, and archiving[EB/OL].[2023-06-30].https://www.microsoft. com/en-us/research/wp-content/uploads/2016/02/tr-2002-74.pdf.

[28]LONG S M. Documenting federal scientific and technical information (STI): A discussion of appraisal criteria and applications for the national archives and records administration[J]. Journal of Government Information, 1995(4):311-319.

[29]ESANU J, DAVIDSON J, ROSS S, et al. Selection, appraisal, and retention of digital scientific data: Highlights of an ERPANET/CODATA Workshop[J]. Data Science Journal, 2004(2):227-232.

[30]ERPANET/CODATA Workshop. The selection, appraisal and retention of digital scientific data (final report)[EB/OL].[2023-06-30]. https://www.erpanet.org/events/2003/lisbon/ LisbonReportFinal.pdf.

[35]FAUNDEEN J H. Appraising U.S. Geological Survey science records[J]. Archival Issues, 2010(1):7-22.

[37]NARA and USGS preserving vital records[EB/ OL].[2023-06-10].https://www.archives.gov/ press/press-releases/2008/nr08-118.html.

[38]National Health and Medical Research Council. Australian code for the responsible conduct of research (2018)[EB/OL].[2023-06-10].https:// www.nhmrc.gov.au/about-us/publications/australiancode-responsible-conduct-research-2018#blockviews-block-file-attachments-content-block-1.

[39]關于进一步弘扬科学家精神加强作风和学风建设的意见[EB/OL].[2023-06-10].https://www. gov.cn/zhengce/2019-06/11/content_5399239.htm.

[40]观测数据[EB/OL].[2023-06-10]. http://www.stats.gov.cn/zs/tjll/tjxjbgn/202304/ t20230423_1938951.html.

(责任编辑:张 帆 李倩楠)

猜你喜欢
科研档案
独立学院科研档案建设重要性及对策分析
用科学的态度和思维对待科研档案的管理工作
网络环境下科研档案文献的开发与利用
试论科研档案工作者应具备的素养要求
浅析科研档案整理工作
浅析当前医院在科研档案管理中的工作创新
如何做好医院科研档案管理工作
医院科研档案归档管理存在的问题及改进措施
基于云计算的高校科研档案管理模式探析
新形势下科研档案保密工作面临的问题及对策