基于内容结构视图的研究数据元数据标准比较研究

2019-01-14 02:26朱玲
大学图书馆学报 2019年6期

朱玲

摘要 元数据是保证研究数据(又被称作“科学数据”)获取和再利用的关键,国内外许多学科领域和学术社区都制定了该领域特定的研究数据元数据标准或规范。与文献资源元数据标准相较,研究数据元数据标准结构和元素设计往往更为复杂,为跨学科的数据分享和发现带来了障碍。文章应用一种内容结构视图,对八种典型的研究数据元数据标准元素进行比较分析,分析不同研究数据元数据标准的内容特征,并由此探讨研究数据元数据标准发展趋势,为元数据应用方案设计提供参考。

关键词 研究数据 科学数据 元数据标准 内容结构视图

分类号 G254

DOI 10.16603/j.issn1002-1027.2019.06.013

1 引言

研究数据,是指科研人员通过观察、探测、实验、建模、仿真和调查等形式收集的,用于验证研究发现的,能够直接或间接产出学术成果的完整事实材料和数字产品,例如:文档、数据文件、问卷、模型、算法、软件或代码、图片、音视频资料等。

元数据,被定义为“描述数据的数据”。相应地,研究数据元数据是指描述研究数据集的创建者、上下文、空间、时间、起源、历史、数据质量等信息,以便支持数据使用者对数据的发现、选择、定位、获取、解释和再利用等功能,以及数据拥有者或管理者对数据的组织、管理、共享和长期保存等功能。

2011年,英国数字监护中心(Digital Curation Center)发布了《数字监护参考手册—科学数据元数据部分》(Digital Curation Reference ManualInstalment on Scientific Metadata),论述了科学数据元数据的特征和角色,指出元数据在数据仓储的管理和数据监护中扮演中心角色[1]。研究数据元数据在数据管理计划和公共资助研究项目研究数据的公众获取中也扮演着核心角色,例如,2011年美国国家自然科学基金会(NSF)新增的研究数据管理计划要求中明确把“将使用的数据和元数据格式标准”列为重要建议[2]。2012年,欧洲研究图书馆协会(LIBER)发布的《图书馆开始从事研究数据管理的十条建议》中指出,图书馆应该参与元数据和相关数据标准的建设,同时应当提供研究数据相关的元数据服务[3]。美国密歇根大学校际政治及社会研究联盟(Interuniversity Consortium for Political and Social Research,ICPSR)在其《维持领域数据仓储白皮书》(Sustaining Domain Repositories for Digital Data:A White Paper)中指出,元数据标准如保存元数据框架对于数据仓储的发现、检索、获取和科研群体标准的转变是非常必要的[4]。

2 研究数据元数据的功能需求

研究数据的产生和积累正在呈指数级增长,科学研究和科技创新越来越依赖于对海量数据的管理、分析和再利用。为了支持研究数据的发现、获取、解析和再利用,描述和呈现研究数据的元数据应该满足的功能需求可以从以下两方面进行探讨:

2.1 面向数据任务和数据活动的需求

研究数据元数据功能需求模型将元数据功能需求分为四个象限:数据管理、数据质量控制、数据发现和数据利用[5]。这四个象限分别支持不同的数据任务:数据管理象限支持元数据自动或半自动生成、数据管理、数据存储、数据安全、数据互通等任务;数据质量控制象限支持数据验证、复制等任务;数据发现象限支持数据分享(发布、引用)和数据发现(选择、唯一性确定、获取)等任务;数据使用象限支持数据分析、可视化等任务。

研究数据元数据对研究数据生命周期中的用户数据活动的支持,体现在为数据活动需要的信息设计相应的元数据模块和字段。例如,数据发现、数据唯一性确定、数据选择、数据获取等活动,属于与传统文献类似的一般性任务,元数据以描述性、身份标识、语义等信息内容为主,其中数据选择活动的需求还包括技术性、科研上下文、时空等信息内容。数据验证、数据分析属于科研任务,元数据主要以描述性、科研上下文、时空等信息内容为主。数据管理、数据存档属于数据监护任务,元数据主要以描述性、管理性、结构性和技术性等信息内容为主,并以身份标识、语义信息、科研上下文、时空等信息内容作为补充。数据发布、数据引用属于传播任务,元数据主要以描述性、身份标识、语义等信息内容为主,并以科研上下文、时空等信息内容作为补充。

2.2 面向不同服务对象的需求

针对不同的对象,研究数据元数据发挥的作用也不同[6]。对于数据用户而言,元数据是他们正确选择、使用、交换数据的不可缺少的工具。元数据通过对数据资源的内容、分类、质量和存储等的详细描述,回答了用户的一系列问题:有什么数据?数据怎么样?如何获取数据?怎么使用数据?对于数据管理者而言,元数据方便了他们集成各种数据库,为数据集(或库)建立目录,更有效地管理并维护海量数据。对于数据生产者而言,元数据的存在方便了数据的生产、加工和更新,并可以使数据归档更高效,使数据成为有生命力的资源,不必担心随着时间或者人员的变化而影响到数据的生产,数据的增值具有了持久性。研究数据元数据的最大用户是科研人员,元数据是他们发现数据、评价数据和使用数据的不可或缺的工具。

3 研究数据元数据标准发展现状

3.1 國内外研究数据元数据标准的发展和分布

元数据是保证研究数据获取和再利用的关键因素。国外许多学科领域和学者社区都采取了各种行动制定和发展该学科需要遵守的元数据标准或规范,根据英国数字监护中心对目前国际上各学科的主流研究数据元数据标准的总结,其主要分布在通用学科、生物学、地球科学、物理学、社会科学与人文学科、跨学科等领域[7]。

与国外相比,我国研究数据元数据标准的制定起步较晚,但近年来在科学数据共享工程等项目推动下,取得了较快的发展。科学数据共享工程试点建立了9个学科领域(气象、地球系统、水文、海洋、地震、国土、农业、林业、人口健康数据共享)的科学数据共享平台。为了满足科学数据共享工程对元数据内容的基本需求,促进数据加工的规范化、标准化,科学数据共享工程办公室制定了《科学数据共享元数据内容》作为参考元数据标准[8]。以此为基础,各领域逐渐建立了各自的科学元数据标准或者元数据应用方案[9-15]。另外,中国科学院为了实现院内科学数据库群的资源利用、共享、交换和整合,制定了《科学数据库核心元数据标准》[16],并为满足各学科领域的特殊要求,制定了元数据应用扩展方案的规则和方法。

3.2 研究数据元数据标准的复杂性

研究数据元数据的基本功能,是在研究数据共享和交换中提供快速查询和定位,通过元数据提供的信息描述,迅速查找所需信息的存放位置,发现原始数据的存在状况。除此之外,为了实现大型项目中学科领域内深度数据互通与合作的需求,研究数据元数据还需支持数据初步分析、数据质量评价和控制等功能。例如,生态学研究的空间叠加分析中,需要元数据提供分析所需的多层空间数据的范围、坐标体系、空间位置坐标等信息,对空间特征和属性进行合并。因此,研究数据元数据在基本发现信息之外,往往根据科研过程的需要进行了较多的扩展设计,如在时空范围、研究方法、数据加工处理过程等方面。

MODAL框架是一种考察元数据标准实施文件组织结构和规模的研究方法,包括编码方式(Encodings)、结构类型(Structural Types)、元素规模(Extent)、实施文件数量、层级数量(Levels of Hierarchy)等。一项基于MODAL框架的研究对9种研究数据元数据标准的结构特征进行了分析[17]。结果表明,9种标准平均具有563个元数据元素(最少142个元素,最多1802个元素),9个实施文件(最少1个文件,最多25个文件),5个元素层级(最少3个层级,最多10个层级),大大超过文献资源元数据标准的复杂度。

4 基于内容结构视图的研究数据元数据标准比较

4.1 内容结构视图

研究数据元数据内容结构视图[18](如图1所示)将跨学科、跨领域的研究数据元数据元素按照通用的结构模块进行分类和重组,这些结构模块组合成研究数据元数据的总体框架,数据集对象的综合信息透过此总体框架得以更为清晰地呈现。其中:识别元数据模块(Identity Metadata)提供支持识别功能和发现功能的基础信息,包含可以用于识别该数据集的所有实体信息,以及实体信息与该数据集的相互关系,例如数据集创建人、负责机构、数据集标识符等。语义元数据(Semantic Metadata)模块提供学科、主题、分类等信息,可以用于学科分类和链接到相关领域的其他数据。科研活动上下文(Scientific Context)模块包含工作流程、所用模型、数据来源、实验方法和参数等信息,这些信息可以被研究数据流程管理系统用于确定下一步数据分析操作。时间元数据(Temporal Metadata)和地理空间元数据(Geospatial Metadata)包含数据集所采用的时间和空间维度以及覆盖的范围。无法归于上面所列模块的其他元数据元素放入其他元数據(Miscellany)模块。

4.2 八种典型研究数据元数据标准的结构视图分析

本文对三种通用学科研究数据元数据标准,即都柏林核心集(Dublin Core)、DataCite Metadata Schema和中国科学院科学数据库核心元数据标准,以及五种特定学科研究数据元数据标准(生物学Darwin Core、物理学AVM、地球科学CF、社会科学DDI、人口健康科学数据共享元数据标准)的元素或者元素分类应用上述结构视图进行分析,以便在此基础上识别和分析各个研究数据元数据标准的内容特征。结构视图分析结果如表1所示。

4.3 元数据标准内容特征分析

(1)元数据标准内容结构特征

Dublin Core元数据标准是一种平行或并列结构,包含15个元素,有的元素具有对元素语义做进一步限定的修饰词,修饰词的语义包含于被修饰词(即元素)之中,对于不了解修饰词使用方法的用户来说,可以直接使用元素本身来描述资源。

DataCite Metadata Schema元数据标准、Darwin Core元数据标准、AVM元数据标准可以看作是一种树状结构,其中只有叶节点才真正有值。例如,Darwin Core标准下的每一个元素类可以看作是“根”下面的一个“枝”, 下面的元素是“叶”。DataCite Metadata Schema、AVM的一级元素可以看作直接附属在“根”下面的“叶”,而二级元素可以看作附属在“根”下面一个“枝”上的“叶”。

科学数据库核心元数据标准、人口健康科学数据共享元数据标准可以看作是一种多层父子结构,其中最顶层的根元素属于复合型元素,下面可包含其他复合型元素或单纯型元素作为子元素。递归地,每一级的复合型元素都由一个或多个下一级复合型或单纯型子元素组成。

以上六种元数据标准重点都是从数据集层面的特征进行描述,而CF元数据标准和DDI元数据标准则更进一步引入了用于变量定义和描述的庞大的变量属性集,支持专业领域的变量理解和操作。这两种元数据标准在数据集层面描述上可以看作平行或并列结构,在变量描述上可以看作是带有庞大修饰词体系(变量属性:例如变量单位、坐标、取值范围、测量误差、缺失插值等)的可重复元素的平行或并列结构。

(2)元数据标准内容分布特征

从上文中的内容结构视图分析可以得出,通用学科研究数据元数据标准内容更大比例分布在识别元数据模块,而特定学科研究数据元数据标准内容更大比例分布在科研活动上下文模块,其中:

Dublin Core元数据标准定义了Web资源都应遵循的通用的核心标准,其内容较少,也比较通用,描述对象并不限于研究数据,因此其元数据元素主要为识别类和语义类,较少覆盖科研活动上下文模块。

DataCite Metadata Schema元数据标准、科学数据库核心元数据标准,这两种元数据标准以描述通用学科的研究数据为目标,其元数据内容主要分布在识别模块和科研活动上下文模块,但科研活动上下文的字段与学科无关。

Darwin Core元数据标准、AVM元数据标准、人口健康科学数据共享元数据标准,这三种元数据标准的特征是设计了较多的子类和字段对特定学科领域的科研活动上下文进行描述,描述主要以数据收集、观测等科研活动的参数为对象。

CF元数据标准、DDI元数据标准,这两种元数据标准也有较多的字段属于科研活动上下文模块,但其特征在于对本学科的数据、文件、变量等进行了较为充分的分层描述。

5 研究数据元数据标准发展趋势

5.1 支持跨学科数据分享和发现

近年来,各学科领域的研究数据元数据标准设计和实践取得了积极成果,但专门针对学科需求的元数据标准的增长也为跨学科的数据发现和再利用造成了一定的人为障碍,这些障碍体现在元数据语义信息和数据结构的多样性,以及对多学科的科学进程的干扰。

当代科学被认为是一个结合了专业化和多学科或跨学科的综合研究,越来越多的成果和突破来自学科之间的边界区域,研究者需要越来越频繁地与其他学科领域交换信息、技术和工具。实现跨学科元数据的互通和分享,从而实现跨学科的数据管理、监护、再利用,是研究数据元数据标准发展的必然趋势。

从研究数据元数据元素的类别分布来看,分布极不均匀,例如科研上下文类别中的元素种数远超其他类别的元素种数;从研究数据元数据元素的统计频次来看,在不同标准中具有最高统计频次的元素都属于描述类别,且大部分与DC元素重叠;少数语义性的一般元素在标准中也出现较多的频次;其余的元素统计频次很少,共同形成了具有各自领域特定语义的长尾部分。为了支持跨学科领域的研究数据分享,研究数据元数据标准的设计和实施中,需要重点考虑模块化、可扩展性、灵活性、综合性、充足性、简易性等目标。

5.2 嵌入研究数据生命周期

研究数据的生命周期管理是确保其连续性的必要条件。如果元数据希望捕捉更加动态的结构,认识到什么信息在持续,而什么信息在数据随着时间的推移期间发生了什么变化,就必须基于对研究数据生命周期的理解和应用。例如,DDI生命周期模型包含研究构想、数据收集、数据处理、数据分发、数据发现和数据分析等线性模块,以及作为可选路径的数据存档模块和作为反馈循环路径的数据重新规划模块。相应地,DDI元数据标准的元素(Codebook)[26]也遵循这些模块内容来设计,例如,DDI针对数据收集模块设计了2.3小节、2.5小节和4.8小节的元素。通过将研究数据生命周期与元数据标准元素结合设计,DDI可以使用该模型作为数据创建者、数据管理者和数据用户的培训工具,并组织和规划资源,策划计划和管理策略。

此外,为了在科研过程和数据管理的同时,收集、自动或者半自动地生成所需的元数据信息,有必要构建元数据基础设施服务。相应地,研究数据元数据标准的设计也需要与研究数据生命周期结合,为元数据基础设施服務的应用提供前提和一致性。

5.3 应用语义数据和语义工具

资源描述框架(Resource Description Framework,RDF)、网络本体语言(Web Ontology Language,OWL)、关联数据(Linked Data)等新技术的发展,为元数据更深入和更有意义地表达和关联研究数据,更有力地支持数据驱动的科研活动提供了更多可能。研究数据元数据中的语义元数据扮演着两种角色:一是进行数据主题识别,二是作为主题分类依据,支持相似主题链接机制。目前,统一医学语言系统(Unified Medical Language System,UMLS)、国会图书馆主题列表(Congress Subject Headings,LCSH)等一些大型语义工具,已被转换成为RDF等编码方式,这就为在元数据中应用这些语义工具,实现对数据的更加灵活和广泛的表达和链接功能提供了支持。例如,我们可以使用主题项的URI或者其他标识方式来代替用自然语言描述研究数据的主题,并且在数据、主题项之间通过主题关系建立RDF的三元组。通过这种方式,可以使得研究数据的发现、分类和关联变得更为智能和准确,避免经常返回无关数据的情况。

目前,应用语义数据和语义工具,发展关联数据形式的大规模研究数据语义元数据[27],探索跨学科的数据发现和关联等[28],都已取得可喜进展,是研究数据元数据标准发展值得期待的未来发展方向。

6 启示

研究数据元数据,是当代科学交流活动的重要元素。同时,元数据作为数据资源存放、管理和交换的重要手段,在科学数据共享和数据仓储平台建设中发挥着极其重要的作用,包括数据描述作用、数据发现作用、数据管理作用、数据互换互通作用、资源整合作用、数据引用作用和知识产权保护作用等[29]。

目前,各学科领域的研究数据元数据标准设计和实践取得了积极成果,但也面临着不少问题。例如,在跨学科数据分享和发现方面,已有研究数据元数据标准结构不一,且往往只考虑标准之内的统一设计和实施,在标准之间的信息互通和数据互操作上重视不足。满足学科数据交流和数据仓储平台建设的研究数据元数据方案设计时应着重考虑的目标包括:(1)实现跨学科领域的数据分享实践,具体目标包括模块化、可扩展性、灵活性、综合性、充足性、简易性、数据交换、数据检索、数据存档、数据发布等;(2)支持科研过程和数据管理活动,具体目标包括数据收集、数据处理、数据分发、数据发现和数据分析等;(3)支持更智能的数据主题分类和实体识别,具体目标包括数据语义化、关联化等。

21 Biodiversity Information Standards. Darwin core terms: a quick reference guide[EB/OL]. [2018-07-05]. http://rs.tdwg.org/dwc/terms/index.htm.

22 Robert H, Lars L.C., Adrienne G, et al.Astronomy visualization metadata (AVM) standardversion 1.2 rc1[EB/OL].[2018-07-05]. https://www.virtualastronomy.org/AVM_DRAFTVersion12_rlh02.pdf.

23 Brian E, Jonathan G, Bob D, et al.NetCDF Climate and forecast metadata conventionsversion 1.7[EB/OL].[2018-07-05]. http://cfconventions.org/Data/cfconventions/cfconventions1.7/cfconventions.pdf.

24 Data Documentation Initiative. DDI_3.0_part_I_overview[EB/OL].[2018-07-05]. https://bitbucket.org/ddialliance/ddilifecycle/downloads/DDI_3_0_2008-04-28_Documentation_XMLSchema.zip.

25 中国科学院数据应用环境建设和服务项目组. 科学数据库核心元数据标准[EB/OL].[2018-07-05]. https://wenku.baidu.com/view/db2808365a8102d276a22f51.html.

26 DDI structural reform group. DDI version 3.0 conceptual modelData Documentation Initiative[EB/OL].[2018-07-05]. https://www.ddialliance.org/sites/default/files/ConceptModelWD.pdf.

27 Bizer C, Tom H, Tim B.L. Linked data-the story so far[M]. Semantic Services, Interoperability and Web Applications: Emerging Concepts,2009:205-227.

28 Bechhofer S, et al. Why linked data is not enough for scientists[J]. Future Generation Computer Systems,2013,29(2): 599-611.

29 王國复,涂勇,王卷乐,等.科学数据共享中的元数据技术研究[J].中国科技资源导刊,2008,40(1):30-36.

作者单位:北京大学图书馆,北京,100871

收稿日期:2018年7月7日

(责任编辑:关志英)