国内外Data Curation 生命周期管理研究对比

2015-12-31 09:13
图书馆论坛 2015年5期
关键词:生命周期科学图书馆

刘 杨

科学数据在科研中的作用显著,科研过程可以抽象为一个数据的生命周期管理过程。数据生命周期是指从数据产生,经数据加工和发布,最终实现数据再利用的循环过程,实质是依据科研过程来管理数据[1]。英国数字监管中心DCC(Digital Curation Centre)认为,Data Curation(简称DC)是指贯穿数字化研究数据整个生命周期的维护、保存与增值活动,通过主动管理来降低科研数据过时与研究价值降低的危险[2]。严格说,DC 生命周期管理是宏观DC 研究的一部分,重点是研究如何在科学数据生命周期各个阶段采用适当的策略来对数据进行管理,其目的主要是延长科学数据的生命周期。研究对象除数据外,还包括数据的生产、服务、使用和内外部环境、技术政策支持等方面[3]。本文以基于生命周期理论的DC 管理作为研究对象,收集国内外关于DC生命周期管理的文献,通过对比研究方法,找出我国与国外的差距。

1 国外研究现状

通过对EBSCO 和Google 进行检索(截止日期为2014 年6 月25 日),分别以data curation lifecycle、digitalcuration lifecycle 等为关键词和题名,获得有效文献550 篇,其中Available in Library Collection238 篇。利用noteexpress 软件进行时间、作者和主题等统计分析。

1.1 时间分布

国外DC 生命周期管理研究始于2006 年,2010 年开始形成规模化增长,所以统计从2010年开始。如表1 所示,2010- 2013 年文献呈递增趋势。由于2014 年统计到2014 年6 月,所以文献量相对较少。

表1 国外DC 生命周期管理文献年度分布表

1.2 作者分析

发文篇数在6 篇以上的学者7 位,Palmer,Carole L 发文量最多,总数是10 篇;Carlson,Jake R 发文量7 篇;其他4 位发文量均为6 篇,其中Dietrich,Dianne 作为第一作者发文3 篇,是以第一作者发文数最多的学者,从发文时间看,几乎每年都有研究成果发表,说明该作者持续研究DC。

1.3 机构分析

通过EBSCO Discovery service 进行检索,6 家出版机构囊括DC 领域近40%的发文量,taylor&francis ltd(泰勒- 弗朗西斯出版集团)、emerald group publishing limited(英国爱墨瑞得出版社)是DC 研究的主导机构。如表2 所示。

表2 国外DC 生命周期管理研究成果主要出版机构

1.4 文献主题分析

国外对DC 生命周期的研究主要集中在五个方面,见表3。其中DC 生命周期管理综述这个主题所占比重最大。

表3 国外DC 生命周期管理文献主题

1.4.1 DC 生命周期管理

英国数字监管中心DCC 认为Data Curation是持续的过程,需要在整个数据生命周期中进行操作和管理,要投入大量的精力、时间及资源。Panos Constantopoulos 等在DCC 提出的DC生命周期模型基础上,提出DC 生命周期的扩展模型,将DC 功能模块及行为由内向外分为七层,以图形化的形式概括基于生命周期的DC 管理过程[4]。Jack R C 总结了DC 生命周期管理的四个典型模型,指出各个模型存在的问题[5]。

1.4.2 DC 技术应用

国外关于DC 生命周期研究的文献大多数是实践后总结性论文,涉及具体实用。Maria S 全面总结考古机构在DC 方面的实践,强调考古机构如何实现从简单、单独的项目数据存储转变为长期的、可持续、有生命力的机构数据资源中心,以实现数据共享、再利用和开放获取[6]。

1.4.3 数字化保存和归档

多数学者认为数字化保存(Digital reservation)和数字归档(Digital archiving)可划为DC 生命周期管理中的某一环节。学者们通过讨论数字图书馆中的数字保存、档案科学和方法论等基础问题,借荐产品生命周期管理中的长期保存经验,提出数字图书馆的价值在于将文化和科学知识传达给未来的能力,要做这一点,须解决数字化保存和管理的挑战。

1.4.4 高校图书馆的DC 研究

高校图书馆对DC 的研究比较多。Robert F指出高校图书馆在DC 中的责任,认为不仅要对上级组织负责,还应对将来要使用这些数据的科研人员负责[7]。Michael J G 提出高校图书馆是数据质量的中心,讨论高校图书馆在DC 中的地位和作用,强调curation 优先于creation,高校图书馆要巩固数据中心的地位,就须在新的科研产生前就嵌入科研进程中[8]。

1.5 国外研究项目

1.5.1 DCP 项目

2004 年3 月英国DCC 中心发起DCP(Data Curation Profile)项目,开发了关于Data Curation的工具包。工具包主要是帮助图书馆员为科研工作者提供DC 服务,包含用户指南、采访者手册、采访工作表、DC 文件模板等四个模块。

1.5.2 DataNet 计划

DataNet 计划是指美国国家科学基金(NSF)用5 年时间资助5 项重点研究课题的计划,该计划于2009 年全额资助由新墨西哥大学图书馆开展的DataONE 项目和约翰·霍普金斯大学图书馆开展的Data Conservancy 项目。DataONE 项目专门针对地球科学开发,构建能提供准确清晰的地球观测数据的平台。Data Conservancy 项目开发面向跨学科观测数据的数据管理基础架构。

1.5.3 DigCCurr 项目

为培养DC 专业人员,2006 年北卡罗来纳大学设立数字化监护课程项目DigCCurr,课程内容设置涵盖硕士研究生和博士研究生。该项目在全球产生广泛影响,为其他教育或科研机构实施类似的教育项目提供了很好的实践模型,推动了DC 教育的发展。

2 我国研究现状

通过检索CNKI,在文献分类目录导航中选择图书情报与数字图书馆,通过主题检索途径输入“Data Curation+ 周期”,“数据管理+ 生命周期”,共检索出12 篇相关核心文章(截止日期为2014 年12 月10 日)。其研究论文主要发表在核心期刊上,可见研究者对此相当重视。

2.1 时间分布

我国DC 生命周期管理研究始于2011 年,有文献3 篇。2013 年和2014 年形成高峰期。

2.2 文献作者分析

在我国进行DC 生命周期管理研究的学者较少,成果不集中,师荣华、刘细文两位学者最先开始此项课题的研究。武汉大学信息管理学院等大学的一些学者也是DC 研究的先行者。

2.3 文献主题分析

我国对DC 生命周期的研究集中在DC 的生命周期管理综述、DC 生命周期管理模型研究、图书馆DC 服务、图书馆员角色研究、科学数据共享研究等主题,见表4。

表4 我国DC 生命周期管理文献主题

2.3.1 图书馆DC 服务

图书馆DC 服务是我国学者研究较多的主题,说明在e- science 背景下,图书情报领域的学者意识到DC 服务的新趋势。师荣华、刘细文基于数据生命周期的理论提出图书馆科学数据服务模式[9],是我国研究数据生命周期的经典文献。马晓亭构建基于生命周期理论的图书馆大数据监护系统,定义了图书馆数据监护的含义,指出图书馆在读者大数据阅读服务过程中,应根据数据生命周期发展规律,对大数据资源进行DC 管理,以确保数据未来被再发现和再利用[10]。

2.3.2 DC 生命周期管理综述

DC 的主要内容是如何将处于生命周期中的数据通过管理活动生成新数据、元数据和知识,并在研究人员需要时提供完整性、相关性和访问性的服务,包括及时维护不同版本数据之间的链接,保障数据源的可信性及管理与操作、解释数据相关性。学者们通过对国内外DC 研究现状与热点分析,从数据生命周期视角阐述DC 的作用,构建了科学数据生命周期示意图。

2.3.3 DC 生命周期管理模型研究

关于DC 生命周期模型问题,丁宁、马浩琴专门研究国外高校DC 生命周期管理模型,并进行比较,提出我国高校科学数据生命周期管理需要借鉴的经验[11]。王芳、慎金花提出细化的DC生命周期模型,强调DC 是主动、持续地贯穿数据生命周期的管理活动[12]。

2.3.4 图书馆员角色研究

把握数据生命周期,图书馆根据科研人员对科学数据的要求,结合自身实际拓展服务,成功摆脱研究型图书馆在科学数据管理中角色定位的局限性。任树怀等参照DC 生命周期的扩展模型,提出学科馆员作为Data curator 所担任的角色及履行的职责可以贯穿于DC 生命周期的各个环节中,并从十方面将学科馆员可以参与的工作映射到模型中进行论述[13]。

2.3.5 科学数据共享研究

科学数据的共享或公共获取已成为科学研究整个流程的利益相关者(包括管理机构、资助机构、期刊、个人研究者)都密切关注的问题。科学数据共享是DC 生命周期管理的最终目的,科学数据共享的认可程度和实践程度越高,越能为科研人员和机构乃至国家间科研合作提供良好契机。

2.4 我国研究项目

2.4.1 科学数据共享工程

科学数据共享工程自2001 年底启动第一个试点——气象科学数据共享试点以来,在资源环境、农业、人口与健康、基础与前沿等领域共24 个部门开展了科学数据共享工作,初具规模。我国已启动9 个科学数据共享试点,开展科学数据共享政策法规和技术标准体系的调研工作,提供在线服务的科学数据资源超过100TB[14]。

2.4.2 科技信息资源内容监测与分析服务平台

中国科学技术信息研究所和韩国科技情报院合作研发“科技信息资源内容监测与分析服务平台”,该平台融合本体技术、关联数据、机器学习、数据挖掘和文本聚类处理等技术,可提供的服务包括领域深层主题揭示,作者、机构和团队研究兴趣演化分析,论文和专利资源领域深层主题关联分析,技术生命周期分析及预测,竞争对手及合作伙伴分析,机构技术路线图分析等[15]。

3 国内外研究对比分析

国内外研究的相同点是论文数量集中爆发于2011 年,DC 成为信息学和图书馆学领域内新的研究热点。国内外研究的不同主要体现在五个方面。

3.1 研究时间

2005 年9 月第一届“Digital Curation”会议在英国巴斯大学召开,标志着国外DC 研究时代的来临。我国DC 研究始于2005 年,DC 生命周期的研究始于2011 年,相对滞后。

3.2 研究成果

从研究成果数量看,国外2010- 2014 年为550 篇,我国为12 篇。刨除对国外数据库检索存在的误差,范围和主题比较宽泛的因素,差距仍然显而易见。从研究成果的形式看,国外研究形式多样化,有学术论文、专利、会议论文、专著等;我国主要是学术论文和专著,实践应用方面的论文明显少于国外,相关的机构和政策支持力度弱。

3.3 研究机构和研究者

国外有专门的研究机构如DCC,出版集团公司参与较多,研究者有大型数据公司的技术人员、高校科研人员和大学图书馆的工作人员。我国主要集中在高校的信息管理学院和大学图书馆员,这说明我国科研人员对科学数据的整理、共享、再利用、增值的价值认识不够,科研合作意识不够普及。

3.4 研究内容和研究项目

国外的研究主题宽泛,涉及信息管理、数据库管理、数字图书馆和数字保存,更关注在DC管理中引入生命周期管理和相关技术的应用方式,采用调查和实证模型分析的方式进行研究,注重研究过程的实践性,研究内容更加深入。我国研究局限于个体范围,更多以理论分析为基础,对DC 生命周期模型研究停留在翻译和模仿阶段,创新少;大多数学者提出来的是概念模型,缺乏实践应用认证,这与我国科研人员的科学数据管理意识薄弱、缺乏数据管理培训有关,研究需深入。从研究项目说,差距更明显,国外政府和高校都较重视,部分重点大学、美国国家自然科学基金会等都成立科学数据生命周期管理小组,研究项目数量多,形式丰富多样,走在我们前面。

3.5 DC 政策支持和教育培训

欧美高校和科研机构更注重对数据管理的基础设施建设,研究从单一学科的元数据标准开发和架构建设转向艺术人文科学及交叉学科的出版物、数据及语境信息的有效交联方面;不仅强调科学数据的重要性,更重视其数据持久性、数据及元数据质量、可信度及审计问题;无论从机构视角还是从国家视角,都给予DC 建设足够的重视。据不完全统计,至少有20 所欧美高校和政府机构、美国航空航天局、美国国家档案和文件管理局等都开设DC 课程或培训,涉及硕士、博士及职业培训[16]。我国DC 研究刚刚起步,多数学者还在讨论Data Curation 这个外来词的中文名称,可见缺乏有力的管理政策支持,对科研机构的数据监管工作没有约束力,学者也缺乏投身DC 建设的积极性。由此,统一DC 概念认识,研究及界定DC 工作的边界和主要研究内容,加强DC 工作实践,包括普及培训、课程教育、岗位设置和业绩考核等是我国DC 发展的瓶颈。

4 DC 生命周期管理研究方向

4.1 加强DC 生命周期具体内容的研究

目前国内外对DC 的核心部分研究都不够深入,缺乏对数据对象价值的评估和测度、没有对数据生命周期变化规律的定量分析。如何进行DC 生命周期各阶段时间长度的划分、各阶段数据对象价值的确定、各阶段数据对象的变化规律、何时进行数据迁移和归档,以及用定量的方式进行研究都应该是当前研究的重点。

4.2 深入DC 生命周期技术和政策规范的研究

大数据时代,海量数据的保存、整合、挖掘和再利用是研究热点。应从DC 的生命周期管理角度,通过对元数据的结构化规范控制,形成完整的科学数据元数据规范,利用本体术语层次结构扩展元数据的标准化关键词检索,再利用关联数据技术将数据对象组织为科学数据集进行管理和发布,规范数据的开放获取协议,简化复杂技术在实际使用中带给用户的负担。

4.3 注重DC 生命周期应用和合作的研究

一直以来DC 生命周期的研究百花齐放,科研机构和Data Curator 的合作多是随性而为,缺乏政策引导和法律规范,角色划分也不明确。研究者应遵循生命周期规律,拓宽DC 的应用领域,将航空航天、生命科学等自然学科中总结出的经验启示应用到历史、人文等社会学科和交叉学科领域。同时加强参与DC 生命周期管理一系列活动的工作人员四种角色的分配和合作,分别是数据创造者(data creator)、数据科学家(data scientist)、数据管理者(data manager) 和数据馆员(data librarian),逐渐形成分级托管和存储外包的规范格局。

[1][9]师荣华,刘细文.基于数据生命周期的图书馆科学数据服务研究[J].图书情报工作,2011(1):39- 42.

[2] DCC.What isdigitalcuration?[EB/OL].[2014- 07- 12].http://www.dcc.ac.uk/digital- curation/what- digitalcuration.

[3][11]丁宁,马浩琴.国外高校科学数据生命周期管理模型比较研究及借鉴[J].图书情报工作,2013(6):18- 22.

[4] Panos Constantopoulos,Costis Dallas et al. DCC&U:An Extended Digital Curation Lifecycle Model[J/OL].The International Journal of Digital Curation,2009,4(1):34- 45[2014- 03- 23]. http://www. ijdc. net/index.php/ijdc/article/view/100.

[5] Jake R C.How Do ResearchersDefine Their Data Lifecycle and What Can We Learn from Their Definitions?[EB/OL]. [2014- 02- 15]. http://docs.lib.purdue.edu/lib_fspres/46.

[6] Simbulan M. Transitioning from Data Storage to Data Curation: The Challenges Facing an Archaeological Institution[J].in Proceedingsof the Informing Science and Information Technology Education Conference,2013.

[7] Robert F. The art and science of data curation[J].OCLC Systems&Services,2013,29(4):195- 199.

[8] Michael JG,Academic LibrariesasData Quality Hubs[J].Journal of Librarianship and Scholarly Communication,2012,12(13):1- 10.

[10] 马晓亭.图书馆大数据监护系统的构建—以生命周期理论为视角[J].图书馆建设,2014(12):31- 38.

[12][16]王芳,慎金花.国外数据管护(data curation) 研究与实践进展[J].中国图书馆学报,2014(7):1- 15.

[13] 任树怀,时婉璐.论数据策管环境下学科馆员的角色定位[J].图书馆杂志,2014(9):48- 53.

[14] 科学数据共享工程[EB/OL].[2014- 06- 25].http://baike.baidu.com/view/1047817.htm.

[15] 徐硕,乔晓东.科技信息资源内容监测与分析服务平台概况[C]// 数字图书馆论坛2010 年年会论文集.北京:国家科技图书文献中心,2011:211- 220.

猜你喜欢
生命周期科学图书馆
全生命周期下呼吸机质量控制
从生命周期视角看并购保险
点击科学
民用飞机全生命周期KPI的研究与应用
科学大爆炸
企业生命周期及其管理
图书馆
科学拔牙
去图书馆
衰落的科学