文献资产元数据仓储建设关键问题研究

2018-10-25 01:54孙锐杨新涯魏群义李燕廖维
大学图书馆学报 2018年2期

孙锐 杨新涯 魏群义 李燕 廖维

摘要 文献资产元数据仓储建设是图书馆文献资产管理的基础,在文献资产元数据仓储建设中,文献资产权益的法律保障问题、图书馆合理获得及使用文献元数据的权益保障问题及资产元数据组织规范问题的解决是关键。文章通过对高校图书馆数字资源采购联盟(DigitalResource Acquisition Alliance of Chinese Academic Libraries,缩写为DRAA)采购方案样本中存档权、永久使用权、永久访问权、元数据获得权等与资产管理密切相关的条款的研究,探讨数字资产权益的保障程度;并以重庆大学图书馆为例,提出了基于教育部学科门类进行资源组织的思路,提出了文献判重标准和数字资产馆藏号方案。

关键词 元数据元数据仓储 文献资产管理 资产权益 采购协议 数字资产 重庆大学图书馆

分类号 G250

DOI 10.16603/j.issn1002 - 1027.2018.02.003

1 引言

文献资产管理是图书馆服务的基础,根据《事业单位国有资产管理暂行办法》的规定,资产管理以维护国有资产的安全完整、合理配置和有效利用为目标。安全完整指文献资产有详细清楚的资产账目,账实相符;合理配置指文献资产满足读者和学科发展需要;有效利用指利用效果好,读者满意度高。其中安全完整是基础。图书馆的文献资产包括纸质资产、虚拟的数字资产和其他载体资产,纸质资产和其他载体资产通过常规的文献编目形成目錄和财产账,实现资产的借阅、增加、减少、变动、盘存等管理。数字资产管理则还停留在以“库”为粒度的粗放式管理上,图书馆网站显示的是同质化的数据库陈列服务,数据库成为一个个信息孤岛,无法实现聚类和重组;无法展示具有本校特色的文献信息资源体系;无法掌握文献资源完整详细的馆藏情况、利用情况等大数据;无法为用户提供精细化的信息服务。数字资产的采购经费占国家下拨经费的比例越来越高,成为文献资产的重要组成部分,数字资产管理水平亟待提高。

重庆大学图书馆正在进行的文献资产元数据仓储建设,将图书以“册”为基本单元,其余文献以“篇”为基本单元进行整合,利用资产管理平台盘点了图书、期刊论文、学位论文、标准等4类全文数据库的资产,目前已收集、整理了1.3亿条元数据,实现了图书馆元数据百万级向亿级的飞跃。在文献资产元数据仓储建设的过程中,有3个关键问题值得研究:文献资产相关权益的法律保障、图书馆合理获得及使用文献元数据的权益保障及元数据组织的相关标准。

2 文献资产权益的法律保障研究

图书馆的纸质资产和其他载体资产具有物理载体,图书馆拥有所有权,可在法律范围之内为读者提供外借、复制、馆际互借、汇编等服务,通过常规的文献编目形成目录和财产账,实现资产的增减、调配、盘存等管理,符合固定资产要求的资产还要建固定资产账目,资产权益得到保障。数字资源由于实行许可证制度,资源获取与拥有相分离,即很多情况下图书馆实际只从出版商那里购买了使用权,没有实际的所有权。为加强对数字资产的控制,DRAA在《高校图书馆数字资源采购联盟工作规范(草案)》中第十五条明确规定:一般情况下,所购买数据库应有存档权,存档可采取联盟公共存档或成员馆白行存档的方式。此外,成员馆可以通过访问联盟公共存档或者成员馆自己存档的数据和数据库商提供永久访问的权限两种方式或其中的一种方式永久使用所购数据库。存档权、永久访问权、永久使用权是与文献资产属性密切相关的资产权益。本文对高校图书馆数字资源采购联盟(Digital Resource Acqui-sition Alliance of Chinese Academic Libraries,以下简称DRAA)联合采购的20个合同期内数据库的采购方案进行调研,涉及期刊、图书、学位论文、会议录、事实数值、参考工具等文献类型,重点调研许可协议中有关存档权、永久使用权、永久访问权等方面的内容。

存档权(Archive Right):有关主体出于为国家和公众长远保护网络信息和有效开展服务的动机,而拥有的对网络信息定期或不定期进行捕获、归档、保存等权利,它是有关主体为了履行其所承担的社会职责所必须具备的职业权利。存档权是采购方案重要的关注点之一,关乎图书馆所购买的数字资产能否在图书馆长期保存。

使用权(Use Right):从公众的利益考虑,图书馆对数字资源的使用应该有这样一些权利,即访问权、下载权、打印权、有限的馆际互借权和有限的上载权,非恶意的或技术过程所必须的无商业利益的解密权等。有学者指出数字图书馆应当在特定的价格范围内要求最大化的使用形式。美国加州大学为不受制于出版商,独立创建了CDL电子资源许可协议模型,该模型明确规定:许可协议必须指明当数据库移除时,加州大学对于已经付费的电子资源拥有永久使用权,资源提供商必须明确描述图书馆及其使用者的权利,也必须相信图书馆拥有监控合法使用信息的能力。

访问权(Access Rights):国家标准《GB/T4894-2009信息文献与术语》对“访问权”的解释是:获取或利用图书馆馆藏的权利。即访问权不仅仅是普通意义上的浏览,从这个解释来看,图书馆对数字资源的访问、下载、打印、馆际互借乃至技术过程所必须的无商业利益的解密都是获取和利用图书馆馆藏的方式,属于访问权的范畴。因此,使用权(UseRight)与访问权(Access Right)并无实际意义的差别。

20个数据库采购方案中出现“永久使用权”、“永久访问权”等字样,但均未进一步说明该权利包含的具体内容,大部分方案给予图书馆的是永久访问权而非永久使用权。

根据表1可以看出:

2.1 仅70%的数据库给予图书馆永久访问权/使用权

20个数据库给予图书馆永久使用权的有2个:PQDT为免费提供,“提供订购相应篇数的PDF论文全文的永久使用权”,当然,对某一家具体图书馆来讲,订购相应篇数的数量并不多;ScienceDirectOnline为付费提供,协议第13条规定:订阅者在全部年度订阅终止时,可选择2种方式访问和使用,一种是付费获得、装载及技术性格式化其已付费出版年份内全部或部分订阅题目的电子副本,另一种是支付年度访问费。给予图书馆永久访问权的有11个,占55%,其中8个为免费提供,3个为付费提供;6个数据库在方案里未提及永久使用权和永久访问权,占30%。

2.2 文献类型与提供永久访问权不绝对相关

一直以来,图书馆界普遍认为电子图书供应商应提供永久使用权或永久访问权,期刊数据库供应商应提供购买年限的永久使用权或永久访问权,事实型/数值型/参考工具型数据库供应商一般不会提供,基于这种认识,在与数据库商协议时,图书馆方对拥有电子图书和电子期刊的永久使用权或永久访问权的坚持会表现比较强硬,通过对20个方案的分析,发现这个认识有偏颇。

20個方案中涉及的5类文献均有可提供永久使用/访问权的方案,也均有未提及永久使用/访问权的方案。有4个期刊数据库的方案没有提及永久访问权和永久使用权,占样本中期刊数据库的比例为30%。明确表明不提供的1个数据库是律商联讯(LexisNexis Academic及Lexis.com),其在方案中的表述为:“基于数据库性质,律商联讯无法提供存档服务以及合同以外的服务。”

“Wiley Current Protocols实验室指南”收录18000篇同行评审、定期更新的分步式实验室流程,为参考工具型数据库,在2017.1.1 - 2019.12. 31的方案里明确表述:连续订购三年8个实验室指南以上(含8个)可获得订购专辑的订购当年永久访问权,其他订购方式均为订购当年访问权。

2.3 大部分数据库联合采购方案未提及存档权

20个方案中有9个方案未提及存档权,涉及各种文献类型,占45%;4个方案为付费提供;6个方案为免费提供;1个方案不提供,明确不提供存档权的数据库为“LexisNexis Academic及Lexis.com”。

2.4 购买存档权的费用不菲

4个付费提供的方案均为期刊数据库,其存档费用占订购金额的比例在4-22%之间。美国物理学会数据库(APS)的存档费用最高,占Tl级用户订购价格的21.59%。如此高的价格将会使图书馆在经费有限的情况下完全不去采购,失去了提供存档的意义。另外,如何使用存档权并不清楚,方案中没有提及,图书馆馆员也大都没有相关知识和经验。4个付费存档的数据库见表2。

2.5 图书馆的资产权益保障现状不容乐观

据对20个采购方案的资产属性条款进行分析,发现从法律角度保障图书馆资产权益的状况不容乐观,图书馆界须进一步与数据库商博弈,争取更多权益。同时在与数据库商签订采购方案时.应注意条款的完整规范,建议向加州大学学习,建立适合国情并保障图书馆权益的电子资源许可协议模型,进一步规范协议的签订。

3 图书馆合理获得及使用文献元数据的权益保障研究

元数据是数据的数据,是用来描述和规定数据特征、相互关系以及相应操作的数据的集合,构建完整的图书馆文献资源元数据仓储是图书馆对文献资产进行管理的基础。数字资产的元数据既有资源集合的元数据,又有资源对象的元数据。资源集合元数据用来描述和管理电子资源的集合,如图书、期刊、论文集、会议录等;资源对象元数据用来描述某一具体不可再细分的电子资源,例如一篇论文、一份标准、一篇学位论文。元数据是数据库的详细目录,是建设资产元数据仓储的基础,纸质资产的元数据在采购合同中有规定,元数据提供已经成为纸质资产采购合同必备条款之一。数字资产的元数据作为数据库产品的目录应由各数据库商无偿提供给购买方,数据库商可要求购买方承诺在合理范围内使用。通过对DRAA联合采购的20个合同期内数据库的采购方案相关条款的调研,发现情况不容乐观。

3.1 大部分方案未提及是否可提供元数据

20个联合采购方案有14个没有提到是否提供元数据,有6个方案提到可以提供元数据,均为MARC格式数据,仅占30%。提供MARC数据的方案中,有2个为期刊数据库,3个为图书数据库,1个为学位论文数据库。

3.2提供元数据的方式不明确

提供元数据的方式很重要,是图书馆利用好元数据的基础和保障,大部分方案没有提及。例如:《牛津期刊现刊库联合采购方案(2017)》:提供免费的MARC记录。通过这个条款,我们无法知道是以什么方式提供,是自动收割,还是客户下载,亦或电子邮件发送?

3.3 图书馆获取元数据的相关对策

通过以上研究,可见图书馆获取元数据的权益未得到采购方案的充分保障,作为数据库产品的目录,应成为数据库商销售产品的一部分,理应提供给图书馆,按图书馆所希望的方式提供。元数据是资产管理的基础,因此在签订采购协议时应通过相关条款明确下来。当前情况下,要获得元数据,需要在续订时与数据库商进一步博弈,重庆大学图书馆在建设文献资产数据仓储时向所有数据库商发出征集元数据的通知,数据库商均能很快响应:有的数据库商直接提供、有的采用签补充协议的方式提供、也有的明确表态不提供。经过半年多的努力,获得了39个数据库的元数据,合计1.3亿条,提供者包括Elsevier、Wiley、Springer等大出版商。

4 文献资产元数据组织的相关标准研究

文献资产元数据仓储建设涉及的标准有元数据标准、分类标准、判重标准等。重庆大学图书馆的文献资产元数据以都柏林核心元素集(Dublin CoreElement Set,以下简称DC)为基础,结合需要整合的文献类型特征,形成元数据方案。DC是一个致力于规范Web资源体系结构的国际性元数据解决方案,是成熟而广为接受的元数据格式,这里不再赘述。本文重点阐述分类标准及文献判重标准。

4.1 基于教育部学科分类的文献分类标准

根据文献的学科属性进行分类是图书馆组织和揭示文献的重要方式,国内图书馆多采用《中国图书馆分类法》(简称《中图法》)进行分类,《中图法》将知识分为5大部类22个大类。《普通高等学校本科专业目录(2012年)》是高等教育工作的基本指导性文件之一。它规定的专业划分、名称及所属门类,是设置和调整专业、实施人才培养、安排招生、授予学位、指导就业、进行教育统计和人才需求预测等工作的重要依据,该目录一共12个门类92个专业。增加按教育部《普通高等学校本科专业目录( 2012年)》的学科门类的分类代码标引,可为后续的虚拟专业图书馆的资源组织及学科服务提供便利。具体方式是将《中图法》第五版和教育部学科分类进行映射,将《中图法》的270个类目映射到92个专业类目,实现教育部学科专业类代码的自动标引。大量的外文文献没有《中图法》分类号,则根据主题词、关键词、标题等,依照自建的《主题词表》进行自动分类标引,该主题词表以《中国分类主题词表》为主,补充了部分主题词,拥有150万个主题词,覆盖范围比较广,标引效果比较好。

要做到教育部学科门类与《中图法》分类号的精确映射很难,学科发展具有交叉、渗透的特点,但是通过教育部学科分类代码的标引,增加组织文献的一种方式,可按教育部学科门类集中文献,具体来说,有以下作用。

(1)快速盘点文献资产情况,对学校相关专业评估數据的统计、报送及馆藏分析极有帮助。图2是机械类期刊论文的馆藏情况。

期刊论文是最重要的学科资源,分散于若干数据库中,通过资产盘点,以图表方式展示了机械类期刊论文的馆藏总量、主要分布数据库、语种分布和发表年分布,同时可通过输入限制条件,如导入资产的批次、作者、标题,进一步筛选并输出馆藏清单。

(2)自动生成若干虚拟专业图书馆,提升学科服务能力。

在“双一流大学”建设中,文献资源是学科建设的重要支撑,国家投入了巨额经费购买文献,但是文献分散于各数据库中,在文献资产元数据仓储中,除图书外均以“篇”为基本单元进行元数据的整合,打破了数据库壁垒;基于教育部分类的标引使文献能按专业门类集中并展示出来,数字图书馆可以呈现若干虚拟的专业图书馆,极大地提升了资源的显示度,学科服务更有针对性。

4.2 文献判重方案

在图书馆文献管理中,“种”和“册”的概念非常清晰,衡量一个图书馆的馆藏是否丰富,除了看册数,更重要的是看有多少品种。在数字资产的数据整理中,提供判重的标准非常重要,通过判断重复,合并相同文献的元数据,不同来源的同一种文献认定为复本,在馆藏号字段添加馆藏号,通过相同数据的合并和馆藏号管理,理清数字资产的品种与复本,得到馆藏的真实状况。不同文献类型重复甄别的规则不同,重庆大学图书馆在资产元数据仓储建设过程中,先整合了图书、期刊、学位论文和标准这四类文献,依据表4的判重规则甄别重复文献。

(1)文献判重方案使采购前查重、采购后验收成为可能,完善了文献资产管理流程。

依据文献判重的标准,可利用资产管理系统的数据工具功能为文献采购进行查重,生成订购数据,为数字文献采购及到货验收提供依据。查重和验收是图书馆的常规工作,是文献采购的重要环节。资产管理系统使用前,由于元数据不完备,业务系统功能不完善,无法对电子资源进行批量查重和验收,采购书单的验收采用抽查方式,效率低下,效果欠佳,资产系统的使用使工作流程更加规范,效率显著提高。

(2)文献判重方案为文献的统计分析提供依据。

查重功能可分析数据库指定导入批次文献资源的独有及重复情况,以图书为例,包括指定批次独有图书的情况:独有数量、学科分布、出版年分布;重复图书情况:重复数量、学科分布、出版年分布等。对重庆大学图书馆采购的3个中文电子图书数据库进行查重后显示,总量234万册电子书中,独有图书占76%,掌握重复情况,可分析、对比数据库的重复数量,见表5。

4.3 馆藏号方案

馆藏号是文献收藏单位所保管和收藏文献的唯一编号,具有唯一识别文献的功能,是文献收藏单位资产入账及销账的依据。馆藏号的概念源于图书馆对纸本文献的管理,图书馆将每册纸本图书和期刊装订本都赋予一个馆藏号。图书馆采用机读目录以前,馆藏号一般是用号码机打印的流水号;采用机读目录以后,馆藏号一般是可扫描的条形码。数字资产的管理也需要馆藏号,以实现对数字资产的增加、减量、变动和盘点的精细化管理,以不同的馆藏号区分不同馆藏来源,使馆藏统计更为精确。重庆大学图书馆的数字文献资产馆藏号由三部分组成:机构代码、文献类型代码和流水号。机构代码采用教育部为高校编制的学校标识码后5位数,重庆大学为10611;文献类型代码由1位阿拉伯数字构成,用于区分文献类型;流水号由10位阿拉伯数字组成,每类文献容纳数量为十亿级。

5 结语

维克托·迈尔·舍恩伯格在《大数据时代》一书指出:大数据目前为我们生活、思维、工作所带来改变,大数据时代的开启是一个时代重要的转型。对于图书馆来说,做数据的拥有者才能更好地管理资源,为读者提供文献服务,充分发挥文献资产的管理者和使用者的作用。文献资产元数据仓储建设中关键问题的研究,为重庆大学图书馆建设文献资产元数据仓储扫清了障碍,初步实现了图书、期刊、学位论文和标准资产元数据的整合,为服务教学科研打下了坚实的基础。