基于关联数据的数字图书馆联合目录知识库构建研究

2018-09-29 05:47周晨

新世纪图书馆 2018年7期

关键词：知识库数字图书馆

周晨

摘要当前数字图书馆联合目录知识库发展面临新挑战，实现数字图书馆书目数据关联化具有现实意义，论文研究了基于关联数据的数字图书馆联合目录知识库的构建，指出了数字图书馆联合目录知识库的运维条件。

关键词关联数据数字图书馆联合目录知识库

分类号 G250.74

DOI 10.16810/j.cnki.1672-514X.2018.07.013

Abstract Nowadays the development of union catalog knowledge base in digital libraries is facing new challenges， which endows realizing the book-data association with practical significance. In this paper， the construction of knowledge base based on associated data is studied， and its operation and maintenance conditions are stated.

Keywords Associated data. Digital library. Union catalog. Knowledge base.

我国图书馆联合目录知识库建设已经有多年的历史，是不同图书馆之间协调藏书、拓展读者范围的有效方式[1]。随着数字化资源的增多与学术交流环境的变化，数字图书馆开始着手建设虚拟联合目录，用于处理庞大繁杂的数字化资源，但收效并不显著。采用何种技术处理异构分布的数据资源，加快馆藏资源联合编目速度，促进数字图书馆优化联合目录管理模式，成为图书馆界需要考虑的问题。

2006年，关联数据（Linked Data）技术的提出，解决了语义网环境下数据资源的格式规范问题，对于数据链接、发布与传播的有序性，整合开放信息资源、促进数据语义关联方面具有显著优势。在数据库中通过发现不同数据之间的内在关联，实现不同信息资源的关联化，形成机器可以识别的语言，进而构建基于关联数据的信息网络。关联数据技术应用于数字图书館联合目录知识库建设，将从根本上解决数据不兼容问题，从馆藏书目关联化、内容组织等方面，进一步优化数字图书馆知识服务环境。

1 我国数字图书馆联合目录知识库发展面临的挑战

1.1 联合目录的概念

联合目录是不同图书馆共同建立的馆藏目录，旨在集中揭示区域图书馆文献收藏情况，保障共知、共建和共享。其随着图书馆自动化建设进程，以及信息技术的进步而不断变化。纸质图书联合目录是最早的编目形式，但是由于纸质图书联合目录的编制时间较长，需要协调多个机构之间的关系，存在信息滞后性，很难客观反映不同成员馆的藏书变化情况，因此仅用于手工编目阶段。计算机技术的进步，为图书馆的联机编目提供了便利[2]。1967年，美国某高校图书馆建立了最大的联机书目系统，创建了对应的WLN网络，此后，发达国家纷纷构建联机编目体系，促进了跨地域、跨国家联合目录的发展。

1.2 联合目录知识库

多个图书馆采用统一的联合目录，构建对应的馆藏文献存储与检索系统，实现联合目录数据的在线下载、编著与加工等，这就是联合目录知识库。其属于区域文献资源流通中心，由多个图书馆共同维护，真正实现了资源共知和共享。联合目录知识库大多采取自由联合管理模式，即成员馆以自由、自愿的原则，达成资源共建的共识，自愿以某一图书馆为中心，在此基础上增加全新的文献联合目录，不断填充知识库信息。目前，我国建成的经典联合目录知识库，当属科技部的“九五”攻关项目成果“中科院国家科学数字图书馆（CSDL）”[3]。这一数字图书馆项目以中国科学院情报中心为主体，由多家图书馆共同参与建设的期刊联合目录数据库，建设主体涵盖了中科院系统图书馆、公共图书馆、高校图书馆、重要情报机构等多种类型，属于数字图书馆联合服务体系。

1.3 联合目录知识库发展现状

随着我国图书馆书目由手工编制变为机读形式，联合目录也发生了很大的变化。联合目录知识库是不同图书馆之间文献流通的基础，对于联合目录的管理分为两种模式，即集中式联合目录与虚拟联合目录。前者是通过构建统一的数据库，实现对馆藏书目数据的统一管理；后者是通过对馆藏书目进行虚拟整合，设计统一的在线检索界面，方便用户检索时随时查询不同图书馆的信息。传统的集中式联合目录管理方式，其数据存储具有统一的格式，用户检索效率高，但无法反映成员馆的信息流通情况，对于馆藏规模也有一定的限制。采用虚拟联合目录方式，只需成员馆各自构建数据库，无需进行集中管理，仅在用户检索时集中调配数据[4]。然而这种方式的弊端在于，用户检索请求响应效率低，各馆信息格式难以统一，检索结果的整合与排序难度大，有必要引入更加高效的数据处理技术，保障虚拟联合目录的应用效果。

2 数字图书馆书目数据关联化及现实意义

语义网技术的进步为数据资源快速识别、定位与挖掘提供了便利，若将以语义网为基础的关联数据引入联合目录中，可为书目数据整合提供统一的数据模型，并优化联合目录管理方式，这将成为数字图书馆未来发展的重点，也将促使数字图书馆真正成为知识服务枢纽。

2.1 关联数据的应用

关联数据自提出至今，一直受到图书馆界的广泛关注。很多图书馆积极引入关联数据，并在馆藏资源关联化方面进行了有益探索[5]。数字图书馆作为数据组织传播中心，其存储的大量规范数据资源，与联合目录相关的主题词、MARC数据等，都为发布关联数据奠定了基础。实现馆藏数据与互联网资源的融合，不仅需要将数字图书馆有价值的信息转化为关联数据发布至网络中，也需要馆藏资源与其它机构资源的语义关联，只有促进异构资源的融合与互操作，才能为数据资源发现提供便利，为用户提供更多有用的知识。早在2008年，瑞典国家图书馆就引入关联数据，实现了联合目录的关联化，成为全球第一个将联合目录发布为关联数据的图书馆。瑞典国家图书馆应用了本体和元数据规范词表，结合图情学领域专业词汇，将书目变为结构化的关联数据格式，为其它图书馆关联数据的应用提供了借鉴。

2.2 图书馆书目数据关联化

圖书馆书目数据的关联化，就是将馆藏书目转化为关联数据格式，促进书目数据与网络资源的整合，使之成为互联网数据服务模式。数字图书馆对书目数据的关联化操作，需要借助URI记录书目名称，然后利用URI链接获取更多关联对象，方便用户通过互联网定位书目信息，发现更多与馆藏书目相关的内容。具体而言，就是通过整合馆藏书目资源，根据不同的主题、编著方式、名称规范等，赋予对应的唯一URI标识，以建立与URI对应的链接，方便用户根据不同的主题、名称等，迅速定位所需的数据资源，并且根据URI链接进行拓展检索，获得更多相关信息。数字图书馆需要解决的核心问题，就是如何对联合目录进行分解，使之成为独立的书目数据，即最小的书目信息记录单元[6]。这个步骤的实施目的在于保障URI标识的唯一性，通过URI实现信息链接，以发现更多有意义的内容。

2.3 书目数据关联化的现实意义

数字图书馆书目数据关联化，不仅是实现数据开放共享的方式，让书目数据能够借助语义网广泛传播。经过关联化的馆藏书目信息，不仅向本馆用户开放，也面向其它信息机构，任何用户利用互联网检索或URI链接，都可以查到相关书目信息。书目数据关联化的意义，在于为用户提供知识发现服务，实现检索拓展，建立更有价值的链接，通过详细描述书目信息，促进相关内容的高度集成。关联数据实现了异构信息整合，让用户在检索书目时可以了解出版社、作者等相关内容，或者获取国外图书馆的相关链接，促进多层次知识内容集成。数字图书馆建立关联书目数据，不仅是丰富馆藏的有效方式，也是吸引读者的必要手段。例如，瑞典国家图书馆的数据关联化，主要目标就是通过与移动运营商合作，借助XML等数据关联格式，方便用户利用互联网检索馆藏书目，吸引更多用户利用馆藏资源。

3 基于关联数据的数字图书馆联合目录知识库的构建

基于关联数据的联合目录知识库，涉及到多种资源的整合加工，并非单个机构可以完成的。数字图书馆首先需要与合作机构协商，建立专门的知识库责任小组，选择专门人员从事知识库研究工作，探索系统平台搭建方法。同时对各成员馆的开放书目数据进行统一收集整理，鼓励用户将已有资源上传至知识库中，不断丰富联合知识库资源，真正实现联合目录的开放共享。

3.1 知识库系统框架

数字图书馆首先需要建立与联合目录知识库相关的软件平台，根据各成员馆的实际需求，分析现有开源软件平台的性能，结合自身人力与财力情况，选择合适的开源软件作为系统架构搭建工具。在软件平台搭建阶段，需要做好用户调研工作，根据调研结果，制定合理的平台建设方案，并在实际操作中适时调整不同模块的功能。数字图书馆通过与第三方软件服务商合作，可以增加软件平台功能，或者借助本地化工具构建适宜的知识库平台。系统平台要求具备文献集成功能，可以利用Note Express软件进行数据批量管理，将知识库与个人数据管理结合起来，提升书目资源传输效率。整个软件平台的搭建可分为应用层、逻辑层与存储层三部分，每一层对应不同的功能组件，不同层级之间由专用接口相连，实现信息传输与资源调用。其中存储层可实现元数据的存储管理与数据库的互操作，逻辑层负责业务数据的传输、调配与文件管理，应用层可实现对各类资源与功能组件的统一管理，实现系统与外界的关联。平台基本逻辑框架如图1所示。

3.2 数据加工处理

数字图书馆知识库建设依据我国图书馆分类法规，全部采用机读目录格式。在书目数据加工整合过程中，首先做好数据筛选抽查工作，分析各成员馆的数据质量，确定不同图书馆的数据接收顺序。其次，分析不同数据源存在的差异，做好数据清洗与预处理工作，实现异构数据有序整合。对书目数据的加工处理，需要根据系统设置做好关键字段对比工作，并在数据导入时进行详细登记与标注，以避免相同数据被重复录入而降低工作效率。系统核查功能模块设置的基本字段包括出版来源、ISBN等，系统通过综合分析三个以上字段，判断书目数据是否具有唯一性，进而做好相同数据的过滤工作。若经过核查发现ISBN等字段相同，就需要查询书目数据的出版著录日期，以分析是否为相同数据，进而实现数据去重。由于大规模数据回溯与去重工程量大，很可能出现问题字段，需要做好数据修补、维护工作，以保障数据加工质量。

3.3 业务规则设计

业务规则设计是避免联合目录知识库建设质量问题的基础，是降低返工率的保障。知识库中相同文献仅保留一条标记，避免数据量过多使得文献标识分散。根据书目数据匹配原则，数字图书馆可以根据书目质量评估，确定被保留书目的优先级[7]。制定书目数据共享规则，是保障联合目录共建、共享的基础。原则上，数字图书馆的所有书目数据均应该开放共享，本着不重复、互利互惠的原则，联合目录知识库中的所有资源，不仅服务于所有成员馆，也应该提供给其它信息机构，以促进我国联合编目体系的发展。但是目前很多图书馆由于人员编制、馆藏结构的限制，无法一步到位地实现全开放式服务，这种情况下可以采用分布实施的方法，设计统一的图书馆书目检索规则，方便用户获取不同来源的信息；同时应在书目数据联合共建基础上，提供更高层次的知识服务，提高馆藏资源流通率。

4 数字图书馆联合目录知识库的运维条件研究

数字图书馆联合目录是反映多个文献机构馆藏图书的目录，多由不同的机构遵循统一的著录规范编制而成。而联合目录知识库的构建，有助于集中揭示多个文献机构的藏书情况，方便文献检索、馆际互借与数据整合。为保障联合目录知识库的有序运作，数字图书馆需要强化区域合作，实现联合目录集中式管理，并做好安全维护工作。

4.1 联合目录集中式管理

数字图书馆联合目录的集中式管理，就是将成员馆已有的联合目录数据集，存储在特定语义仓储中，实现统一调配与管理，如图2所示。该语义仓储设置了不同成员馆的访问权限，用于存放包含URI标识的规范数据，以及包括实例、成员馆信息的三元组等，各成员馆也可以建立本地数据库，实现与中心仓储的实时信息交换。中心仓储与成员馆的数据同步，可以采用增量同步、批量同步两种方式。前者结合了联机编目与语义联合编目，当成员馆获得新资源后，首先对本体数据库进行检索，了解其中是否存在对应的信息；若没有则向中心仓储发送检索请求；若中心仓储已有该资源，则由成员馆直接存储，若无则上传至中心仓储。为避免各成员馆数据更新的滞后性，可以在中心仓储与本地数据库间建立同步机制，若中心仓储发生数据变动，则向各成员馆发布通知，避免书目数据重复建设。