基于关联数据的图书馆馆藏数字资源语义化组织研究

2023-09-04 00:43佟瑞娟
河南图书馆学刊 2023年8期
关键词:数字资源图书馆

佟瑞娟

摘 要:文章利用关联数据技术构建了数字资源数据转化模型,实现了数字资源的规范化、标准化处理,同时利用其RDF描述框架功能,通过HTTP协议对数字资源知识单元进行访问,实现了馆藏数字资源知识单元的整合与发布,并在此基础上搭建了图书馆馆藏数字资源语义化组织架构,引入了数字资源语义化组织层作为深化用户需求和精准资源检索的中间层,提高了图书馆馆藏数字资源的检索效率,为图书馆间馆藏资源协同共享服务的实现奠定了基础。

关键词:关联数据;图书馆;数字资源;语义化

中图分类号:G250 文献标识码:A 文章编号:1003-1588(2023)08-0132-04

从古至今,图书馆始终扮演着知识信息传播的重要角色,随着互联网技术的快速发展和人们需求的多样化,图书馆进行了大规模的数字化变革。图书馆在大力推进数字化的过程中,大量馆藏传统资源被进行数字化描述和系统化存储,为图书馆馆藏资源的数字化应用提供了有力支撑[1,2]。然而,随之带来的是图书馆馆藏数字资源的碎片化、分散化、异构化,不仅造成了大量高价值馆藏数字资源难以被检索和利用,而且极大地降低了馆藏数字资源的利用效率。目前,图书馆馆藏资源经历了从文献到数据再到知识的过渡[3,4],相关研究主要集中在体系构建[5]、资源序化与整合[6]、资源知识发现[7]等领域,在资源语义描述及语义关联方面的研究较少。随着计算机技术的发展,如何利用计算机技术深入挖掘馆藏资源,提高资源利用效率以及发现更多的知识单元成为图书馆馆藏资源开发的重点。

关联数据技术是一种可以将半结构化或非结构化数据按照统一的规范和标准进行处理,并转化为具有一定关联特征的结构化数据技术,其在图书馆的应用不仅可以提高馆藏数字资源的系统化管理,而且可以提高数字资源的利用效率。本研究基于关联技术构建了数字资源数据转化模型以及图书馆馆藏数字资源语义化组织架构,引入了数字资源语义化组织层作为深化用户需求和精准资源检索的中间层,并以某地方志知识服务平台为例进行案例分析,旨在不断提高图书馆馆藏数字资源的检索效率,深入挖掘馆藏资源的知识价值以及提高馆藏资源的利用率。

1 关联数据在图书馆馆藏数字资源应用的背景分析

1.1 图书馆馆藏数字资源的特征

馆藏数字资源具有多源、异构等特点。首先,图书馆馆藏数字资源来源广泛,如专业机构库、科研院所库等,数量日益增多,呈现海量化的特点;其次,数据更新快,流转速度快,数据类型日益复杂化;再次,馆藏资源价值高,但存在重复交叉现象,资源利用效率高低不等,资源的知识价值亟待进一步挖掘。

1.2 关联数据技术

关联数据技术最早由Tim Berners-Lee提出,通过URI和HTTP协议聚合RDF格式的数据,用户可以通过检索工具检索到相关数据并加以利用。目前,关联数据在图书馆的应用主要集中在系统构建、优化服务模式、馆藏资源整合等方面。关联数据一方面可以通过构建语义本体,揭示和描述馆藏数字资源的知识内容;另一方面通过关联技术实现内外部数据的互联互通,拓展数据来源。

1.3 关联数据在图书馆馆藏数字资源应用的可行性分析

应用关联数据可以在多源、异构、多模态的馆藏资源间建立关联关系,实现资源的聚合,提高资源的利用率,主要表现为:①充分挖掘出资源间的关联特征。图书馆通过应用关联数据技术,对闲置率高的数字资源进行数据挖掘,找出分散化、异构化数字资源间的关联特征,并建立数字资源间的数据联系,使碎片化、分散化、异构化的数字资源能够转变为标准化、规范化的资源数据,并通过智能检索、关联检索等方式提高这类数字资源的检索率。②规范化处理馆藏资源。无序化、分散化的数字资源为图书馆馆藏资源检索及管理带来了困难,导致大量珍贵数字资源的真实价值得不到有效发挥。关联数据技术可以将此类数字资源进行规范化、标准化处理,使此类数字资源得到系统化管理和应用,这将极大地提升图书馆馆藏数字资源服务应用能力,可以方便更多的高校、科研院所很好地利用这些珍贵的数字资源,从而进一步拓宽了图书馆馆藏数字资源的应用领域。

2 图书馆馆藏数字资源语义化组织的原则

2.1 标准性原则

在开展馆藏数字资源数据关联和语义化组织过程中,图书馆需要注意的是数据转化所采用的标准、规则要一致,且保持不变。不同的数据转化标准或者规则虽然可以实现无序、离散、数字资源的关联性,但转化后的数据结构、数据类型会千差万别,形不成系统数据,不便于系统化管理和使用。标准性原则是指图书馆馆藏数字资源数据转化只有采用统一的标准和规则,才能确保转化后的数字资源在数据结构、数据类型等方面保持一致,不仅方便了数字资源后期的资源存储和系统化管理,还有助于提升用户数字资源检索的服务水平。

2.2 系统性原则

对图书馆馆藏数字资源开展数据关联和语义化组织的目的之一是建立数字资源间的系统联系。图书馆馆藏数字资源不僅包括结构化、系统化数字资源,还包括大量非结构化、离散化的数字资源,这类数字资源严重影响了馆藏数字资源的系统化管理和应用。在对图书馆馆藏数字资源开展数据关联时,首先要分析数据间的特定联系,并依据这一联系进行数据转化,最终形成系统化的数据资源;其次在馆藏数字资源数据转化中可按照数据资源结构、类型等的不同,将不同的数字资源按层级结构进行划分,使转化后的数字资源更加系统化,有助于图书馆系统的读取与调用。

2.3 完整性原则

完整性原则是图书馆馆藏数字资源语义化组织过程中首要坚持的原则,在开展数字资源数据结构转化、数据关联过程中常常出现部分数据包丢失或数据失真现象,这会给数字资源带来永久性损坏,严重影响了数字资源的使用效果,同时也给图书馆带来无法估量的损失。因此,在对馆藏数字资源开展数据管理和语义化组织过程中,图书馆需要考虑数据的离散程度和非线性特征,确保在数字资源转化过程中不出现数据失真、数据包丢失等问题,保障数字资源的完整性和转化前后的一致性。图书馆只有坚持这一原则,才能从根本上避免馆藏珍贵数字资源的遗失,才能更好地促进馆藏数字资源的有效利用。

3 基于关联数据的图书馆馆藏数字资源语义化组织结构设计

利用关联数据技术对馆藏数字资源进行数据挖掘和特征提取,建立数字资源知识单元间的关联,并对转化后的知识单元进行语义化组织,同时利用关联数据的RDF描述框架功能,通过HTTP协议访问数字资源的每个知识单元,实现馆藏数字资源知识单元的整合与发布。该过程不仅实现了馆藏数字资源深层特征的提取,建立了不同数字资源知识单元间的关联,而且建立了数字资源知识单元在语义化组织层面间的关联。基于关联数据的图书馆馆藏数字资源语义化组织结构层级主要包括馆藏数字资源库、数据资源描述层、数字资源语义关联组织层和应用服务层。馆藏数字资源库是基础数据层,主要收集和获取多源、异构、多模态的数字资源;数据资源描述层是将清洗好的数据进行语义化描述,形成RDF格式的元数据;数字资源关联组织层是利用关联数据技术将RDF元数据进行语义关联,组织成一个统一的富含语义的知识组织架构;应用服务层是基于数字资源关联组织层的知识组织架构,开发相关应用服务功能,如语义检索、资源索引等。

3.1 馆藏数字资源库

馆藏数字资源是图书馆各项服务的基础,资源涉及领域广泛、资源数据类型众多。该资源库主要涵盖各大高校、科研院所建设的数据资源库、特色数据库,专业机构建设的商业数据资源库,以及面向大众的开放公益性数据资源库等。

3.2 数据资源描述层

数据资源描述层的主要作用是对数字资源库离散数据、非结构化数据进行数据挖掘和特征提取,辨识出不同数据的本质特征。该层的主要功能是利用关联数据技术,建立离散数据、非结构化数据本体描述模型,实现对馆藏数字资源的语义化描述,在提取数据特征的基础上形成各数字资源的知识单元,利用该本体模型梳理和定义各个知识单元间的语义关系,最终将数据转化为RDF格式的元数据。

3.3 数字资源关联组织层

数字资源关联组织层是利用关联数据技术将RDF元数据进行语义关联,组织成一个统一的整体。该层分为两个部分:一是知识单元描述部分,即资源描述层形成的RDF元数据的特征概述,建立简单的关联关系。二是序化处理及语义化组织部分,即进行数据序化处理,形成语义关联。数字资源经过数据资源描述层的处理后,形成了语义元数据,知识单元描述是对RDF格式元数据的进一步概述,主要包括关联内容、关联特点、关联度高低等,方便后续开展数字资源语义化组织。语义化组织是数字资源经过知识单元描述后的序化处理过程,数字资源经过语义化组织后,资源属性特征、关联关系特征、资源间序化特征等将作为其主要的辨识特征,方便数字资源间的关联检索和调用。

3.4 应用服务层

应用服务层是一个数据互动传输、数据可视化的服务层,利用HTTP协议为用户提供所需服务。该层在获取用户的检索需求后,将其转化为图书馆系统可以识别的指令。当该指令被传输至数据资源关联组织层后,该层根据指令内容要求,在数字资源属性特征、关联关系特征、资源间序化特征中进行检索,同时将符合指令要求的资源信息反馈至数据资源描述层,并从馆藏数字资源库读取相应资源内容。待符合需求指令的数字资源内容以RDF链接形式被反馈至应用服务层后,该层自动将其转化为用户可视的文本信息,方便用户浏览、保存、收藏等。

4 基于关联数据的图书馆馆藏数字资源语义化组织案例分析

4.1 元数据构建

BIBFRAME标准的核心为“Work(作品)—Instance(实例)—Item(单件)”,其中作品是实体的抽象定义,实体是作品的表现形式,单件决定了实例的获取方式。因此,本研究参照BIBFRAME标准构建了地方志的元数据模型,同时结合地方志的相关特征对元数据进行了拓展,见表1。

4.2 知识本体模型设计

本体作为知识的一种抽象模型,本研究在设计地方志知识本体模型时首先对地方志知识进行了抽取,包含人物、时间、地点、年代等;其次借鉴已有相关研究成果,利用本体对地方志知识进行描述,揭示知识间的关系,结合地方志相关规则,在概念、个性和属性之间建立语义关系,为后续地方志数据关联、语义化组织提供数据支撑。

4.3 关联数据与语义化组织

关联数据技术可以发现地方志的潜在知识,并将其与其他知识集进行关联,形成可被处理的结构化数据,从而实现地方志的语义化组织。地方志语义化组织流程包含数据清洗、形成RDF数据、语义关联、数据存储、数据发布等。首先基于上述地方志知识本体模型对原始地方志数据集进行清洗处理,提取相关实体并赋予统一标识符;其次利用知识本体相关属性定义实体间的关系,在对象间建立关联数据网络,实现数据的序化处理;再次进行数据存储与发布,方便地方志资源间的关联检索和调用。

4.4 知识服务平台应用

本研究利用关联技术实现了地方志的语义化组织,并利用开发工具设计了地方志知识服务平台,为用户提供地方志检索、知识关联可视化、时空展现等服务。例如,用户点击时空检索,选择不同朝代的地方志,平台会在地图中将结果显示出来,同时提供相关筛选工具,方便用户查找到其所需的地方志或相关联的地方志,提高了用户的检索效率。

5 基于关联数据的图书馆馆藏数字资源语义化组织系统优势

5.1 数据关联性强

利用关联数据技术建立不同数字资源间的数据关联,这种关联不是简单的词汇关联,而是本质特征的关联。基于特征关联的数字资源关联性强,不会因数字资源物理存储位置、调用方式的改变而改变。同时,这种关联关系是可持续的,当数字资源内容有所更新,相应的本质特征信息也会随之更新,新的关联关系也自然形成。

5.2 资源调用精准,运行效率高

用户通过图书馆系统平台检索信息资源时,检索指令由平台服务层传输至数字资源语义化组织层,系统依据检索字段在该层知识单元中检索,找出符合检索要求的知识单元,并通过数据资源关联层有针对性地在馆藏数字资源库中检索用户所需的数字资源。在此过程中,数字资源语义化组织层发挥了对检索指令的解释及相关知识单元的智能匹配作用,进一步提高系统对用户需求的认知和理解程度,提升了资源检索调用的精准性,同时也为用户节省了大量的检索时间,提高了系统的实际运行效率。

参考文献:

[1] 郭建文.城乡一体化背景下新型公共图书馆总分馆服务体系建设分析[J].办公室业务,2018(15):146-152.

[2] 汪德禹.基于关联数据的数字图书馆碎片化知识网络构建研究[J].河南图书馆学刊,2020(11):75-81.

[3] 黄妙琼.大数据时代高校图书馆特色馆藏资源的知识发现[J].黑河学刊,2022(1):101-106.

[4] MEO D,URSINO Q.Exploitation of semantic relationships and hierarchical data structures to support a user in his annotation and browsing activities in folksonomies[J].Information Systems,2009(6):511-535.

[5] 姚荔.后疫情时代公共图书馆馆藏资源构建模式变革初探[J].图书馆学刊,2021(12):63-66,77.

[6] 蓝艳林.新时代高校档案馆藏资源建设与开发利用研究:以广西科技师范学院为例[J].兰台内外,2022(3):62-65.

[7] 吴亚芸,戴清杰,刘桂锋.信息生命周期理論视角下的特色馆藏资源实践与探索[J].新世纪图书馆,2021(2):39-43.

(编校:周雪芹)

猜你喜欢
数字资源图书馆
图书馆
时间重叠的图书馆
图书馆
美术教科书使用应把握的几个视角
图书馆员新角色
高校数字资源云服务平台的建设研究
图书馆与出版企业数字资源共享的环境因素分析
去图书馆