面向语义出版的图书馆馆藏数字资源描述框架研究

2024-03-25 10:22赵萌萌
四川图书馆学报 2024年2期
关键词:本体馆藏关联

收稿日期:2023-04-04

摘  要:

语义出版作为一项新兴技术,对图书馆馆藏数字资源建设产生了重要影响。文章利用面向語义出版的数字资源聚合框架对馆藏数字资源进行描述,从元数据层、本体层、数据关联层和应用层设计了面向语义出版的图书馆馆藏数字资源描述框架模型,并以专利馆藏数字资源为例进行了案例分析,旨在不断提高图书馆的知识服务水平和能力。

关键词:

语义出版;图书馆;馆藏资源;描述框架;数字资源

中图分类号:G205    文献标识码:A    文章编号:1003-7136(2024)02-0037-05

Research on the Digital Resource Description Framework of Library Collections for Semantic Publishing

ZHAO Mengmeng

Abstract:

Semantic publishing,as a new technology,has had an important impact on the construction of digital resources in library collections.This paper uses the digital resource aggregation framework of semantic publishing to describe the digital resources of library collections,designs the digital resource description framework model of library collections for semantic publishing from the metadata layer,ontology layer,data association layer and application layer,and takes digital resources of patent in library collections as an example to carry out case analysis,aiming to continuously improve the knowledge service level and ability of the library.

Keywords:

semantic publishing;library;collection resource;description framework;digital resource

0  引言

馆藏数字资源种类丰富,结构多样,包含图书、期刊、专利、标准等[1],传统出版模式下的馆藏资源已经无法满足用户多样化的知识服务需求,并且对资源的传播效率和传播范围有一定影响。语义出版作为一项新兴技术,对图书馆馆藏数字资源建设产生重要影响。语义出版通过对出版物进行语义描述,实现语义互操作,建立馆藏数字资源间的关联,使得机器能够自动提取主题及知识结构,满足用户个性化的知识需求。语义出版可以大幅度提高馆藏数字资源的利用效率,为用户语义检索提供便利。本文将面向语义出版的图书馆馆藏数字资源定义为经过一定加工的、有序的数字文献资源,包含图书、期刊文献、专利文献、百科全书、标准等,然后设计面向语义出版的图书馆馆藏数字资源描述框架,最后以专利馆藏数字资源为例验证描述框架模型的合理性,旨在不断满足用户多元化的知识服务需求。

1  概述

1.1  相关概念

1.1.1  语义出版

传统的出版方式已不能满足用户的知识需求,并且会降低资源的传播效率,因此,Shotton D教授提出了“语义出版”的概念[2]。语义出版是在语义网环境下以语义技术为基础,结合自然语言处理、本体等技术发展而来的一种新型出版方式[3]。语义出版对论文中的知识单元进行语义层面的标注、关联,进行知识整合,以达到提高知识利用效率的目的。语义出版具有以下特征:①实现数据结构化。科研信息中存在很多异构多模的数据,用户无法及时准确地获取相关信息,语义出版可以对这些异构多模数据进行处理,使之成为结构化的数据。②促进数据整合。多源异构多模的数据可以通过建立元数据标准、设计本体库、进行知识关联等方式实现数据整合、数据聚合,提高用户信息检索效率。③实现内容可视化。语义出版通过语义标签云等技术为用户提供可视化的内容表示方式,为用户阅读和浏览提供便利。④实现数据关联。语义出版的核心技术是语义技术,通过语义技术建立不同知识单元间的联系,揭示论文的知识结构,为用户拓展阅读和发现隐性知识提供便利。⑤满足用户个性化需求。语义出版可以建立用户个性化需求与知识单元间的联系,深入挖掘用户需求,为用户提供更为适合的信息内容[4]

。目前图情领域关于语义出版的应用研究主要集中在资源聚合、论文结构分析等方面,例如许鑫等认为语义出版可以实现学术期刊资源的深度聚合,为用户提供更高效的信息服务[5];曲佳彬等通过揭示论文中的7种论证元素,构建论证结构本体,实现了论文的语义检索[6]。

1.1.2  馆藏数字资源

随着信息技术的发展,图书馆很多资源得以数字化,进而出现了“馆藏数字资源”的概念。馆藏数字资源是指图书馆以数字形式将不同类型、不同学科的资源存储在非纸质的载体中,并通过计算机等终端显示的资源[7]。馆藏数字资源包含目录资源、文摘和全文资源、其他资源[8],具有数量巨大、类型多样、储存空间小、传播速度快、更新及时等特征[9]。目前图情领域关于馆藏数字资源的研究主要集中在系统设计、实践总结等方面,例如赵夕姝基于知识图谱构建了数字资源管理系统[10];张琳总结了国家图书馆数字资源建设现状,并展望了未来图书馆馆藏建设方向[11]。

1.2  研究现状

本文以中国知网为数据源,对面向语义出版的图书馆馆藏数字资源描述框架的相关文献进行检索,检索词为“图书馆”+“资源”+“描述框架”,时间截至2023年2月28日,共检索到67条结果。通过分析检索结果发现,目前国内只有少量研究从知识单元的角度对馆藏资源进行描述,在语义研究方面稍显不足,例如刘静羽等从权益状况和图书馆业务需求角度出发对馆藏数字资源进行描述[12];李玉海等模仿素描绘画技法,结合本体技术构建了文献资源描述再造框架[13];钱鹏等利用资源描述框架RDF设计了科学数据描述框架[14]。因此,本文综合利用元数据、本体技术和数据关联技术设计馆藏数字资源描述框架,以实现出版物间的语义互操作,提高语义检索效率。

2  面向语义出版的图书馆馆藏数字资源核心描述元素及描述流程

2.1  核心描述元素

本文结合相关实践成果,从内容和管理两个角度归纳出描述馆藏数字资源的核心元素:①馆藏内容描述信息,即描述馆藏文献本身的信息,包含题名、作者、作者单位、关键词、出版日期等;②馆藏管理描述信息,即标识馆藏存储相关的信息,包含文件大小、文件类型、首创时间、管理权限等;③相关资源描述信息,即与馆藏相关联的资源信息,包含同一主题的资源、同一学科的资源等。

2.2  描述流程

本文从宏观层面建立面向语义出版的图书馆馆藏资源描述框架,目前DBIU层次模型和资源聚合框架是实现语义出版较为常见的方式[15],DBIU层次模型分为数据层、业务层、交互层和用户层,用户提出需求后,业务层根据用户需求进行数据资源聚合,利用语义描述和语义标注技术,深入挖掘文献间的关联关系,形成知识网络[16];资源聚合框架包含元数据、本体、关联数据等技术,它将多源异构资源转化为统一格式,利用本体技术对数据进行描述,建立数据间的关联关系,实现资源聚合,从而满足数字资源的语义出版要求[17]。本文采用资源聚合框架模型对馆藏数字资源进行描述,具体流程如下:

(1)统一资源格式:将馆藏数字资源表示为计算机可以识别的载体,并统一数字资源格式;

(2)语义化描述数字资源:利用本体技术进行描述,构建资源间概念及其關系,实现资源的知识表示;

(3)数据关联:关联发现不同馆藏资源隐含的关系,建立数据间的联系,对相同实体进行数字资源聚合和关联;

(4)可视化:利用可视化工具(如图表等)直观地展示馆藏数字资源中的知识关联结果,满足数字资源语义出版的需求。

3  面向语义出版的图书馆馆藏数字资源描述框架模型设计

本文根据描述流程设计了面向语义出版的图书馆馆藏数字资源描述框架模型,该模型通过元数据、本体、关联数据等技术,能够实现对图书馆馆藏数字资源的语义化描述,进行语义标注,揭示资源之间显性和隐性关系,由此建立多源异构数字资源之间的语义关联。在此基础上,通过发布关联数据,构建知识网络,使得用户能够更便捷地获取所需知识,促进知识发现,从而实现图书馆馆藏数字资源的语义出版。

如图1所示,该框架模型共包含四部分内容:一是元数据层,该层是基础层,利用元数据标准统一数字资源格式,对数字资源进行定义;二是本体层,该层的核心任务是利用本体技术对数据进行语义化描述以及语义标注,建立概念与概念间的关系,揭示概念间、类间、属性间的显性关系,实现语义互操作;三是数据关联层,该层的任务是挖掘数据间的深层关系以及隐性关系,实现数据关联;四是应用层,该层的任务是实现语义检索和语义出版,为用户语义检索和浏览提供访问通道,满足用户的知识需求。

3.1  元数据层

馆藏数字资源包含不同类型(如图书、期刊文献、专利文献、标准等)、不同来源(数据库、网络资源、公开共享平台等)的资源,元数据层作为数据描述框架的基础层,需要设立统一的元数据标准,对资源进行明确定义,方便后续机器对元数据进行理解和处理。目前通用的元数据标准包括DC、FRBR、CDLS、BIBFRAME等,用户可以根据所需选择合适的元数据标准,并通过馆藏数据资源的关系对元数据进行拓展,为后续本体设计奠定语义基础。

3.2  本体层

在设计元数据标准的基础上,为了实现语义出版,仍需建立某种机制实现语义互操作。因此本体层的核心任务是建立概念间、类间和属性间的关系。目前主要有两种方法:一是本体整合,即对不同概念和不同属性进行整合,采用OWL语言构建集成本体,进行语义转换,使其成为统一的RDF格式;二是本体映射,即通过本体化描述每个元数据标准,转换成RDF格式,建立映射关系,从而实现语义互操作。本体映射的基本思路是本体重用,目前成熟的本体映射工具较多,但还没有一个工具可以实现任意本体的语义互操作[18],每种工具均有使用限定条件,例如基于实例的FCA-Merge、CAIMAN等工具,以及基于规则的SKAT、ONION、D2RQ等工具[19]。

这两种方法各有优劣,本体整合遇到新的元数据标准时,必须拓展原有元数据本体,使其能够容纳所有的元数据标准,灵活性相对较差,但在语义互操作应用方面更为便利。本体映射在遇到新的元数据标准时,灵活性相对较强,仅需新建新描述的元数据本体与其它元数据本体间的映射关系,即可实现不同元数据本体之间的融合,但语义互操作方面不如本体整合。因此,本文综合考虑选择基于DC元数据标准构建馆藏资源元数据本体,该本体无需容纳所有元数据标准元素。而是可以形式化描述每种元数据标准中共有的核心元素,建立概念与概念间的关系,当出现新的元数据标准时可以动态加入共有核心元素。这样既可以保证一定的灵活性,又可以使不同的元数据本体之间具有共有核心元素,从而更容易实现语义互操作。

3.3  数据关联层

元数据本体更多揭示的是不同实体间的显性关系,并且仅限于书目元数据,无法与图书馆中不同知识单元的资源(如规范文件等)或外部信息资源相连,也不能揭示数据间的深层次关系以及隐性关系。因此,数据关联层的核心是将元数据本体进行再组织,建立不同数据源间的隐性关联。

数据关联层分为两部分内容:一是建立数据间的关联关系,二是对关联数据进行发布。关于数据关联方式,在类层面上,可以通过在不同领域本体之间建立链接的方式,实现不同数字资源类层面上的语义关联。在数据层面上,可以将同一类型或相似类型的资源进行关联,从而将数字资源组成统一整体。为了促进知识关联,可以采用URI地址命名每种数字资源,利用RDF链接到相关资源,以语义方式显示关系类型(例如作者关系、主题关系等)。不同数据库间的数据资源关联可通过URI或自动数据链接方式进行链接,需要注意的是,在进行数据链接前需要确定链接对象及其属性。

关于关联数据发布,一般采用D2R、SquirrelRDF等模型进行关联数据发布[20]。以D2R模型为例,该模型适用于将关系数据库数据转换成RDF数据,主要包括D2R Server,D2RQ Engine以及D2RQ Mapping语言[21]。D2RQ Mapping语言的功能是对关系型数据转换成虚拟RDF格式的Mapping规则进行定义。D2RQ Engine的功能是利用可定制的D2RQ Mapping将关系数据库数据格式转化为虚拟RDF格式,并将虚拟RDF格式的数据转化为RDF文件。D2R Server的功能是提供RDF数据的查询接口,以供浏览器调用。

3.4  应用层

应用层主要是实现语义检索、浏览、语义出版等功能。该层除了提供基于词的检索方式外,还可以为用户提供更为友好的问答搜索,用户可以借助机器准确表达需求,从而实现语义检索。此外,利用元数据本体和本体的论证功能之间的映射关系,或者利用术语服务机制中查询术语的扩展和细化,可以进一步增强检索的智能性。

4  案例分析

专利文献作为一种馆藏数字资源,是科技创新的重要成果。因此,本文根据前文设计的描述框架,以专利馆藏数字资源为例,构建面向语义出版的专利资源描述框架,以提高专利资源的利用效率。

4.1  专利本体设计

本文采用七步法設计专利资源本体,具体步骤包括:①明确专利的适用领域和范畴,针对专利类别构建本体;②重用已有本体,针对专利资源特征构建本体;③列举专利领域重要术语;④建立专利资源的层级关系,构建层级结构;⑤明确类的属性,描述专利概念框架;⑥界定属性的不同分面;⑦专利本体验证及可视化。如图2所示,专利本体的子类包含专利详细信息、专利摘要、专利权人和专利信息,同时各个子类下面又包含若干个下级子类。通过专利本体的设计,为后续专利资源描述以及组织奠定基础。

4.2  专利本体关系描述框架

针对专利本体,提取本体间关系,构建语义三元组。如图3所示,专利馆藏资源主要抽取专利权人和专利,并将拥有(Has)作为联结专利权人和专利之间的“关系”。

4.3  专利数据关联

虽然本体构建可以实现专利资源语义之间显性关系的描述,但仍需借助关联数据技术将专利资源与更多的信息资源联系起来,建立隐性关系的联系。

关联数据通过URI的方式描述并存储资源,URI既能唯一标识专利资源,又能定位资源位置,实现专利数据关联。一方面可以通过Web方式获取已有URI标识的专利资源,另一方面可以通过RDF/XML编码的数据文件获取未进行URI标识的专利数字资源。

关联数据发布借助D2RQ平台进行专利映射关联,D2RQ是一种声明式映射语言,自定义了一套关系数据库和描述本体文件之间的规则,可建立专利本体和关系型数据库之间的关系,然后再通过D2R发布关联数据,提供RDF文件查询端口,以便浏览器进行调用。

4.4  专利可视化

通过上述步骤后,可以利用知识图谱等可视化工具将专利资源描述结果展现给用户。知识图谱作为一种可视化的知识表示方式,利用“关系”建立实体间的链接,形成知识网络。通过浏览知识图谱(如图4所示),用户可以获取到具有链接关系的知识,链接的知识包含显性知识关联和隐性知识关联,这有利于用户获取深度知识,从而达到资源语义出版以及实现语义检索的目的。

5  结语

目前图书馆馆藏数字资源描述较少从知识单元的角度进行,缺少语义层面的研究。语义出版作为一项新兴技术,对图书馆馆藏管理和建设产生了重要影响。因此,本文在解析相关概念及研究现状的基础上,从内容和管理两个层面定义馆藏数字资源的核心描述元素,接着利用资源聚合框架设计了面向语义出版的馆藏数字资源描述流程,然后构建了面向语义出版的图书馆馆藏数字资源描述框架模型。该模型共分为四层:元数据层是基础层;本体层建立概念间、类间、属性间的关系,为实现语义互操作奠定基础;数据关联层挖掘不同实体间的深层关系和隐性关系,建立数据间的隐性关联,实现图书馆馆藏资源与馆外资源的数据关联;应用层为用户语义检索和浏览提供路径,实现语义出版。最后,本文以专利馆藏资源为例进行专利资源的描述,通过专利本体设计,搭建专利本体关系描述框架,建立专利数据关联,实现专利数据可视化。未来,图书馆仍需进一步研究语义技术,深入挖掘馆藏数字资源间的隐性联系,不断提高图书馆服务的智能化和人性化,为用户提供更丰富的知识服务。

参考文献:

[1]魏明坤,滕闻轩,冯昌扬.基于语义关联的数字图书馆馆藏资源聚合研究[J].图书馆理论与实践,2022(5):85-89.

[2]SHOTTON D.Semantic publishing: the coming revolution in scientific journal publishing[J].Learned publishing,2009,22(2):85-94.

[3]李梦琳.科学论文功能语义标注框架设计与应用实验[D].武汉:武汉大学,2018.

[4]江燕青.面向语义出版的学术期刊数字资源聚合研究[D].上海:华东师范大学,2016.

[5]许鑫,江燕青,翟姗姗.面向语义出版的学术期刊数字资源聚合研究[J].图书情报工作,2016,60(17):122-129.

[6]曲佳彬,欧石燕.语义出版驱动的科学论文论证结构语义建模研究[J].现代情报,2021,41(12):48-59.

[7]刘学风.基于数据仓库的馆藏数字资源整合研究[D].天津:天津工业大学,2007.

[8]孟庆宇.基于区块链技术的图书馆馆藏数字资源长期安全保存策略研究[J].河南图书馆学刊,2019,39(2):71-73.

[9]支凤稳,郑彦宁,杜薇薇.国外馆藏数字资源语义化研究现状分析[J].现代情报,2018,38(12):126-132.

[10]赵夕姝.基于知识图谱的馆藏数字资源管理系统设计研究[J].图书馆研究与工作,2022(10):75-78,95.

[11]张琳.国家图书馆数字资源建设实践与思考[J].河北科技图苑,2021,34(3):26-31.

[12]刘静羽,黄金霞,王昉,等.数字资源权益状况描述框架研究[J].数字图书馆论坛,2019(9):9-15.

[13]李玉海,田栩冉,王常珏.智慧图书馆的文献资源描述再造框架[J].文献与数据学报,2021,3(4):64-72.

[14]钱鹏,郑建明.基于资源描述框架的图书馆科学数据组织初探[J].情报理论与实践,2012,35(3):100-102,108.

[15]闫莹.科研数字化背景下的图书馆语义出版研究[J].图书馆学刊,2018,40(4):30-34.

[16]王晓光,陈孝禹.语义出版:数字时代科学交流系统新模型[J].出版科学,2012,20(4):81-86.

[17]黄崑,王珊珊,耿骞.国外图像特征研究进展与启示[J].图书情报工作,2015,59(8):138-146.

[18]郑建国.产品分类本体构建、推理及映射研究[D].南京:南京大学,2016.

[19]OTERO-CERDEIRA L,RODRGUEZ-MARTNEZ F J,GMEZ-RODRGUEZ A.Ontology matching: a literature review[J].Expert systems with applications,2015,42(2):949-971.

[20]夏翠娟,劉炜,赵亮,等.关联数据发布技术及其实现:以Drupal为例[J].中国图书馆学报,2012,38(1):49-57.

[21]曹玉平,龚主杰,陈德容,等.关联数据技术及其研究现状[J].图书馆理论与实践,2014(11):42-45.

作者简介:

赵萌萌(1981— ),女,大学本科,馆员,任职于泰安市图书馆。研究方向:图书馆文献资源建设、数字图书馆建设等。

猜你喜欢
本体馆藏关联
Abstracts and Key Words
馆藏
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
对姜夔自度曲音乐本体的现代解读
博物馆的生存之道:馆藏能否变卖?
“一带一路”递进,关联民生更紧
知还印馆藏印选——古印篇
奇趣搭配
智趣
《我应该感到自豪才对》的本体性教学内容及启示