关联数据与本体在图书馆资源服务模式中的应用研究

2016-02-05 07:29南昌大学管理学院
图书馆理论与实践 2016年12期
关键词:本体关联语义

(南昌大学管理学院)

关联数据与本体在图书馆资源服务模式中的应用研究

杨选辉,龙帆(南昌大学管理学院)

关联数据作为实现语义Web的一种方式,近年来受到各大图书馆的重视。关联数据通过RDF描述资源,URI标识资源,最终使用Http协议获取资源,实现了网络中数据资源的连接。资源服务作为图书馆的重要服务之一,关联数据与本体提供了将图书馆的资源与外部资源进行连接的途径以提高图书馆的资源服务质量。文章对关联数据在图书馆资源服务方面的作用、优势进行深入研究,并探讨了关联数据在图书馆资源服务应用中可能存在的问题。

关联数据;本体;图书馆;资源服务

图书馆拥有专业和系统的数据储存方式,数据储存数量和质量也具备相当优势,在专业大数据存放和服务机构背景下,图书馆具备应用关联数据的条件,无疑是关联数据的重要据点。图书馆中存在大量重复信息,若将这些信息充分挖掘并加以利用,利用关联数据简洁、去中心化、标准化等特点对图书馆资源进行语义化描述,图书馆将成为网络中的资源转换枢纽,最大化利用图书馆所拥有的信息资源,提升图书馆的资源服务质量。[1]

关联数据(Linked Data)是“互联网之父”Lee于2006年首次提出。其目的在于通过对数据进行标准化描述、标识,构建出机器可理解的结构化数据网络,使原本没有关联的相关数据产生关联,从而实现更高层次的智能检索。其核心是通过统一的描述方式RDF对资源进行描述,并且经过RDF描述的资源机器也能理解资源中所蕴含的信息,利用超文本协议Http获取资源并揭示资源之间的关联,减少了“资源孤岛”现象,将数据资源通过关联网络组织起来。关联数据的应用架构如图1所示。

图1 关联数据的应用架构

1 应用关联数据的优势及意义

1.1 图书馆资源现存的缺陷

随着互联网信息技术的发展,越来越多的资源以数字化的形式发布和传播,传统图书馆的信息管理和信息组织模式均难以满足人们对信息资源日益增长的需要,单一图书馆的资源储备已远远不及互联网中的资源量,网络中电子资源的剧增也对读者的使用造成不便。[2]不同的资源又因其内容、格式、结构的不同造成资源之间缺乏甚至没有关联而导致出现大量的“资源孤岛”,使资源难以精准检索,图书馆自身内部资源存在的异构性也使资源变得难以共享和利用,造成了信息资源的浪费。其根本原因在于资源之间缺乏有效的统一描述规范,在信息成倍增长的今天,图书馆迫切需要解决如何将散布的资源发掘并组织起来以满足用户对资源的需求。

1.2 关联数据的优势所在

(1)强大的描述能力。关联数据是通过资源描述框架RDF来描述资源的,RDF具备的描述复杂关系的能力使关联数据可以通过统一标准描述语义关系。经过语义描述的资源由于机器可读、高度结构化,使“资源孤岛”之间产生语义关联,将碎片化的资源连接成整个资源网络供用户使用。

(2)成本低。关联数据应用现有成熟的Web技术,实现关联数据的发布只需在现有系统基础上建立一个符合关联数据发布原则的机制即可,并不需要实质性突破的技术难题。[3]

(3)提高资源互通、发现能力。关联数据对URI的充分运用使得其能描述互联网中的任何资源,这些资源可以是图片、文档、声音等,统一的资源标准化描述能显著降低资源的异构性,使用关联数据将显著提高图书馆信息资源的传播、分享以及发布能力。通过关联数据描述发布的资源能在不同数据集之间互通,用户在进行相应的语义搜索时,能发现其所搜索的内容与哪些信息相关,确保信息搜索结果的完整性和准确性,并且还有很大的可拓展空间供用户进一步查找。

1.3 将关联数据应用在图书馆资源中的意义

(1)促进图书馆信息资源的扩展,提高资源发现服务的效率。如今,信息技术的广泛应用,数据量的剧增使图书馆原本的服务模式力不从心。因此,数字图书馆也应对传统的服务模式进行相应的改进以适应时代发展。关联数据的应用对图书馆数字资源的扩展有积极的促进作用,从而使数字图书馆资源发现服务的效率与资源发现准确度得到提高。

(2)最大化利用图书馆现存数据资源。图书馆拥有海量的数据信息资源,是信息资源的提供者,在图书馆服务工作中,与用户之间必须有沟通,了解用户群体的实际需求以更好地开展服务工作。将数字图书馆所拥有的数据资源进行数据关联,使各类不相关的资源产生联系,充分利用图书馆的数据资源。关联数据能够将海量数据资源中蕴含的信息挖掘出来,让用户获取图书馆外部的相关信息资源。

综上所述,关联数据的优越性正好弥补了图书馆信息资源现有格局的不足,将不同类型的信息资源整合成完整的资源网络,方便用户查找和获取,大大推进了图书馆的数字化发展。关联数据是图书馆信息资源发布和整合的关键技术,结合图书馆传统的编目、规范控制等基础技术,图书馆可以利用关联数据技术提高自身信息资源的服务水平。国外如美国国会图书馆发布的LCSH主题词表、瑞典国家图书馆的LIBIRS目录、德国国家经济图书馆等都是关联数据在图书馆机构中应用的成功案例。[4]

2 基于关联数据的图书馆资源服务模式实现

基于关联数据的图书馆资源发现框架见图2。整个框架包含资源库、资源本体、RDF文件存储、图书馆新资源发布以及用户Http协议获取等重要环节。

图2 资源服务框架

2.1 资源库

图书馆内的资源应通过RDF描述,并以RDF文件形式存储。资源的描述以资源名、属性、值的三元组形式发布,并且每个资源都通过Http URI作为唯一标识,方便用户通过Http协议进行获取。

2.2 资源本体建立

资源本体是根据图书馆内部所有资源的领域概念建立的集合。资源本体中的概念正是用于描述资源的关键词集合。关键词可以通过借助现有本体获取,同时应将资源的名称进行元数据化,提取出资源名称的关键字,组成本体概念。通过上述两个途径生成资源本体,并可加入本体推理功能提高本体的性能。本体构建出原型后,应在后续使用过程中对资源关键词库不断丰富,提高本体关键词对资源的覆盖度。

由于图书馆日常服务的需要,图书馆经常需要在不同数据源中的数据资源对数据进行交换工作,图书馆之间不同的资源本体应在数字资源之间建立与其他领域相互关联的纽带,避免本体的异构性导致图书馆自身的资源本体无法与其他类型本体进行互操作。通过本体的概念连接使各类型图书馆的关联数据可以复用,并使各图书馆在这种关联中形成一个不断融合的整体,图书馆在关联中自身受益的同时,也使图书馆的资源服务水平得到提升。

2.3 图书馆关联数据的发布与发现

图书馆可以将具有特色的馆藏资源以关联数据的形式发布至互联网上进行共享,也可以将外部的关联数据资源用于丰富自身,为用户提供全面的资源服务。[5]因此,只要图书馆愿意共享自身的关联数据,各图书馆机构就可以形成无界的数据资源网络。

(1)内部数据发布。图书馆可着手从自身资源的作者、机构、类型、内容以及日期等信息对网络上的其他资源进行关联工作。通过借助信息分析技术,根据资源元数据与资源信息的特点,建立资源之间的潜在关联,并以关联数据的形式发布在网络上。[6]

(2)外部数据发现。图书馆的自身资源相对于网络来说仍然太过渺小,发现外部资源是图书馆提升资源服务的重要途径。因此,图书馆应加强资源之间的交流,通过签订协议等途径共享馆际资源,将图书馆之间形成关联。

2.4 用户Http获取

用户在客户端只需要向服务器端发送Http请求即可获得资源,从技术层面说,Http URI的303 URI与Hash URI策略均可向用户提供回应。在不同的查询条件下结合使用两种策略,可以尽量避免大量的Http请求,降低服务器压力。[6]

3 资源本体的构建

在上述服务模式中,资源本体的构建是一个非常重要的环节。本体(Ontology)技术早于1991年由Neches等人提出,其目的在于使机器能理解Web中的各类信息,实现Web信息自动处理以适应Web资源剧增的大数据环境。然而目前本体的应用领域仍然不够广泛,并且由于网络中各类信息复杂繁多、本体尚无确切的构建方法以及本体构建工作量过大等问题,使本体技术发展进入瓶颈。

在图书馆资源中,资源本体的局限性在于领域性过强导致各类本体之间无法语义互操作,也难以与外界资源进行链接。因此,需要将资源本体中底层的元数据进行抽取并关联化处理,通过语义转换使不同类型的本体元数据成为RDF格式,再整合进关联数据网络。[7]基于此,图书馆中各类资源才可能与外界资源进行语义互操作及检索。

在本文中,笔者对图书馆各类资源进行分类,并参考DC元数据标准,采用Protégé软件建立图书馆资源的元数据本体(见图3)。本体中将图书馆资源划分为数字资源、实体资源以及其他资源,每种类型的资源进行子分类。

图3 图书馆资源元数据本体

资源元数据本体是整个图书馆资源系统中最底层的通用本体,其目的在于实现对资源进行语义互操作与共享。资源元数据本体仅提供各类资源中的共通属性,在特殊资源中存在的某些特殊属性则不包含,特殊资源应有专用的元数据本体,通过在原有的通用资源元数据本体的基础上添加新的概念、约束等条件以生成专用的元数据本体。各类资源通过各类别的底层元数据本体进行语义连接,可以实现资源之间的语义互通、关联。当各类元数据本体整合成为统一的整体,通过语义转换将其以RDF格式存储于数据库中,并可经过RDF链接到其他领域的信息、资源。资源本体与图书馆关联数据的架构见图4。

这不但使图书馆自身资源的整合、查询、维护得到优化,还使整个图书馆成为可以无限拓展的资源信息中心,提高了图书馆的资源服务水平。

4 图书馆应用关联数据面临的问题

4.1 资源元数据质量难以控制

作为关联数据的核心,元数据质量的优劣直接影响了关联数据的性能。首先,由于目前图书馆的资源并没有整合形成一个完整的资源网络,使得来源不同的元数据信息也存在标准不统一的情况,各个学术期刊发布的平台也是独立的个体。因此,文献的收录很有可能重复,造成数据冗余。来源不同的元数据在字段上存在的差异也影响了元数据的质量,降低资源发现的可靠性以及效率。图书馆中巨大的数据量使元数据的来源难以考证,元数据的来源直接决定了元数据是否有价值。其次,不同的元数据提供商提供的元数据著录并不一致,存在格式、内容异构的问题,使得元数据的结构混杂,难以统一编排。再者,由于中文语言的特性,引进的国外元数据系统大都是基于英文的,对中文的元数据效果不佳。上述问题将对关联数据的质量造成影响,因此,需要通过现有信息技术提升资源元数据的质量,优质的资源元数据将使关联数据的效率得到质的飞跃。

图4 资源本体与图书馆关联数据架构

4.2 资源数据的共享与隐私

关联数据在图书馆资源服务中,丰富了图书馆的馆藏资源,给用户获取多样化的相关资源提供便利的同时,也给图书馆带来数据隐私侵权风险。[8]什么样的数据可以被关联、共享和修改是图书馆资源关联数据化过程中需要认真考虑的问题。目前,网络上关于隐私泄密的事件层出不穷,应当引起足够重视。图书馆应通过技术手段与法律手段积极维护数据隐私与用户隐私。馆际之间共享资源也应征得其他图书馆的同意并签订相关协议。只有合法的关联数据才能真正为图书馆的资源服务带来益处,否则会将图书馆推至泄密舆论的风口浪尖。

4.3 关联数据之间的资源整合及链接维护问题

随着图书馆关联的资源越来越多,需要维护的Http URI链接也越来越多,这需要庞大的技术团队定期对资源进行检查、维护。图书馆应保证资源Http URI的有效性,同时定期删除无效、失效的URI链接。

关联数据的应用目的就是将整个互联网中的资源实现关联,这将使图书馆面对庞大、无序的多元化信息资源。就算这类数据已经关联,但用户在进行SPARQL查询时,无序的数据可能对其造成困扰,需要将多元化数据进行有序化整合。

关联数据通过发布统一规范的资源数据,并与网络中的资源实施共通,帮助图书馆存储、利用资源,提高图书馆资源服务质量,方便用户获取所需资源。图书馆的资源数据关联化需求将随着数据资源量的增长而越发强烈,在图书馆资源服务中应用关联数据具有重大的实践意义。

[1]曹月珍,马建玲.关联数据在图书馆的最新发展[J].图书馆学研究,2014(14):6-12.

[2]李爱玲.我国高校图书馆资源发现服务研究述评[J].情报探索,2014(4):96-98.

[3]卢玉红,孙晓凤.关联数据在图书馆服务中的应用方式探讨[J].成都中医药大学学报(教育科学版),2015(3):102-104.

[4]陈德容.基于关联数据的图书馆数据发布及数据服务[J].图书馆工作与研究,2015,1(2): 25-27,43.

[5]陈定权,卢玉红.图书馆在关联数据运动中的角色解析[J].图书馆建设,2014(3):17-21.

[6]黄永文,钱力.面向关联数据的信息检索服务研究综述[J].现代图书情报技术,2012(12): 2-8.

[7]欧石燕,等.本体与关联数据驱动的图书馆信息资源语义整合方法及其测评[J].图书情报工作, 2014,58(2):5-13.

[8]蒋京平,易庆勋.高校图书馆关联数据的实现与挑战[J].农业图书情报学刊,2015,27(10): 76-79.

Research on the Application of Relational Data and Ontology in Library Resources Service Model

Yang Xuan-hui,Long Fan

As a way to realize semantic Web,relational data has been paid more attention by the major libraries in recent years. Through RDF descriptions,URI identification and the HTTP protocol,relational data has realized the connection of the resources on the Internet.Relational data and ontology provides an approach for the library to connect internal and external resources,which can greatly improve the library resources service.This article makes a deep analysis on the effect and advantage of relational data and discusses the problems it might cause.

Relational Data;Ontology;Library;Resource Service

G250.73

B

1005-8214(2016)12-0097-04

杨选辉(1974-),男,南昌大学管理学院信管系副教授,研究方向:信息管理、电子商务;龙帆(1992-),男,南昌大学管理学院图书情报与档案管理专业在读研究生,研究方向:信息管理。

2016-09-13[责任编辑]张雅妮

本文系江西省研究生教育教学改革研究项目“基于知识元的研究生课程内容组织模式的研究”(项目编号:JXYJG-2013-016)的研究成果之一。

猜你喜欢
本体关联语义
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
眼睛是“本体”
语言与语义
“一带一路”递进,关联民生更紧
奇趣搭配
基于本体的机械产品工艺知识表示
智趣
批评话语分析中态度意向的邻近化语义构建
“社会”一词的语义流动与新陈代谢
“吃+NP”的语义生成机制研究