基于关联数据技术的机构知识库构建与服务

2021-01-12 02:54郭卫兵臧莉娟
兵器装备工程学报 2020年12期
关键词:科研机构数据源知识库

郭卫兵,臧莉娟

(1.南京理工大学图书馆/信息化建设与管理处, 南京 210094;2.南京理工大学科学技术协会, 南京 210094; 3.南京大学信息管理学院,南京 210093)

机构知识库(Institutional Repository,简称IR)是开放存取理念下形成的新型学术出版与交流模式[1],主要用来长期保存和展示本机构的数字化学术资源,以实现多个机构间的学术交流与共享。随着信息资源的爆炸式增长和信息化平台的不断应用,国防科研机构在收集并存储着各类信息资源的同时,形成大量“信息孤岛”,一方面信息系统互联陷入瓶颈,另一方面信息资源浪费严重[2-3]。机构知识库在世界范围内的学术研究与实践发展都非常迅速,但我国的研究起步稍晚,其开放获取意识不强、缺乏规范、认知不够,也跟不上信息社会发展的步伐[4]。如何有效的进行知识组织、合理的构建知识库、避免“信息孤岛”和资源浪费、提供给用户高质量信息服务成为了国防科研机构知识库建设亟待解决的一个问题。互联网之父Berners-Lee提出的关联数据(linked of data),是实现数据网络(web of data)的关键技术,给国防科研机构知识库的构建和服务提供了一种新的解决思路。

1 关联数据在国防科研机构知识库中的应用

关联数据的基本原理是强调数据的相互关联、相互联系,采用RDF数据模型,利用URI命名数据实体,来发布和部署实例数据以及其他各类数据到数据网络上,用户可以通过HTTP协议解释这些数据,并以易于人机理解的语境信息来获取[5]。关联数据遵循四项基本原则:1) 使用URI作为Web上资源的唯一标识名称;2) 任何用户都可以使用HTTP URI定位并查找到这一资源;3) 当某一URI被访问时,以RDF标准形式返回有用的信息;4) 尽可能返回指向其他URI的相关链接,以便检索到更多信息[6]。因此,在建设机构知识库时,可以利用关联数据的基本原理和基本原则达到知识组织、机构库构建、资源集成与共享等目的。

1.1 可行性分析

关联数据支持结构化数据的任意关联。基于大数据中客观实体与抽象概念间所蕴藏的丰富关联关系,关联数据通过网络发布的方式实现任意结构化数据的获取,同时依托语义网技术构建数据资源关联网络,实现数据资源语义层面关联关系,建立数据资源发现机制。众所周知,资源发现和数据互联互通对机构知识库建设尤其重要,而关联数据的资源发现机制则为国防科研机构知识库的资源发现和数据互联互通提供了一种可行的方法。

关联数据使用发布和链接具有语义关系的结构化数据的方式使现有的分散异构的Web数据资源实现语义关联,解决了现有Web网络信息的粗粒度与语义性缺失的问题,从而促进传统Web网络向共享数据网络演进[7]。从关联数据的发展来看,越来越多的机构和组织通过遵循关联数据发布原则[8],以开放获取模式发布数据以与其他数据源进行语义关联。就国防科研机构知识库而言,其蕴含着大量具有丰富空间属性的科学概念和学术实体信息,传统的Web构建方式使得它们分散无序而无法作为一个整体发挥其最大价值;第二,国防科研机构知识库资源的服务与利用率较低,也由于某些因素不能在网络公开,无法与网络资源进行关联集成。关联数据的发展目标及其实践证明了关联数据能够有效解决当前国防科研机构知识库所面临的问题。

综上所述,关联数据和机构知识库是相辅相成的,应用关联数据来构建国防科研机构知识库并开展相关信息服务是一个有效选择。

1.2 实现流程

国防科研机构知识库中应用关联数据的实现流程[9]如下:

1) 获取数据网络中的关联数据,将获取到的关联数据进行映射解析、提取、合并等处理,形成RDF数据库。之后机构知识库服务可以通过RDF API或者SPARQL等标准或接口访问该RDF数据库。

2) 将机构知识库中的实体和抽象概念关系发布成关联数据格式,建立自身的语义关联关系,并将数字对象间的语义关联关系扩展至已有的关联词表,使其支持基于SPARQL模式的语义查询和推理扩展。

3) 利用RDF对机构知识库中的数据进行语义标注并扩展到外部数据源。同时返回关于该数据的尽可能多的相关数据资源的统一视图。

1.3 应用框架

关联数据在国防科研机构知识库中的应用框架包含5个部分,分别是关联数据访问器、关联数据整理器、关联数据存储器、关联数据检索器和关联关系构建器[10]。如图1所示[10-11]:

图1 国防科研机构知识库关联数据应用框架示意图

1) 关联数据访问器。从数据网络中获取关联数据,可以通过RDF DUMP下载、SPARQL端点查询两种方式从LOD云图中的数据源中直接获取。

2) 关联数据整理器。分析不同来源的数据,进行数据合并、提取、清洗、模式映射、解析等操作,将数据转换到统一的容器中,形成增值的数据结果。

3) 关联数据存储器。主要将整合后的关联数据以RDF格式保存为RDF数据,并对其进行管理,有临时性缓存整合后的结果和采用一个永久性的存储设备保存两种方式。

4) 关联数据检索器。主要提供如SPARQL端点查询、RDF API等基于RDF数据的标准访问和调用接口,以便将整合和集成后的关联数据融合到国防科研机构知识库应用的服务中。

5) 关联关系构建器。主要建立国防科研机构知识库自身数据之间,以及与其他数据源之间的关联关系。通过关联关系为机构知识库数据增值。

2 基于关联数据的机构知识库构建

2.1 基本框架

传统的机构知识库不具备资源互操作性,其内部数据之间、内部数据与外部数据之间缺乏一定的关联,给用户对机构知识库的利用尤其是异构库之间的资源集成与共享带来一定的不便。关联数据能够将机构知识库中的信息资源转化成语义数据并通过URI标识,利用RDF关联,通过HTTP协议揭示并获取,最终实现机构知识库信息资源的集成与共享[12]。依据关联数据的基本原理和传统机构知识库的构建模式,并遵循上文所叙述的关联数据在国防科研机构知识库中的应用框架,笔者概括并总结出基于关联数据的国防科研机构知识库构建,如图2。

图2 基于关联数据的国防科研机构知识库构建框图

图3的构建框架按照数据源从采集、处理到应用的过程可以分为数据来源层、数据描述层、数据关联层和数据应用层等4个层次。数据来源层即各机构知识库的结构化数据及文本型数据;数据描述层即针对各机构知识库的信息资源用RDF来描述、按照“关联数据四项基本原则”发布到网络或内网上;数据关联层即通过不同来源的资源内部可能存在特定的关联关系将其建立链接,形成一个数据的网络;数据应用层主要是建立关联数据基础上的Web应用,包括数据浏览、统一检索、Web接口等。

传统的机构知识库构建模式有自主模式和联盟模式[13]两种,自主模式是指独立机构以下属部门为基本单位构建属于该机构的机构知识库,该构建模式构建单位颗粒度小,不便多机构间的数据共享。联盟模式指多个机构合作构建机构知识库,通过分布采集数据提供统一的检索入口或界面,或通过集中存储数据来实现多机构间的资源共享,但该模式构建主体不明确,不利于机构品牌的建立。基于关联数据的机构知识库构建模式将上述两种构建模式有效集合起来,既保证了本机构的品牌建设,又能够很好的实现多个机构之间的资源共享。

2.2 关键技术

通过上述分析,关联数据在国防科研机构知识库构建方面的关键技术总结如下:

1) 利用关联数据技术将机构知识库中的数据发布成语义层面的关联数据格式。由于传统机构知识库无法对信息资源进行有效的语义描述,信息资源当中的实体与抽象概念也无法被外部资源开放获取[14],因此要实现机构知识库的开放关联,就要将其数据以关联数据形式予以发布。关联数据的发布涉及到数据URI命名、词汇集创建、数据RDF描述、发布模式、发布工具等问题。

2) 利用关联数据技术对机构知识库进行语义标注。要实现机构知识库中关联数据的关联访问,就需要对机构知识库中的数据进行语义标注,具体操作就是依据机构知识库中实体和抽象概念间的各类关联关系,利用RDF在机构知识库内部和外部创建各种类型的RDF语义链接,从而利用RDF链接机制扩展到外部数据源,进而实现数据网络中各机构知识库数据的相互关联。

3) 主要涉及到的语义网三大核心技术:RDF、OWL和SAPRQL。RDF (Resource Description Framework)资源描述框架是描述网络资源的 W3C 标准,本质上是一种数据模型,它专门用于表达关于Web资源的元数据,比如网页的标题、作者、创建日期、详细内容等,Web上不同的被RDF描述的资源便可以建立起特定的语义关联[15]。OWL(Ontology Language)是W3C开发的一种网络本体语言,用于对本体进行语义描述,其目的是为了更好地开发语义网[17],它强化了数据网络中机构知识库数据之间的语义关联性,更方便基于关联数据的语义关联。SPARQL(Simple Protocol and RDF Query Language)是为RDF开发的一种查询语言和数据获取协议[16],用于查询任何以RDF表示的信息资源,其目标就是可以像SQL检索关系数据库一样检索语义Web,现在SPARQL语言可以对不同类型的RDF资源进行集成检索。

2.3 系统设计

本文中系统设计的主要目标是对国防科研机构知识库进行语义扩展以期实现异构库间的资源集成与共享服务。系统结构如图3所示。

图3 系统结构图

1) 实体关系的抽取和添加约束

国防科研机构知识库内的数据来源于机构内的各个部门,每个部门又可以分为多个子部门和专题,就其内容类型来说,又包括了专著、期刊论文、会议论文、学位论文、专利、演示报告、工作文档等多种数据集,这些数据与作者、学科主题等核心实体有着直接联系。如部门及其子部门的上下级关系、作者与部门的从属关系、作者与学科主题的归属关系、作者间的合作关系等,可为这些实体及关系添加约束。在底层数据库设计时,可将该隐形约束转化为外键关联条件。

2) 关联数据词汇集的创建

国防科研机构知识库内的数据包括了各类实体和抽象概念,以及它们之间的显性或隐性关联关系。使用RDF+OWL对这些要素予以描述是关联数据构建的一个重要环节,即使用计算机可以理解的语言来描述资源的相关陈述。关联数据构建的四项基本原则之一就是尽可能的复用已有的关联词表或模型,数字图书馆领域常用以对象描述的DC、SKOS、FOAF、ISWC、VCARD等元数据标准均已实现了全面的关联数据化,可用作复用关联词表。机构知识库的关联数据源需根据已有的类和属性来选择,可用的关联数据源有DB Ontology、DBLP Bibliography等。D2R能够建立关联词表和关联数据源之间的词汇映射关系,构建符合机构知识库的语义映射模式,形成词表映射和语义扩展方案。在程序中完成对实体数据的RDF语义标注和关联后,关联数据词汇集创建完成,此时该数据集可关联至外部数据源。从其他学者的经验来看,机构知识库各实体和抽象概念等数据对象应使用以“http://”+“本机构知识库的域名”开头的URI进行命名,这样可以保证该URI标识能够被任何遵循HTTP协议的应用程序所解析。

3) 关联数据集的发布

国防科研机构知识库需根据数据特点与机构知识库应用需求的特点,进行抽取实体、映射RDF等操作,实现机构知识库中各实体与抽象概念的语义描述与之间的关联,这样国防科研机构知识库的信息资源就成为具有语义揭示功能的网络化数据集。在此基础上,选择合理的静态RDF文件,利用关联数据存储器,在线生成RDF数据的关联数据发布模式,再利用描述RDF数据集的VOID词表、D2R Server等关联数据发布工具,将RDF关联数据集发布到LOD云或内部共享网络中,这是实现国防科研机构知识库数据关联发现和开放共享的关键一步。

4) 构建共享数据网络

构建关联数据网络首先必须选择已经在LOD网络中发布的合适的机构知识库开放关联数据集并与其构建链接关系,从而保证国防科研机构知识库本身数据能够与其他机构知识库已发布的关联数据实现关联与共享。根据国防科研机构知识库中各实体和抽象概念数据及其之间的各种关联关系,利用RDF三元组构建和维护不同机构知识库数据集之间的RDF链接,进而利用这样的RDF语义链接创建多源异构机构知识库的复杂数据网络以实现各机构知识库数据的开放共享、语义关联和重用。RDF构建就是机构知识库数据集内部与外部创建各种类型的语义链接,RDF维护就是对已经构建的RDF链接进行修改和删除操作,保证数据的准确性,构建和维护RDF链接可以是人工或自动来进行。

3 基于关联数据的国防科研机构知识库服务模式

关联数据实现了Web上存储资源、通信资源、软件资源、知识资源等资源的链接和连通[18],其在国防科研机构知识库上的应用为用户提供了新的服务模式。主要表现如下。

1) 资源检索和发现

传统的机构知识库在资源检索方面存在一些不足,如不同形式的作者、不同机构或部门的检全率不高、检索结果无法进行语义扩展等。基于关联数据技术的国防科研机构知识库采用规范文档和词表提供扩展检索服务,如同义词扩展检索、上下位词扩展检索、语义扩展检索等,有效地解决了上述不足。

传统的机构知识库在信息的创建、管理、传递和共享方面也存在明显不足,基于关联数据技术的国防科研机构知识库则提供了资源的发现和导航服务。关联数据丰富了机构知识库现有元数据,并扩展到外部关联数据源,提供了外部相关资源的关联访问,加强了国防科研机构知识库与其他相关资源的链接。

2) 资源集成与共享

传统的机构知识库跨机构合作和共享数据能力弱,基于关联数据技术的机构知识库以LOD中机构知识库关联数据集为基础,利用RDF链接构建了机构知识库共享数据网络,提供了更强的跨机构合作和资源共享能力,也为第三方提供了便利的底层数据存取方式。 即只要某机构知识库创建了关联数据集并发布至LOD中,便可共享LOD中其他机构知识库的关联数据,同时第三方也可方便地存取该关联数据。

3) 知识处理和挖掘

关联数据与生俱来的关联特性使得关联数据自出现起就与知识组织、知识处理等方面有着密不可分的关系。关联数据为机构知识库中的结构化数据进行了语义标注,也使基于关联数据技术的国防科研机构知识库变得适合进行数据挖掘。

4 结论

1) 关联数据的应用有助于解决国防科研机构知识库的“信息孤岛”和资源浪费问题。发布于LOD云中的机构知识库可以与其他资源建立关联,成为数据网络的一份子。

2) 本文依据关联数据的四项基本原则构建了基于关联数据技术的国防科研机构知识库的应用框架和基本框架,能够利用关联数据的资源发现机制,通过机构知识库关联数据词汇集的创建、关联数据集的发布和数据网络的构建等系列操作,实现国防科研机构知识库数据资源的资源集成与开放共享。

3) 期望通过本文的研究对我国国防科研机构知识库的建设和服务提供参考与借鉴。本文所设计的应用框架和系统结构可能还存在需要完善的地方,另外对于服务模式尤其是知识挖掘部分也未进行详细的探讨。这两个方面都将是后续研究的重点。

猜你喜欢
科研机构数据源知识库
汉语近义词辨析知识库构建研究
吉林省加快发展新型科研机构的综合思考
逆行者的武汉
图表中的交互 数据钻取还能这么用
基于Excel的照片查询系统开发与应用
再谈利用邮件合并功能批量生成准考证
数据有增加 图表自适应
我国联合虚拟参考咨询系统知识库现状研究*
——基于与QuestionPoint的对比
位置与方向测试题