化工领域本体的构建与应用

2017-10-19 09:32张安超韩娜
出版科学 2017年5期
关键词:知识服务数字出版知识库

张安超 韩娜

[摘 要] 阐述化学工业出版社基于化工领域词表和出版资源构建化工领域本体的方案,以及基于化工领域本体为用户提供的语义检索、知识地图、知识关联与推荐等应用服务。实践表明,领域本体可创新数字内容产品形式,提升产品服务功能,实现专业出版机构由信息服务向知识服务的升级。

[关键词] 领域本体 知识组织系统 知识服务 知识库 数字出版

[中图分类号] G237 [文献标识码] A [文章编号] 1009-5853 (2017) 05-0088-04

Construction and Application of Chemical Domain Ontology

Zhang Anchao Han Na

(Chemical Industry Press, Beijing, 100011)

[Abstract] Base on professional domain-specific thesaurus and publishing resource, this paper mainly expounds the construction scheme of chemical ontology in Chemical Industry Press, and further expatiats the services provided on account of Chemical ontology, including semantic retrieve, knowledge map, knowledge connection and knowledge recommendation and so on. With domain ontology, it is feasible to innovate the forms of digital content products, to improve the capability of product service, and finally to upgrade information service to knowledge service.

[Key words] Domain ontology Knowledge organization system Knowledge service Knowledge base Digital publishing

網络与信息技术的进步提高了信息生产、传播的效率,但在丰富信息供给的同时也使用户获取有价值信息的难度增加,产生信息过剩与知识匮乏的矛盾。在这样的背景下,专业出版机构纷纷采取措施,面向垂直细分领域,积极探索由信息服务向知识服务转型升级。化学工业出版社面向化工领域,以化工领域本体为基础构建化工专业知识库[1],为用户提供知识服务。

1 知识组织系统与本体

知识组织系统(Knowledge Organization Systems,KOS)是各种对人类知识结构进行表达和有组织阐述的语义工具的统称,包括分类法、叙词表、本体等 [2]。知识组织系统是开展知识服务的基础。

在海量、异构资源环境下,分类法及叙词表已经不能完全满足知识组织尤其是语义分析和挖掘的需要。但是,已有分类法和叙词表中所包含的语义特征和信息仍然是其他知识组织系统的重要基础。

本体是共享概念模型的明确的形式化规范说明。它具有明确、形式化、共享、概念化四大特征 [3]。本体一般分为顶层本体、领域本体、任务本体、应用本体4种。领域本体(domain ontology)作为其中的一种,主要用于表示某一特定领域相关词汇或术语及其相互关系,与特定领域直接相关[4]。

本体兼有分类法和主题词表的功能,同时又具有规范化、形式化等特点。它既可以作为领域知识框架构建知识网络,实现对海量、异构资源的组织,本身又可以作为知识对象,可以以此为基础填充知识内容生成知识库。

2 化工领域本体构建

针对化工领域专业知识服务的需要,化学工业出版社需要构建化工领域本体,以实现对化工专业图书、期刊、标准、专利、视频、动画等异构资源的组织与关联,并在此基础上构建化工领域知识库,为用户提供语义检索、知识地图、知识关联与推荐等服务。

2.1 化工领域本体构建方法

目前学术界对于本体构建的研究比较深入,方法主要包括本体论工程法和叙词表法两种。

本体论工程法采用工程化思路,路线清晰,不用局限于特定领域,构建效率较高,在本体迭代方面优势明显。但是,它在领域概念的整理与关系构建方面工作量较大。常用的本体论工程法有七步法[5]。

叙词表具有本身概念精练规范、层次结构清晰、语义关系明确等特点,符合本体结构特征,可以转换为本体[6]。叙词表法根据叙词表转换为本体的方式分为手工转换、半自动/自动转换两种。叙词表法基于专业叙词表,能够有效复用专业叙词表的概念及基本关系,可以减少一部分工作量。但是叙词表法需要专业叙词表作为基础,因此只能限于部分已构建了专业叙词表的领域。另外,由于专业叙词表的“用代属分参族”等语义关系的局限性,叙词表法并不能完整反映专业领域自身的特点,仍然需要进行大量的语义关系重构。

针对上述方法的特点,我们在领域本体构建过程中采用了本体论工程法加叙词表法的混合构建方法:使用本体论工程法中的七步法流程,在领域知识复用过程中充分吸取专业叙词表的概念及其基本关系,同时根据化工专业特点对语义关系进行全面重构。在工具方面,采用定制开发的“化工类语义资源加工系统”。该系统包括词表转换、属性获取、本体学习、本体进化和可视化等功能。描述语言则采用资源描述框架(Resource Description Framework,RDF)。endprint

2.2 化工领域本体构建流程

本体构建流程在充分吸取七步法流程的基础上,结合现有资源扩充为十步法。具体流程如图1所示。

定义需求。化学工业出版社构建化工领域本体,针对的是信息爆炸背景下,化工专业用户精准获取领域知识的需求。具体需求包括:以化工领域本体为基础构建化工领域知识库,提供语义检索、知识地图、知识关联与推荐等服务。

确定领域。本体领域的确定,首先取决于需求,即为化工专业领域服务。其次,构建者还需在目标领域具有一定的知识资源基础。据不完全统计,化学工业出版社自建社以来,出版了化工相关图书近3000种(套),工具书200余种(套)。根据开卷2014年以来的统计数据,化学工业出版社在化工分类市场实体店市场占有率保持在50%以上,稳居市场占有率第一名,具有良好的资源基础。本项目中,本体领域明确为化工知识领域。

划分知识范畴。化工是化学工业、化学工程和化学工艺三者的总称或某一部分的简称。随着科学和国民经济的发展,“化工”的范围也在不断扩大,例如环境问题、生产安全等 [7]。我们提取其中较为成熟、稳定,容易达成共识的部分,将化工领域划分成化工物质、过程与工艺、化工行业、分析检测项目、分析检测方法、化工装备、化工安全、化工环保、化学工程基础9个大类。

确定领域知识模型。领域本体中概念的设计应遵循专业领域中客观对象和对象间的关系法则。我们根据化工领域知识特点和知识结构构建化工领域本体概念模型。首先建立化工物质的层次结构体系,以此建立知识的纵向关联。然后,以其他类(化工装备、过程与工艺等)作为对“化工物质”知识元的属性描述,以此建立化工物质的横向知识关联。

领域知识复用。可复用的领域知识包括本体、叙词表、分类法、工具书、教材等。化工领域的本体除了少量学术研究成果外[8],可直接复用的较少。复用价值较高的文献包括《化工汉语叙词表》《汉语主题词表》《化工百科全书》《化工辞典》及《化工产品大全》等。此类文献有着较为规范的体系结构、权威专业的词汇,适合用于领域本体的构建。

确定核心概念。核心概念的确定包括两部分:一是直接从相关文献中抽取,二是由相关专家提供。无论哪种方式,都需要经过严格审校,以保证概念的准确和唯一。通过这种方式,共确定23000余个核心概念作为化工领域本体。

确定概念属性。不同于《汉语主题词表》中对于每个概念通过统一的概念描述模型进行规范化描述的方式[9],化工领域本体建立了概述属性、专业属性和自然语言属性3种属性类型。概述属性主要包括名称、英文名、释义、代码与约束。其中名称、英文名、代码等由叙词表所含信息自动生成。释义主要来源于化工专业辞典。专业属性包括安全性、制备、分析检测、应用、生产厂家等。自然语言属性则包括同义词、相关词等。

构建语义关系。语义关系是概念和属性之间的关系,其本质是概念模型的实例化。例如化工物质的制备方法属于概念模型,而硫酸的制备方法则属于具体的语义关系实例。概念模型由领域专家负责构建与管理,语义关系则需借助系统进行自动构建和管理。本项目中,构建的语义关系超过1500万个,平均每个概念约有800个语义关系。

领域专家审核。领域专家审核贯穿于整个化工领域本体构建过程中。领域专家审核的内容包括概念、属性、概念属性关系模型以及语义关系。审核工作需要借助专门开发的工具软件。

生成本体。本体是概念、关系、属性所组成的三元组。领域本体是某特定领域中所有三元组的集合。化工领域本体片段如图2所示。

3 化工领域本体应用

本体作为一种高度抽象化、形式化的知识组织系统,已广泛应用于医药、农业、石油、交通等领域,在产品形态上则包括知识库、语义检索、知识管理、知识发现、专家系統、在线教育等。与企业管理界和图书情报界对知识库的定位[10]不同,出版社所建设的专业知识库是知识服务产品的一种形式。化学工业出版社根据化工领域用户的需求,将本体用于构建化工专业知识库,为用户提供知识服务。引入本体以后,化工专业知识库可以在数字图书馆、数据库、资源库等传统信息服务的基础上提供语义检索、知识地图、知识发现等知识服务功能。

3.1 语义检索

基于本体的语义检索体现在语料语义标注与索引、检索词语义预处理、检索结果语义相关性排序3个方面,涵盖了检索的前、中、后3个阶段。语义标注与索引是在传统全文索引的基础上,通过语义标注,将语义信息添加到索引中,能够极大提高查准率与查全率。例如,对于熔点、沸点等词汇,会根据本体的结构,将其标注为“理化性质”,从而可以通过检索“理化性质”而定位到相关内容,提高查准率。检索词语义预处理,是基于同义词表、相关词表等将用户自由检索词进行语义处理后转换为规范叙词进行检索。例如,本体中的“烧碱”一词,还有“火碱”“苛性钠”等同义词,当用户检索“火碱”或“苛性钠”时,将自动转义为“烧碱”进行检索,从而提高查准率。检索结果语义相关性则根据本体概念模型,对检索结果的语义距离进行计算,根据语义距离的远近进行排序,提高检索结果排序的合理性。

3.2 知识地图

知识地图是一种可视化的知识导航方式。基于本体的知识地图是以本体语义关系为数据框架,以可视化技术为展现手段而形成的一种立体交叉网状结构。本体的“概念—属性—概念”之间的三元组关系,在知识地图中以“点—线—点”的方式予以呈现,从理论上讲,知识地图的任何一个节点均可以无限延展。知识地图能够较为完整地展示知识点及其相互关系,能够帮助用户了解知识脉络,挖掘隐性知识,扩展知识领域。图3展示了“氧化—反应物—1,2,3三氯丙烷”的知识脉络和相关知识关系。

3.3 知识关联与推荐

本体是一种立体交叉的网络结构。概念、属性都是知识网络的节点,并与其他节点相关联。在“知识—知识”关联的基础上,利用语义标注和索引可以实现 “知识—资源”关联以及“资源—资源”关联,进而实现知识与资源之间的多重关联。基于本体的知识关联包括概念关联及属性关联两种基本形式,概念关联又包括上下位概念间的关联、同位概念间的关联,如硫酸与其他硫化合物的关联;属性关联又包括同属性类型关联、同属性值关联,如拥有相同制造工艺的化工物质之间的关联。知识推荐则是在知识关联关系的基础上,基于一定的用户兴趣、专业相关性等规则,向用户展示特定的知识元、知识单元或资源。知识关联与推荐能够为用户发现知识、挖掘知识提供帮助。endprint

4 结 语

化工领域本体构建的应用实践表明,结合工程法和叙词表法,基于出版资源构建领域本体的方法,能够充分复用出版资源中的领域知识,缩短领域本体构建时间,提高领域本体质量,是一种适合专业出版机构的领域本体构建方法。

从化工领域本体的应用情况来看,本体作为一种高度形式化的知识组织系统,能够应用于数字出版产品,创新数字内容产品形式,提升产品服务功能,实现由信息服务向知识服务的升级。

但是,从本体特点来看,其仅适用于高度形式化、规范化的知识领域,尤其是專业细分领域,对于自由度较高的知识领域的描述则存在很大局限性。本体的自动构建、质量评价及进化仍然有许多待解决的问题。

注 释

[1]张安超.专业知识库建设的探索与实践:以化工知识库为例[J].科技与出版,2016(12):89-91

[2]曾蕾.网络世界与知识组织系统/结构(KOS)[R]. 中国科学院国家科学图书馆总馆,2013:2-4

[3]Studer B,Benjamins V R,Fensel D.Knowledge Engineering:Principles and Methods[J].Data and Knowledge

Engineering,1998,25(1/2) : 161-197

[4]孙丽. 基于本体的数字图书馆知识服务模式研究[D].长春:吉林大学,2013:20-21

[5]岳丽欣,刘文云.国内外领域本体构建方法的比较研究[J].情报理论与实践,2016(8):119-125

[6]高凡,李景.Ontology及其与分类法、主题法的关系[J].图书馆理论与实践,2005(2):44-46

[7]李淑芬,王成扬,张毅民.现代化工导论[M].北京:化学工业出版社,2013:1-4

[8]刘卓燕.化学化工文献本体的构建与实现研究[D].上海:上海交通大学,2008:2-5

[9]曾建勋,常春,吴雯娜,宋培彦.网络环境下新型《汉语主题词表》的构建[J]. 中国图书馆学报,2011(4):43-49

[10]王晓光.专业知识库是专业出版商向服务提供商转型的发力点[EB/OL]. [2016-07-21].http://www.bookdao.com/article/72123

(收稿日期:2017-02-06)endprint

猜你喜欢
知识服务数字出版知识库
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
构建图书馆知识服务理论体系的思考
嵌入心理契约的馆员知识服务能力建设研究
从西方国家保护消费者权益政策看用户信息消费的安全管理
学术期刊数字出版的运行模式与市场结构
浅谈新媒体在美术类图书出版中的应用
做一个全民阅读时代的“悦”读人
国际图书出版市场现状及趋势分析
高速公路信息系统维护知识库的建立和应用
基于Drupal发布学者知识库关联数据的研究