基于本体的石油地质领域知识服务系统研究

2017-12-07 02:03
软件 2017年11期
关键词:词表本体检索

闫 东

(中国航天空气动力技术研究院,北京 100074)

基于本体的石油地质领域知识服务系统研究

闫 东

(中国航天空气动力技术研究院,北京 100074)

信息服务主要使用检索词匹配的方式来返回检索结果,致使无法全面获取与语义知识相关的资源,因而检索结果无法准确地反映知识资源与用户检索需求之间的相似度。经研究,以本体技术和语义检索技术为基础的知识服务系统能够有效弥补传统信息服务系统的不足,改善由于地质资料标准化程度低、语义不一致而造成的检索效率低等现象。本文根据石油地质学科知识特点,提出了基于本体的石油地质领域知识服务框架,将本体技术和语义检索技术应用到石油地质学领域,形成包含资源层、知识层、产品层及服务层的石油地质领域知识服务系统。首先研究领域本体的构建技术方法,从领域资源中抽取知识,建立了结构化的、计算机可读的石油地质领域知识--领域本体;然后研究面向知识服务的信息资源组织方法,整合了石油地质领域多元、异构资源,形成了面向多类应用需求及层次的石油地质知识产品;最后,利用开源搜索引擎工具包Lucene和Jena本体解析工具包,建立了简单的语义检索原型系统,通过基于本体的语义扩展,实现了语义检索试验。试验结果表明,基于本体的石油地质领域知识服务系统能够准确地为用户提供检索结果,提高地质资料知识服务效果。

知识服务;本体;石油地质;语义检索

0 引言

目前的信息服务主要是依靠检索词匹配的方式来实现资源的查询与利用,因而检索词匹配的程度直接决定了资源的利用率和信息服务的效果。依靠检索词匹配方式的检索系统主要存在的问题是,由于忽略了知识资源的语义层面,因而造成了大量语义知识资源的确缺失,无法准确地反映知识资源与用户检索需求之间的相似度[1]。特别是面对海量、异构的地质资料数据,传统的信息服务系统很难满足用户的检索需求。具有语义匹配功能和本体知识技术的知识服务系统成为当前研究热点和难点。

1 地质服务的知识框架

随着信息服务系统的不断发展,地质资料已从传统的借阅服务转变为知识服务,即按照知识结构和语义特征进行资料的组织、共享与服务已经成为必然趋势。本体能够构建出清晰的领域知识框架及脉络,继承已有的知识资源,避免重复工作,使得知识资源的高效快捷的重用及共享成为可能。在本体的基础上将行业内的标准规范、统计数据、学科知识脉络、研究进展和资源索引库等资源进行多元融合,就可以形成较为丰富完善的领域产品,以产品层作为数据支撑,就可以构建出个性化的领域知识服务系统。结合石油领域特点,本文提出了基于本体的石油地质领域知识服务框架,具体如图 1所示。

图1 基于本体的石油地质领域知识服务框架Fig.1 The framework of petroleum geological knowledge service system based on ontology

资源层:石油地质领域的原始资源来自于书籍、研究报告、各类原始数据和统计数据、地质图库、油藏模型以及网页上的资源等各种形式的已有工作成果。

知识层:要实现地质领域的知识服务,首先要建立领域知识架构。地质本体能够提供包括石油地质领域、构造地质领域、古生物领域等各类地质领域知识的结构化描述、定义及属性[2]。

产品层:知识服务需要有丰富多样的产品作为支撑,包括基于本体的学科知识脉络、数据产品、统计数据产品、研究进展报告及资源索引库等。这些知识产品一方面提高用户检索资源的命中率,找到用户真正需要的资源;,另一方面还能够为用户提供可能与检索需求相关的参考概念,以及相应的资源。

服务层:学科知识服务的主要途径是用户主动检索。这种检索可以在机构内网,也可以通过互联网。知识检索的对象可以是结构化的领域本体,可以是基于知识网络索引的一般资源,服务层的目标就是为各种类型用户满足各种不同的需求,最终提供个性化服务。

知识服务的根本目的就是能够直截了当的为用户提供真正需要的知识和资源,省去用户自己归纳总结筛选排除的过程。本文所提出的基于本体的地质领域知识服务框架,能够把松散地存放于各处的原始资料进行加工处理,形成系统的知识结构,将构建成的领域本体进一步开发形成知识产品,最后实现知识服务。

结合石油地质领域的特点,本文构建了石油地质领域本体,并基于开源的全文搜索工具包Lucene等技术实现了石油地质领域知识检索系统试验[3]。

2 构建石油地质领域本体

手工构建本体是一项耗时耗力的巨大工程,自动化构建本体技术尚不成熟[1,4],鉴于已有完善的《地质叙词表》和《石油主题词表》,因而本文提出一种基于叙词表的半自动化本体构建方法,具体方法如图2所示。

图2 叙词表转换为本体的流程Fig.2 The process of converting the thesaurus into an ontology

地质叙词表又称为地质主题词表,包含了地质学科的词汇和词汇之间的各种关系。叙词表的语义关系分为“用、代、分、属、参”,分别用来表示词汇之间的等同、等级、相关等语义关系。叙词表包含较全面和权威的领域概念和重要的语义关系,为本体提供了较好的概念基础。很多研究尝试基于叙词表进行构建本体,研究重点在于叙词表向本体转换的方法。

由叙词表构建本体的方法将叙词表的叙词作为本体中概念的来源,在叙词表概念关系的基础上,修改完善概念的属性、关系,并添加公理和函数。叙词表的相关关系没有更细的划分,包含了本体一般定义中除了层次关系和等同关系外的所有关系。所以要想建立更精确的领域本体,除了叙词的注释,还需要参考其他知识来源,如《石油地质》、《中国石油勘探开发百科全书》等,为本体的类添加需要的关系[4]。

最终通过概念和概念层级的确定、定义概念的属性、对汉语拼音、叙词编号、英文译名、范畴号、注释项的处理及为概念添加实例等工作[5],构建了轻量级的石油地质领域本体,完成的面向知识服务的石油地质领域本体包含18278个概念,概念之间的关系达到16487个,概念的实例4137个。关系分为等同关系、等级关系和相关关系,其中相关关系除包含叙词表中固有的相关关系,还增加了相关领域学科,如信息技术及数学地质。实例涵盖了石油人物、书籍、机构以及重点区域等,具体如图3所示。

3 石油地质语义检索原型系统设计与实现

3.1 系统原型设计与实现

如图4所示,石油地质语义检索原型系统主要由解析模块、索引模块、检索模块、语义标引和本体模块五部分组成[6],其中索引模块中的语义标引、本体模块以及检索模块中本体搜索为本文在Lucene开源包基础上新增的部分,并且对原有的排序模块进行完善优化,形成新的基于权重的排序模块。各个模块的具体功能介绍如下。

(1)解析模块:主要对各种类型的电子文档进行,目前能够解析的文档类型包括 Doc、PDF、Xml和Html,在未来工作中将进一步扩展可解析的文档类型。

(2)索引模块:基于Lucene已有的分词器进行文档预处理,去除停顿词,保留主题词。一方面将高频主题导入形成石油地质领域概念词库,另一方面将高频主题词作为每个文档的标引词汇,形成语义标引文档集。

(3)本体模块:利用Jena实现了本体的解析与推理[7],将本体中的等级、等同和相关关系解析处理,并利用概念扩展算法实现了对检索词的语义扩展[8-9],形成新的检索词列表。

(4)检索模块:将经过本体扩展后的全新检索词列表重新作为输入条件,在本体库和资源库中进行查询,匹配相应数据资源并返回至排序模块。

图3 石油地质领域本体层级关系展示Fig.3 The display of the relationships in petroleum geology domain ontology

图4 基于Lucene的知识检索系统功能框图Fig.4 The framework of the retrieval system based on Lucene

(5)排序模块:根据本体中的概念与概念之间的距离,对匹配到数据资源进行重新排序,并将最终权重计算后的结果作为最终的系统检索结果返回给用户[10]。

当用户输入检索词后,整个原型系统的工作流程如图5所示,Lucene基础层完成对文档的索引和标注,应用层通过Jena本体解析工具和语义扩展算法完成对用户输入查询词的扩展[1,11-13],并返回新的检索列表对应的结果,使用应用排序规则实现资源的综合排序,最终为用户提供准确的信息服务[14,15]。

3.2 检索试验

地质知识检索系统实现了基于石油地质领域本体的语义查询,图6显示了输入“油气田”关键词并检索石油地质本体的查询结果页面[1]。

(1)“油气田”相关概念:油气区、油气藏、油气田勘探、油气田开发等,其属性有“定义”,其实例有中原油田、长庆油田等。

(2)通过扩展“油气田”的相关概念,可检索出标引为“油气藏”、“油气田勘探”、“油气田开发”、“油气田管理”等文档。

(3)还可以对检索结果进行深一步的概念查找,如“油气生成”。

4 总结

本文将知识服务应用到地质学领域,提出了基于本体的石油地质领域知识服务的框架和解决方案,该框架包括资源层、知识层、产品层和服务层,并实现了基于本体的石油地质语义检索原型试验,试验结果有力的验证了本文的论点。

同时,由本文的研究可以看出,在大数据时代,数据和资源的结构化是实现数据管理和利用的必需手段。地质领域信息资源也面临着由异构、非结构化向共享化、知识化的发展。单就石油地质领域,建立覆盖范围更广、粒度更细的本体,还需要更多石油专业人才和信息科学人才的加入。并且,个性化的知识服务也是信息服务发展的必然趋势。个性化知识服务能够为用户提供更有针对性、更便捷的服务,当然同时提高了用户的学习和工作效率,必将开启地质领域知识服务的新篇章。

图5 基于Lucene知识检索系统架构Fig.5 The structure of the retrieval system based on Lucene

图6 检索结果实例Fig.6 The example of the retrieval system

[1] 潘懋, 闫东, 张文静, 等. 基于本体的地质领域知识服务系统研究[C]// 全国数学地质与地学信息学术研讨会.2014.Pan Mao, Yan Dong, Zhang Wenjing, et al. Research on the knowledge service system of geological domain based on ontology [C]// national conference on mathematical geology and geology information, 2014.

[2] 杜睿山, 尚福华, 吴雅娟. 基于本体的石油开发领域知识构建研究[J]. 科学技术与工程, 2010, 10(19): 4656-4662.Du Ruishan, Shang Fuhua, Wu Yajuan. The research on the knowledge of petroleum development based on ontology[J].Science and technology and engineering, 2010, 10(19):4656-4662.

[3] 邓小亚. 石油领域本体库的构建研究[J]. 电子设计工程,2011, 19(20): 1-4.Deng xiaoya. Research on the construction of oil domain ontology library [J]. Electronic design engineering, 2011,19(20): 1-4.

[4] 陈曦, 闫东, 潘懋, 等. 基于领域知识库的地勘单位分类算法[J]. 科学技术与工程, 2017, 17(13): 192-196.Chen xi, yan dong, pan tem, et al. Classification algorithm of geological exploration unit based on domain knowledge base[J]. Science and technology and engineering, 2017, 17(13):192-196.

[5] Knight, Colin, Gasevic, Dragan, and G. Richards. "An Ontology-Based Framework for Bridging Learning Design and Learning Content. " Journal of Educational Technology &Society 9. 1(2006): 23-37.

[6] Tudorache, T, et al. "WebProtégé: A Collaborative Ontology Editor and Knowledge Acquisition Tool for the Web."Semantic Web 4. 1(2013): 89.

[7] 吴红, 李玉平, 胡泽文. 基于领域本体的专利信息检索系统研究与实现[J]. 现代图书情报技术, 2010(6): 71-77.Wu Gong, li Yuping, Hu Zewen. Research and implementation of patent information retrieval system based on domain ontology[J]. Journal of modern information technology, 2010(6): 71-77.

[8] 闫东, 潘懋, 陈小红, 等. 基于扩展主题词表的页岩气领域本体构建研究[J]. 科学技术与工程, 2015, 15(17): 184-192.Yan Dong, Pan Mao, Chen Xiaohong, et al. Study on approach of building shale gas domain ontology based on extended thesaurus[J]. Science technology and engineering,2015, 15(17): 184-192.

[9] 王瑞军. 基于元数据模型的电子政务检索系统的设计与实现[J]. 软件, 2014, 35(3): 33-34.Wang ruijun. Design and implementation of e-government retrieval system based on meta-data model [J]. Software,2014, 35(3): 33-34冯汝伟, 谢强, and丁秋林. "基于文本聚类与分布式Lucene的知识检索. " 计算机应用 33. 1(2013):186-188.

[10] 潘志文, 邓丹君. 基于Lucene 的web 信息检索系统的设计与实现[J]. 软件, 2014, 35(5): 37-39.Pan zhiwen, deng danjun. Design and implementation of web information retrieval system based on Lucene [J]. Software,2014, 35(5): 37-39.

[11] 李向伟, 康毓秀. 基于内容的视频检索与挖掘关键技术研究[J]. 软件, 2014, 35(8): 26-31.Li xiangwei, kang yuxiu. Research on key technology of video search and mining based on content [J]. Software, 2014,35(8): 26-31.

[12] 浦慧忠. 基于Web 挖掘的用户兴趣建模方法的研究[J].软件, 2014, 35(7): 126-1280.Pu huizhong. Research on modeling methods of user interest based on Web mining [J]. Software, 2014, 35(7): 126-128.

[13] 周树理, 严建文, 包红林, 等. 石油勘探开发领域本体构建及应用[J]. 计算机系统应用, 2015, 24(5): 172-176.Zhou shuli, yan jianwen, bao honglin, et al. Ontology construction and application of petroleum exploration and development [J]. Computer system application, 2015, 24(5):172-176.

[14] 宋闻达. 基于深度检测的用户行为分析以及Web推送的设计与实现[J]. 软件, 2014, 35(12): 98-102.Song wenda. User behavior analysis based on in-depth detection and design and implementation of Web push [J].Software, 2014, 35(12): 98-102.

[15] 鲜国建. 农业科学叙词表向农业本体转化系统的研究与实现[D]. 中国农业科学院, 2008.Xian Jianguo. The research and realization of ontology transformation system based on agricultural science thesaurus[D], Chinese Academy of Agricultural Sciences, 2008.

Research on Petroleum Geological Knowledge Service System Based on Ontology

YAN Dong
(China Academy of Aerospace Aerodymanics, Beijing, 100074)

In consequence of distributed storage and non-unified processing techniques of the abundant geological data in China, it is difficult to retrieval geological information. Organizing geological resources by knowledge will provide help for geological information management and services. As the development of Artificial Intelligence, the study of Knowledge Services based on Semantic Web technology ontology and semantic search has become a hot topic in information services. In this paper, the knowledge service has been applied to geology. According to the characteristics of geological knowledge, this paper presented the geological knowledge service framework based on ontology. In order to realize the geological knowledge service based on ontology, three key problems need to be resolved: how to build structured and computer-understandable geological knowledge, which is the geological domain ontology; the integration of multiple, heterogeneous geological resources to generate multi-application and multilevel geological knowledge products; the retrieval of geological knowledge. This paper studied the construction method and technology of the geological domain ontology, studied on the model of the petroleum geology knowledge, and edited the petroleum geology ontology using Protégé. On the basis of the geological resources index with ontology, studied the semantic retrieval model based on petroleum geology ontology, and realized the knowledge retrieval system in petroleum geology field based on Lucene.

Knowledge service; Ontology; Petroleum geology; Semantic retrieval

B016

A

10.3969/j.issn.1003-6970.2017.11.020

本文著录格式:闫东. 基于本体的石油地质领域知识服务系统研究[J]. 软件,2017,38(11):101-106

闫东(1990-),女,中国航天空气动力技术研究院,助理工程师,硕士研究生,研究方向:地址信息系统。

猜你喜欢
词表本体检索
Abstracts and Key Words
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奥会项目名称汉英对照词表
对姜夔自度曲音乐本体的现代解读
2019年第4-6期便捷检索目录
叙词表与其他词表的互操作标准
专利检索中“语义”的表现
《我应该感到自豪才对》的本体性教学内容及启示
国外叙词表的应用与发展趋势探讨*
常用联绵词表
国际标准检索