知识图谱的应用分析与架构的研究

2021-12-18 12:40王国明卞玉露
电脑知识与技术 2021年31期
关键词:体系架构知识图谱

王国明 卞玉露

摘要:为了解决万维网上的数据日益庞杂、数据间互联效率较低的问题,知识图谱技术成为国内外研究的热点。本文以知识图谱中的几个关键技术为主要研究对象,分析了知识图谱技术在医学、电商等重要领域中的构建过程,并且重点分析了基于知识图谱技术的应用案例,依此设计了知识图谱的通用架构框,该架构对于知识图谱技术未来的研究及其应用具有重要意义。

关键词:知识图谱;知识提取;扩展知识库;体系架构

中图分类号:TP39        文献标识码:A

文章编号:1009-3044(2021)31-0029-03

Research on Application Analysis and Architecture of Knowledge Graph

WANG Guo-ming, BIAN Yu-lu

(School of Computer Science and Engineering, Anhui University of Science and Technology, Huainan 232001, China)

Abstract: In order to solve the problems of increasingly complex data on the World Wide Web and low interconnection efficiency among data, this paper takes several key areas in knowledge graph as the main research objects, analyzes the construction process of knowledge graph technology in important fields such as medicine and e-commerce, and focuses on the application cases of knowledge graph in Suning, and designs the framework block diagram of knowledge graph according to this, which is of great significance for discussing the future research direction and practical theoretical application of knowledge graph.

Key words: Knowledge Graph; Extraction of knowledge; Expansion of knowledge; Architecture of the system

隨着web技术的不断演变与大数据的不断发展,互联网中知识元数据日益增多、其规模也不断扩大,这就给各类知识间的相互关联带来了极大的挑战。所以,人们急需寻得一个知识互联新方法,使之既能适应发展迅速的信息资源,又能满足用户的认知需求。知识图谱技术就是这一新方法,它特殊的表示和管理知识的方式使其逐渐成为当今智能信息服务领域中的热点技术[1-2]。

1 知识图谱及其关键技术分析

知识图谱技术由Google首次提出,这一概念的提出主要是为用户提供方便学习和使用的搜索引擎,以提升用户对知识的搜索速度和质量,增强用户对知识的理解。知识图谱技术吸收了前人提出的语义网和本体的概念,使知识更有利于用户和计算机间以及计算机之间的相互交流,使网络更趋于智能化。知识图谱技术包括)知识的提取、表示、整合、筛选和扩展知识库等关键技术[3]。

(1)知识提取

该过程是从大量待存储的数据中提取所需知识并存入数据库的过程。提取的内容包括实体、关系、属性等,其中,实体抽取过程对从相关数据源中提取的关系和信息进行表示[4-5],属性抽取常用对开放链接数据的提取和利用模式匹配进行提取的方式[6-7]。在提取过程中,可以选择两种方式包括人工和自动提取,前者指相关人员依据相关规则收集和整理而成的知识库,后者则需使用相关关键技术来完成,如数据挖掘、人工智能、机器学习等。

(2)知识表示

知识的表示过程是对抽取到的知识进行符号化地表示过程。目前表示知识的方法为三元组表示法,即(实体集合,关系集合,对应值),符号表示成G=(E,R,S)。可以将其与数据结构中的图进行类比记忆,如知识图谱中的实体与图结构中的节点相对应,知识图谱中的关系与图结构中的边相对应。

(3)知识整合

对知识的整合过程,即对所有提取到的知识进行加工、融合和建立相关链接的过程。随后对存储到数据库中的知识进行更新操作,删除旧知识同时加入新知识,以提升知识库内部数据的逻辑性。由于知识图谱中知识对象的粒度不同,所以可分为两个过程来完成对知识的整合,实体对齐过程和知识库的融合过程,前者用来判断待处理的实体在整个大数据中是否指向同一个数据元,后者则需要在克服知识库中对象的融合困难问题时加入新的考虑[8]。

(4)扩展知识库

该过程是在已有的知识库基础上进行深入地挖掘以更加丰富数据库。借助该过程推断出可能缺失的事实。通过前期对知识的整合,可得到一系列基本事实的表达或本体雏形,但这些事实并不一定等同于最终所需的知识,故而可以通过构建本体来实现概念间的相互约束。

(5)知识筛选

对整合并筛选好的知识进行质量评估,从中筛选出置信度比较高的数据存入知识库,使用经过筛选后的知识更能提高知识图谱的准确度,为后续的使用提供强有力的事实保障。相较于前几个过程,这一步骤则是确保搭建成的知识图谱有较高效率和精确度的关键一步。

2 知識图谱的应用及案例分析

知识图谱技术可以应用于许多智能信息服务中,目前,基于垂直行业的应用已逐渐成为知识图谱技术和大数据智能的前沿问题。如基于长尾的智能搜索过程、深度问答等,又如阿里巴巴的知识图谱服务平台“藏经阁”,以及我们生活中使用的淘宝、天猫等应用软件均用到了知识图谱。通过构建可迁移的图谱算法,从中提取所需知识输出到指定系统,该过程大大提升了应用系统的智能化服务能力[9]。以下就针对医学领域知识图谱的应用和测试案例进行说明,着重针对基于运维知识图谱的应用案例进行分析,通过总结不同案例中知识图谱的构建过程搭建简单的知识图谱体系架构。

(1)基于垂直行业的应用

知识图谱技术在医学领域的应用相当广泛,就以在今年的新冠肺炎疫情病例活动中知识图谱的构建过程为例[10]。分别从病毒的分类、病毒的基本信息、抗病毒的药物等角度进行考虑和分析,最终整合其中互联的知识,合并这四个子图谱成新冠科研图谱。分别从新闻网、抗疫一线等渠道获取疫情期间的英雄人物信息,包括其主要事迹、成果等,将其合并为新冠百科图谱。对于所有涉及到疫情、防疫等字眼的知识,在大数据中均支持正向、反向,以及相互索引,包括每个事件本身包含的发展变化和脉络走向。下图1中就直观展现出了该知识图谱包含的部分属性。

对于新冠健康图谱,具体的构建过程是先对各个省、市建立病例实体,毫无疑问,这些实体间必存在相对应的联系,如染病时间、直接和间接的接触情况、染病渠道、病情症状相似度、临床治疗方案等,从这些数据中筛选出置信度较高的数据,人工给出精确的病情诊断和治疗方案,经过整合和部分有效链接后存入知识库中。在OpenKG发布的新冠知识图谱数据中就将有关新冠的知识以三元组形式导入了2019-nCov图谱中,以便后期医护、研究人员对特殊病情的判断能始终保持高准确性,同时为后续人们了解该疫情以及使用其知识提供强有力的事实保障。

(2)基于运维知识图谱技术的应用案例分析

相较于大部分知识图谱而言,运维知识图谱具有天然优势即可以利用网络设备固有的拓扑结构和系统应用中的调用关系快速构成知识图谱中的实体和关系。现就关于基于运维知识图谱构建方面的应用案例进行分析,构建过程图如下图2所示。

在网络设备服务发生异常时,运维监控系统会出现告警信息,这就给网关和网络监控者带来了极大压力。如图2,在构建过程中,通过使用CMDB等离线数据和物理设备网络连接数据获取设备间的连接关系和调用关系,用以构建软硬件合并的知识图谱。通过使用历史告警数据对知识图谱发出告警信息,对这些信息进行分类,使用BP神经网络模型进行学习并对故障根因进行定位,实现故障的预测和自愈[12]。经过训练模型和计算概率,最终构建出告警知识图谱并将其应用于知识图谱中[11]。在面对海量的运维监控数据时,我们需要一个可以辅助分析系统内部指标间关系的工具可视化展示告警的路径和影响范围,该过程如下图3所示。

通过基于运维知识图谱的告警收敛和根因定位(3.0版本)过程,即可将告警收敛到软硬件知识图谱的相关节点上[12]。如上图3告警收敛和根因定位的过程图所示,通过查询Nebula图谱获取到历史告警信息的关系,得出一条完整的可能根因链路,为运维人员提供更好的索引信息,使告警信息的规模不断缩小,逐步降低对网络运维的压力。

3 知识图谱的架构

针对上文对知识图谱技术的构建过程的详细描述和几个重要领域的案例分析,合理构建出知识图谱的架构框图如下图4所示。

如上图所示,知识图谱技术的架构将被划分为五个具体模块,分别对应提取知识、表示知识、整合知识、扩展知识库和筛选知识。构建的具体流程是,先从待提取的数据中抽取出知识图谱的组成要素如实体、关系、属性等,并用形式化、符号化的语言表示出这些知识。对存入数据库中的数据进行整合、消除歧义,完成建立链接和更新的操作,随后对知识库中的内容进行扩展,筛选其中合理有效的知识构建出符合实际应用的知识图谱。图中知识图谱的构建过程需要先从一些结构化的数据中提取到数据,从中完成对知识的筛选过程并将其存入到知识库中,最后构建出顶层的本体,属于自底向上的构建顺序,该方法被大多数知识图谱所采用。

4 总结和展望

本文主要研究了使用知识图谱技术的五个关键技术步骤,通过分析一些基于知识图谱技术的应用和研究案例,着重针对基于知识图谱技术的大规模告警收敛和根因定位实践的案例进行分析,完成了知识图谱技术的架构框图,并针对各个步骤做出了简要的介绍。知识图谱技术是人工智能技术的重要组成部分,在未来,仍将会是人工智能及大数据研究方向的热点问题,并且其算法会被逐渐补充和完善,其理论实践会被进一步证明和使用,更高效率地利用复杂多样的数据源以提高准确率和扩展性,而不仅是只局限于集中在特定数据集上的研究和在学术上的讨论。

参考文献:

[1] 袁凯琦,邓扬,等.医学知识图谱构建与研究进展[J].计算机应用研究,2018,35(7):1929-1936.

[2] 徐增林,盛泳潘,贺丽荣,等.知识图谱技术综述[J].电子科技大学学报,2016,45(4):589-606.

[3] 陆浩,王飞跃,刘德荣,等.基于科研知识图谱的近年国内外自动化学科发展综述[J].自动化学报,2014,40(5):994-1015.

[4] Wang F Y, Lai G, Tang S M. An application specific knowledge engine for researches in intelligent transportation systems[C]//Proceedings of the 7th International Conference on Intelligent Transportation Systems. Washington D.C., USA: IEEE, 2004. 841-846.

[5] Walczak S.Knowledge-based search in competitive domains[J].IEEE Transactions on Knowledge and Data Engineering,2003,15(3):734-743.

[6] 王昊奋,张金康,程小军.中文开放链接医疗数据的构建[J].中国数字医学,2013,8(4):5-8,15.

[7] 于洪,何德牛,王国胤,等.大数据智能决策[J].自动化学报,2020,46(5):878-896.

[8] Dong X,Gabrilovich E,Heitz G,et al.Knowledge vault:a web-scale approach to probabilistic knowledge fusion[C]//Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining.New York New York USA.New York,NY,USA:ACM,2014:601-610.

[9] 朱素媛,馬溪俊,梁昌勇.人工智能技术在搜索引擎中的应用[J].合肥工业大学学报(自然科学版),2003,26(S1):657-661.

[10] 陈晓慧,刘俊楠,徐立,等.COVID-19病例活动知识图谱构建——以郑州市为例[J].武汉大学学报·信息科学版,2020,45(6):816-825.

[11] 国悦婷.运维监控系统告警收敛的算法研究与应用[D].武汉:华中科技大学,2017.

[12] 闫祎颖,何云瑞,陈亮,等.基于CMDB的信息系统故障根因定位技术的研究[J].通信电源技术,2020,37(3):33-35,37.

【通联编辑:梁书】

收稿日期:2021-05-17

基金项目:国家级大学生创新训练项目(202010361092)

作者简介:王国明(1965—),男,安徽阜阳人,硕士研究生导师,研究方向为网络与信息安全,图形图像处理;卞玉露(1998—),女,江苏盐城人,在读硕士研究生,研究方向为人工智能,图形图像处理。

猜你喜欢
体系架构知识图谱
云计算:体系架构与关键技术
基于SDN的OpenFlow管控标准接口协议研究
基于国产软硬件的行业大数据体系架构研究
国内图书馆嵌入式服务研究主题分析
国内外政府信息公开研究的脉络、流派与趋势
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的产业集群创新绩效可视化分析
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展
关于应急移动通信体系架构及组网技术分析
智慧健康物联网体系架构研究