基于知识图谱的人物关系设计和实现

2021-01-29 03:06罗润雨安徽理工大学
数码世界 2020年12期
关键词:分词张三搜索引擎

罗润雨 安徽理工大学

互联网时代,手握搜索引擎即可将世界一系列信息一览无余,比如在输入框中输入搜索词,便可以得到相关的搜索结果。2012年,搜索巨头谷歌率先阐释“知识图谱”概念,使得搜索结果产生重大变化。比如在搜索引擎之中输入数学表达式可以获取所需要的网页。还可以在搜索之中输入“张三的爸爸的弟弟的生日”,根据知识图谱获取该人物与张三的关系,从而找出此人的生日时间。若输入“苹果”,由于苹果可以表示水果中的苹果,也可以表示是苹果公司。依据知识图谱影响力与关联性,其呈现出的信息数据同样各有差异。借助搜索引擎的方式,能够基于知识图谱展开进一步延伸,实现功能的丰富与拓张。知识图谱不仅仅是各种信息的堆砌,同时亦蕴藏着实体抽取等先进技术,能够统筹归纳用户需求目标形成一种观点关系展示出来。

1 数据采集层

1.1 结构化数据导入

系统数据在格式方面具备显著复杂性,其来源更是极其分散。结构化数据主要包含了oracle、mysql、txt、excel。非结构化数据则主要以极具普及性的txt以及word为主。由于结构化数据差异,与之关联的适配器亦有差别,因而应当确保数据导入环节分门别类,更具契合度。比如某个数据库某个数据表中有9千万条数据,应用sqlserver格式,数据则是需要囊括头字段名,比如QQ号是2个字段,邮箱号是1个字段,备注信息文本是1个字段。若web进行消息传输时需要用到worker,那么此时workersql获取任务指令,即选择动态读取数据的方式,首先读取100万条数据并且保存为csv文件,其于hbase表形成记录一项,同时于Recod表形成记录一项,在此之后,传输消息至worker,当workerimp完成接受之时,针对抽取方式展开相应识别。其中两大重要元素邮箱以及QQ无需进行抽取,备注则是应当展开分词抽取,根据每个分词结果,对已有类库的规则进行匹配,并且标上标签。随后于orientdb范围之中对于抽取实体进行储存处理。随后展开后续流程,最终即可有效达成sqlserver导入目标。

1.2 静态文本数据监听导入

文本数据一直以来都是系统范畴具有重要影响力的数据源泉,每一条数据格式是json,其中还包括了data、detip、srcip等字段。每个文件有将近有1万条数据,系统会不断的进行文件更新,针对这些数据的来源需要在mongodb数据库之中导入这些数据。导入过程中可能会存在的问题是部分数据写一部份数据被读取,从而导致数据导入不完整。无法监听所有的文件。

1.3 mongodb存储原始数据

在大数据时代,原本根深蒂固关系型数据库难以应对海量的数据搜索、存储,索引,要解决此问题首要任务就是提高可扩展性,实现高效存储。sql层面很难解决此问题,但是nosql可以解决,sql在关系层面有着业务优势,而nosql在数据存储与数据扩展性方面有着巨大的优势。nosql数据库包含混合数据库、图数据库、文档型数据库等。

1.4 实体抽取

当前具备影响力与有效性的分词方案堪称双峰插云,由中科院设计的ICTCLAS分词系统以及哈工大设计的LTP平台,均围绕非结构化文本实体抽取这一重要技术展开,对于结果进行系统分析之后进行抽取分析,是实体抽取技术FLP的有效呈现。FLP其针对LTP特征,以及难以有效践行号码类范畴任务等问题进行针对性补充。主要利用了数字自动机正则引擎,实现对于包括hanLP各项名称进行识别,随后利用基于数字类实体进行的一系列抽取等等展开,应用范围极其广布。ICTCLAS系统则是围绕中文自然语言进行分词,其基础在于词性界定,随后即可完成对于目标名词的识别,进而判定姓名,书名,商品名,企业名等等,并将其归入用户词典范畴,完成识别过程中的词汇无需重复分词。

2 知识图谱应用

数据展示需要依靠底层知识图谱,不同实体建立起一系列关联,将其进行集合即可获取网状结构,可视化含义是把许多的信息、数据以及知识转化成一种人类的可视化,知识图谱的作用在于帮助人们以宏观视角完成对于目标事物的识别与了解,进而提升查询效率以及记忆程度。借助分析数据的方式可以找到数据关联联系,从中找到直接测算数据难以精准得出的其他关联,实现认知水平的有效趋升。现如今可视化研究发展愈发广泛性与先进性,知识图谱作为其中最具关键性的分支未来前景愈发可观。

2.1 基于搜索引擎的关联查询

知识图谱有着广泛的运用,甚至被誉为未来搜索引擎的灵丹妙药。在搜索栏中输入“张三”,可以显示出有关“张三”的基本信息,还包括“张三”的个人经历,朋友关系等信息,以及其他的一些人员信息。这一类信息并非属于张三直接信息,不过借助知识图谱,能够以“张三”为核心进行辐射,找到与其关联的实体,随后完成对于相关数据的归纳构设。倘若外延程度更广,捕捉到的实体信息亦将愈发繁杂,不过科学指出查询应当限制在六层之内,原因在于以外数据不具备过高借鉴价值。

2.2 可视化关联分析图

关键资源的分析图是知识图谱之中一个重要内容。知识图谱的关键点在于把握实体之间的关联差异。应当认识到,关联分析图通常需要基于分组展开,两实体与整体并不属于直接关联状态,其主要依据分组节点的方式完成相应关联。举例而言,小贾与小谭是同学关系,小贾与小陈同样亦是同学关系,此时借助“相关人员”这一节点完成整体串联,小贾关联相关人员,相关人员则是分别延伸至小贾与小谭。

3 知识图谱查询管理

知识图谱的出现,使得语义搜索重绽生机,在语义网络中知识图谱有着巨大的作用。从某种角度而言,知识图谱属于传统搜索引擎的科学升级,搜索引擎通过语义网络实体之间的关系从而优化搜索,从某一个人物出发从而找出人物之间的关系,以此递归下去,随着递归次数增加,重要性也就降低。知识图谱在关联关系查询方面有着很大运用,可以在数据繁杂的数据群体中有效识别数据存在的关联性。在关系网中,和张三有关联关系的人主要是来自于知识图谱,张三有朋友,亲人,老婆,父母,每一个人物能够逐次打开,同时继延伸。通过定性与定量分析,从而完整地展示知识图谱体系。

4 结语

随着知识图谱的飞速发展,Google便是基于知识图谱展开深层次的搜索升级,使得无论输入什么搜索关键词,都可以提取到需要的信息,给予用户高质量体验。随着知识图谱技术的不断更新,几乎全部的搜索引擎都不断地靠近知识图谱,输入任何一个关键词,从而得到自己想要的结果,然而需要意识到,知识图谱无论功能效果多显著多领先,其核心都需要围绕知识库展开,因此未来对于知识库的选择与审视同样不容小觑。

猜你喜欢
分词张三搜索引擎
Chrome 99 Canary恢复可移除预置搜索引擎选项
分词在英语教学中的妙用
世界表情符号日
结巴分词在词云中的应用
结巴分词在词云中的应用
你不敢告我
下车就跑
寻找张三
我的名字叫张三
基于Lucene搜索引擎的研究