基于科普平台的知识图谱

2017-07-10 07:12王艳玲林莹含徐荣欢许嘉琳
电脑知识与技术 2017年14期
关键词:文档图谱关联

王艳玲 林莹含 徐荣欢 许嘉琳

摘要:科普与科研是科学工作者两大同等重要的工作,互联网的迅速发展给我国的科普工作带来的新的方法和模式。该研究基于已有的科普平台进行试验,将科普平台的资源进行整合分析,建立广泛关联的知识图谱,利用知识图谱为科普平台提供一种无分界的知识网络,从而对该平台的用户起到引导、推荐、启示的作用。

關键词:知识图谱;实体间关系;可视化关系网络

中图分类号:TP301 文献标识码:A 文章编号:1009-3044(2017)14-0087-04

从Web时代开启至今,互联网技术不断演进。人们获取信息的效率有了大幅提高,但是随着大数据的到来,传统搜索引擎技术的不足逐渐显现,人们不得不在大量的搜索结果中进行人工排查和筛选。因此如何更高效的获取信息成为了摆在人们面前的一道难题。知识图谱作为下一代搜索引擎的核心技术,为解决这一问题指明了新的方向。目前,知识图谱技术在智能语义搜索、移动个人助理以及深度答系统中发挥着重要作用,进一步推动了人工智能机器人的发展。本研究是基于少儿科普网站的知识图谱的建立,在国内暂无此领域知识图谱的研究。少儿对信息的辨识度远低于成人,把知识图谱应用于少儿科普网站,方便少儿获取更好,更准确的科普资源,降低孩子的时间成本。本研究分为四层:实体获取及预处理,实体属性抽取,实体间的关系建立以及知识图谱的形成和应用。本研究将知识图谱应用于智能推荐、智能交友以及可视化关系展示,使得少儿和科学家在科普网站以更高效、更便捷、更准确的方式获取知识。

1背景

数字时代,种类繁多的数据源定期或不定期地产生大量的结构化和非结构化数据。据国际数据公司(IDC)的数字宇宙研究报告称,2011年全球数据总量为1.8ZB,并将在2020年攀升到35ZB。其中约有95%的数据因受限于人类数据分析解释能力和数据分析手段被闲置,严重阻碍科学研究的发展。数据可视化技术在此背景下应运而生。知识图谱就是数据可视化的研究热点之一。知识图谱的主要目标是通过可视化技术,描述知识资源极其载体,挖掘、分析、构建、绘制和显示知识及知识发展进程和其结构关系。

知识图最初由谷歌提出,2012年5月17日,Google发布知识图谱项目,并宣布以此为基础构建下一代智能化搜索引擎。2013年7月微软发布Satori知识库。近年来,国内对知识图谱的研究和应用也逐渐增多,如百度知心、搜狗知立方等商业应用。

2知识图谱研究意义及其应用领域

2.1知识图谱研究意义

知识图谱是实现智能语义检索的基础和桥梁。本项目目的是让知识的获取更加方便,更符合人们的思维模式,从而为用户呈现一个更为直观、简单的知识平台。知识图谱,不仅可以将互联网的信息表达成更接近人类认知世界的形式,而且提供了一种更好的组织、管理和利用海量信息的方式。通过知识图谱,将科普平台的知识进行直观展示,让所有信息一目了然。

2.2应用领域

目前知识图谱技术主要用于智能语义搜索、移动个人助理(如Google Now、Apple Siri等)以及深度问答系统(如IBM Wat-son、Wolfram Alpha等)。

在智能语义搜索应用中。现阶段,百度、搜狗、Google提供了基于知识图谱的搜索业务。把搜索引擎的“中转站”模式转变为“终点站”,用户可以一站式获取搜索结果。

在深度问答系统应用中。系统同样会首先在知识图谱的帮助下对用户使用自然语言提出的问题进行语义分析和语法分析,进而将其转化成结构化形式的查询语句,然后在知识图谱中查询答案。深度问答系统可以利用搜索引擎向用户反馈搜索结果,同时根据搜索的结果更新知识库从而为回答后续的提问提前做出准备。Fader等人基于Freebase和Probase知识库,对给定的问题分解成小问题,逐一解答后将问题合并。Berant等人基于Freebase知识库,将问题中的实体、关系词、疑问词映射成知识库中的实体与关系词,最后将问题中的所有词形成一个精确的查询语句,直接利用该查询得到答案。

3研究内容及研究成果

3.1研究内容

本项目的目标是让知识获取更加方便,更符合人们的思维模式,从而为用户呈现一个更直观、更简单的知识平台。

1)研究如何从科普网站文本中抽取构建知识图谱所需要的知识。

2)研究科普网站实体与实体之间的关系结构。

3)以可视化界面更好地呈现出科普网站知识图谱。

3.2研究成果

1)利用智能语义构建知识图谱。

2)实现可视化关系网络。

3)把知识图谱应用于智能推荐。

4基于科普平台的知识图谱的构建过程

4.1前期研究分析

知识图谱建立之前我们进行了充分的理论研究与分析,确定了主要的研究路线与构建方法。

从时间上分为四个阶段,第一阶段,研究项目内容与实施路线,确定项目的主要实施方案,建立初级的基于文档关键词的知识图谱;第二阶段,进行文档内容分析、提取关键词,建立基于文档内容的知识图谱;第三阶段,进行用户关联分析,建立普遍关联的知识图谱;第四阶段,将各阶段知识图谱以不同形式可视化,撰写学术论文并进行项目评估。

从构建理论上分为三个层次,初期以关键词为主要对象,建立简单的知识图谱,搭建知识图谱的主要框架;中期进行文档内容分析,以自动提取的关键词为对象,建立关联度强的知识图谱;后期进行用户关联分析,建立普遍关联的知识图谱,挖掘潜在的知识关联,并将发现应用于科普平台。

本项目采用PHP语言开发,与“智行少儿科普平台”所用的开发语言一致,数据库选用MySQL数据库,简便易操作,通过JavaScript进行异步获取数据以及制作网页,在后台通过PHP来完成算法的实现以及操作MySQL数据库。

4.2基于文档关键词的知识图谱

初期详细分析了多个用于构建知识图谱的文档分析的算法,包括PageRank、Cosine余弦相似度、关联规则Apriori等。

PageRank是谷歌公司最早提出并应用于Google搜索引擎的主要算法,Google利用此算法基本奠定了初期在搜索引擎领域中的领先地位,该算法之所以能够有如此重要的地位,主要在很大程度上是它解决了困扰前辈们的最大难题:对网页进行评价,为每一个网页赋予一个衡量其重要性的值,并最后应用于检索结果的排序。

项目欲借助PageRank算法,通过计算每篇文档之间互相的关联数目,来对所有文档进行相似度排序。假设文档A有3个标签,分别为标签a、b、c,文档B有2个标签,分别为a、c,文档C有2个标签,分别为a、d。现统计各文档的人链与出链,统计结果放人转移矩阵,我们会发现ABC之间所有的连接都是双向的,因为两篇文档具有相同的标签,没有方向,这样得出的矩阵利用PageRank算法不断迭代之后也无法快速得出相似度矩阵。

我们继续研究了关联规则的Apriori算法。Apriori算法是描述关联规则的一种经典算法。Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。通过分析我们认为本项目是通过发掘并计算每两个事务之间的相似度来建立普遍关联平台资源的知识图谱,而Apriori算法多用于消费市场价格分析、猜测顾客的消费习惯、并不适合本项目本次研究内容。

最后我们进行了Cosine余弦值算法的研究并确定了最终的主要算法。向量空间模型(vector space model)操作比较简单,理论成熟,在众多有关文本的领域应用中都有非常好的效果。在这一模型中,文档被分成一个一个的词,从这些词中提取关键词代表这篇文档,用这些关键词形成一个n维向量,余弦相似度算法就是计算所有这些向量之间的夹角,余弦值越小说明夹角越小,那么说明两篇文档的相似度就越高,反之越低。我們认为向量空间模型的余弦相似度更合适。

将“智行少儿科普问答平台”数据库中的所有文档,以人工添加的文档标签为对象,每两篇文档建立相应的文档标签空间向量,计算每两个向量之间Cosine值,即得出了基于标签的每两篇文档之间的相似度,并以此建立了一个N×N的Cosine值矩阵S,矩阵中行坐标与列坐标均表示文档ID,每个值Sij都表示文档ID为i与文档ID为i之间的两个向量的余弦值也就是两篇文档的相似度。

由于标签数量较少,种类集中,在力导向图的显示结果中聚类效果比较明显。但无法体现各文档的普遍关联性以及相同类别文档的差异,我们继续进行后续研究。

4.3关键词的提取

关键词提取是为了建立文档空间向量,从而能基于文档内容计算文档相似度。提取文档关键词必然要切分文档,于是必然要借助中文分词技术。

我们对比分析了多个中文分词引擎。由于NLPIR不支持PHP语言,SCWS不支持PHP5.4以后的版本,而本项目使用的是PHP5.6,最终我们选用phpanalysis2.0这一工具进行文档的中文分词。

项目首先对分词结果进行了预处理,包括停用词过滤、同义化处理等。文章分词结束之后会存在大量重复的无用信息。在进行标签提取之前需要将停用词等无用信息过滤。随着知识图谱中文章实体的增加,提取出的标签会普遍存在同义词,若不进行同义化处理,会使得知识图谱中表意一致的文章因为标签的不同而无法进行关联,进而导致文章关联度受影响。

本项目进行了停用词过滤,提高了文章分词标签提取的效率,对文章分词进行同义化处理,提高文章标签提取的准确性。

选用TF-IDF算法从处理好的分词结果中提取关键词,通过计算“词频”(TF)和“逆文档频率”(IDF),将这两个值相乘,就得到了一个词的TF-IDF值。某个词对文章的重要性越高,它的TF-IDF值就越大。所以,将所有词按TF-IDF值进行排序,排在最前面的几个词,就是这篇文档的关键词。

具体实现过程如下:

1)计算词频

词频(TF)=某个词在文档中出现的次数

2)计算逆文档频率

逆文档频率(IDF)=log(全文档总数/包含该词文档数)

如果一个词越常见,那么分母就越大,逆文档频率值就越小,反之,一个词越少见,逆文档频率值就越大。

3)计算TF-IDF值

TF-IDF=词频(TF)逆文档频率(IDF)

依据此算法,项目成功对平台中的所有文档提取了关键词并保存到数据库中。

4.4基于文档内容的知识图谱

基于文档内容的关键词提取之后,就进行余弦相似度的计算。如何评价两篇文档的相似度大小,我们认为两篇文档的用词越相似,它们的内容也越相似。

1)分词,前文已经叙述;

2)提取两篇文档的关键词,前文已经叙述;

3)列出两篇文档关键词的所有分词,作为标杆向量;

4)对应两篇文档关键词与标杆向量进行匹配,匹配到的位置记1,未匹配的位置记0,写出两个空间向量。

于是这就成为了计算两个向量的相似度的问题。我们可以先考虑平面几何向量,在一个平面上,两条线段之间形成一个夹角,如果夹角为0度,意味着方向相同、线段重合;如果夹角为90度,意味着形成直角,方向完全不相似;如果夹角为180度,意味着方向正好相反。因此,我们可以通过夹角的大小,来判断向量的相似程度。夹角越小,就代表越相似。而对于多维空间向量,其原理是不变的。

上图的a和b是两个向量,我们要计算它们的夹角θ。假定a向量是[x1,y1],b向量是[x2,y2],那么可以将余弦定理写成下面的形式:

同样的,余弦定理对多维向量求相似度同样成立。

基于此项目至此建立了基于文档内容的知识图谱。

从表中可以明显看出,建立出基于文档内容提取标签的知识图谱则发现了许多先前并没有的关联,这说明,基于文档内容建立知识图谱可以教文深入发现文档之间潜在的关联,从而构建普遍关联的知识图谱。

4.5用户之间的关联分析

项目最后进行了用户之间关联的分析。包括基于用户的协同分析以及基于事务的协同分析。

基于用户的协同分析是将用户(包含普通用户与科学家)数据根据领域进行预处理,提取每个用户的领域数据,进行计算,将计算结果放到矩阵中。本次采用了Echarts的非缎带式和弦图展示,且将科学家与普通用户利用不同的形状进行区分。

基于事务的协同分析是指项目欲通过用户轨迹分析,发现用户之间潜在的关联。将数据库中的用户浏览记录提取出来进行预处理(剔除后台人员前端查看导致的无效数据),进行统计分析。将基于事务的协同分析结果与前文已经得出的基于用户的协同分析的结果进行汇总,对已经存在的关联两次权重值按比例相加,对没有的关联,在权重矩阵中添加此关联。这样就建立了item-based和user-based相結合的关联矩阵。

对比两个结果可以很明显的发现,user-based+item-based相结合之后用户关联有明显增加。依据这种潜在关联,平台可以有针对性的对用户进行个l生化推荐等。

5基于科普平台的知识图谱的数据源分析

5.1结构化数据

结构化数据来自关系数据库,项目所使用的待处理结构化数据均来自于“智行少儿科普平台”后台数据库,因项目团队成员拥有“智行少儿科普平台”软件著作权,因此有权取用数据库数据进行试验。

5.2开放文本与词典数据

停用词词表是将开源数据百度停用词表、哈工大停用词表、四川大学机器智能实验室停用词库、中文停用词库四张表进行结合而成,同义词库是来自哈工大本体语料库中的同义词词林。

6基于科普平台的知识图谱的应用与前景

6.1在科普平台的应用

知识图谱从技术和应用看均已有很多成果,但是其作用还没有完全发挥,很多时候其结论多为辅助验证作用,其广度和深度以及其理论方法和工具的开发与改进均有待进一步研究。目前,随着网络的发展和普及,各种搜索引擎和社交网络等知识图谱得到了迅速发展,但是,针对儿童以及青少年关于科普知识方面的学习还没有得到应用,而在此领域知识图谱将会发挥出很大的价值。

基于科普平台的知识图谱是以可视化界面呈现科普网站知识图谱,引导用户自由探索,并利用个性化推荐方法,为用户的深入学习提供支持,给客户呈现出更加完整的、直观的、图谱式的检索结果。

6.2在科普工作的前景

随着科学发展和科技进步,出于知识传承和教育下一代的需要,我国国内正在投资兴建各式图书馆、博物馆,并大力发展互联网与教育相结合的优势,提倡网络教育。与此同时,知识图谱理论和技术正在突飞猛进。把中文自然语言理解与知识图谱技术相结合,应用于科普平台,将代替现有的大量人工干预的枯燥工作,便于知识提取和表达,提高处理问题的精度和效率,提高科普资源的整合度与关联度,充分发挥科普平台的知识传播、传承、发展和创新作用,更科学地引导用户进行知识学习、探索和创新。因此,基于科普平台的知识图谱项目在科普工作中前景将非常广阔。

猜你喜欢
文档图谱关联
浅谈Matlab与Word文档的应用接口
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
有人一声不吭向你扔了个文档
绘一张成长图谱
“一带一路”递进,关联民生更紧
奇趣搭配
补肾强身片UPLC指纹图谱
智趣
基于RI码计算的Word复制文档鉴别
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat