基于知识图谱的国防科技成果管理研究

2024-02-13 06:56凌晨杨伟铭李宏建
科学与信息化 2024年3期
关键词:国防科技结构化图谱

凌晨 杨伟铭 李宏建

军事科学院/系统工程研究院 北京 100000

引言

随着时间的推移,国防科技研究期间产生的大量的研究报告,其数量越来越多,但可供用户利用的数据呈现出海量、多元及异构性等特征,面对庞大的数据体量,传统检索方法局限较强。基于知识图谱的成果管理方法体现出其独特的优势,可实现对成果数据的精确分析,帮助用户提高成果利用率。

1 成果管理研究现状

随着时间的推移,国防科技研究期间产生的大量的研究报告,其数量越来越多,但可供用户利用的数据呈现出海量、多元及异构性等特征,面对庞大的数据体量,现有的检索方法主要以数据库和全文检索等为主,而这都需要人工操作来完成。

然而,数据库通常以用户事先的定义表与表之间的关系为使用的前提和依据,这种状况下,要获取相关知识,只能沿着已有定义的路线进行[1]。全文检索更是因无法实现知识之间的有效关联而局限性较强。

传统搜索不仅要用户自行查看分析、总结检索的内容和结果,还存在成果科技水平较低,描述不完整,以及成果所具备的创新性、所处阶段、应用前景等关键性描述缺乏的状况,而这将导致需求单位无法通过搜索来获得自己所关注及有价值的科技成果,从而无法对成果进行再利用或者成果转化。

搜索的结果过于简单,无法体现成果的先进性,还需对成果做关键词的提取及知识的关联,并将相应的包含了国内外的科技论文、专利等技术成果进行汇集、技术解析,从而揭示其先进性与技术价值。基于此,基于知识图谱的成果管理方法应运而生,其优势在于突破传统搜索所无法实现的功能,实现对成果数据的精确分析,以帮助用户提高成果利用率。

2 知识图谱技术介绍

谷歌于2012年提出知识图谱概念,并将其应用在搜索引擎中,且以高效性、智能化的知识组织形式呈现出独有的特征,对于概念或实体以节点的形式来体现,而在表达关系的过程中采取节点之间的连线来完成。

各种概念或实体通过知识图谱而被整合、串联,形成一个巨大的关系网,为用户分析和研究问题提供了一种“关系”视角。用户还通过获取知识链接而最终获得了知识本身。比如搜索“船用发动机是什么”,系统可以返回推荐的知识,而非包含了“船用发动机是什么”的相关网页或文章片段。

3 基于知识图谱的成果管理系统设计

3.1 系统总体设计思路

已有的国防科技报告的结构化数据资源,以及非结构化的信息存储是支撑国防科技报告数据成果实现精准化搜索、多维化分析、类比化预测及智能化推送及应用的关键点[2],而这部分内容主要包含了成果知识的抽取与分类、成果知识体系及成果库搭建、成果应用3个层级。

知识图谱的成果管理系统设计,秉承实用性的理念,其阶段主要以模式构建、图谱构建和图谱应用为主。模式构建地目的是提升利用效率、减少冗余;图谱构建主要依赖于对自然语言的处理和对技术的深度学习来完成,而期间,需要从结构化、半结构化的文档中将各种成果从多源异构数据中进行提取,并将抽取到的知识经由实体链接和消歧之后,导入至知识图鉴之中,有效提升成果质量、扩大规模;知识图谱在应用过程中,专业的用户可以利用语义搜索、智能问答、知识推送等,完成高质量结构化成果的获取。

3.2 模式构建

本文针对知识图鉴模式体系的构建,将以斯坦福大学医学院的“本体构建七步法”为理论借鉴,结合国防科技报告领域数据的特点,具体见下图。

图1 知识图谱的模式体系

模式层在于构建知识图谱的模式图,以构成实体、实体之间的关系为主,且通过图形对其结构进行展示;数据层是对国防科技报告中的实体进行抽取,包含语义和属性三元组抽取,获取三元组信息,从而创建知识图谱中的实例,其存储及应用,以数据库位载体来完成。

3.3 图数据库构建

国防科技报告图数据的构建,首先需专家手工标注相应的知识,依据标注结果,让机器利用相应的自动抽取工具来完成学习,进而完成知识的自动抽取;其次,机器将识别图片中的实体、非结构化文本、事件、关系和属性,并进行抽提,再与结构化数据库中存储的待开发实体完成知识融合,最后存储到图数据库中[3]。且要注意完成存储的知识,需要与结构化、非机构化的知识源实现同步,进而确保知识的维护与更新。

3.3.1 人工标注及机器学习。人工标注及机器学习的实现,主要通过数据处理来完成标注对象特征的目的,而这一过程将以机器学习基础素材为主,以及采取分类、标注、注释、画框等方式,对文本、图片、语音等数据进行处理。

基于国防科技报告分类体系及语义关联,将报告成果文档中的知识要素做相应的人工标注,以此为基础,通过机器学习、深度学习等技术实现反复训练的目的,并对相关算法和模型完成迭代和优化,最终确保机器的智能标注功能的实现。

3.3.2 知识抽取。知识抽取主要针对实体、关系和属性三个方面,其中,实体抽取以词典及规则为基础,或者通过数据库与统计相结合的形式来实现对数据源中特定类型的命名实体的提取。实现知识抽取的过程中,通常借助相应的模型,结合国防科技报告的语义词典进行,目前,知识抽取模型最常用的以CRF 模型、LSTM模型等为主,这种模型往往是依据所命名的实体进行技术识别来实现的,以此可以获取国防科技报告资源语义层面的关键词、高频词,如成果名称、简介等实体。实体抽取时也会因为数据资源的差异性变化,因此,需结合数据特点对实体进行细化并抽取,通过对语义的理解,及对机构知识库中名词的解释来进一步实现实体的智能校对功能,最后由人工审核之后入知识库,从而有效降低错误率。

3.3.3 图谱构建。国防科技报告知识图谱构建,重点要对其中所包含的概念、实体、模型等进行抽象化处理,以此体现它们之间的各种关系状况,在一个统一的知识图谱之中,实现将结构化数据和非结构化知识特征参数进行融合运用。

知识图谱主要基于RDF或图数据库来实现存储,RDF即“对象-属性-值”,其设计原则需遵循数据的易于发布和共享;图数据库以高效的搜索和查询而著称。目前图数据库有很多,如Neo4j、gStore、JanusGraph、OrientDB和Cayley等,其中,Neo4j以对原生图储存层进行“无索引链接”而备受重视和流行。

3.3.4 知识融合。知识融合的重点将通过数据模式层和数据层的融合来完成,前者涵盖了概念、上下位关系及属性之间的合并问题,通过专家人工构建的方式,或结合结构化数据实现映射,期间,数据统一的实现将依赖于设置融合规则来完成;后者的融合主要以实体合并、实体属性融合、冲突检测与解决为主要内容。通过对数据模式层和数据层的融合,将其存储于图谱知识库中。

3.4 知识智能应用

国防科学图数据库的构建,在完成一定数量知识的存储之后,其知识库的形态将呈现出来,而后,依据数据及业务场景状况,将提供给用户相应的语义搜索、智能问答、知识推荐、决策支持等一系列的智能化服务,以此帮助用户来解决工作及科研过程中的实际问题。

3.4.1 语义搜索。传统的搜索引擎无法精准地对用户的查询意图做识别,尤其对于关键字多语义和消歧问题更是束手无策,其搜索中需面对海量的数据结果,用户只有通过对海量结果的分析,才能找到所需的内容。知识图谱下的搜索能实现本体的语义检索功能,依据本体间或实体间存在的关系,用户所需的问题将从语义角度进行理解和解释,语言中的歧义问题也被及时消除,避免用户面对海量搜索结果的问题,而搜索返回过程中,也将更加精准化。

3.4.2 智能问答。智能问答以经典的“一问一答”形式所呈现,实现用户与具有智能问答系统功能的机器进行一对一的、友好的交流互动。一定程度上而言,基于知识图谱的智能问答属于一种语义搜索功能的延伸和拓展,语义搜索的结果,将以一种相应的规则排序,再以相应的算法将最相关的答案排在前面。例如,以船舶建造为例,其智能问答系统的构建中,知识图谱重点源于一些以非结构化所呈现的成果报告。

3.4.3 用户画像。用户画像即是利用一系列精确的数形、数值来呈现特定用户的个人信息和特征。传统意义上的用户画像在实现用户标签设计的过程中,主要以业务人员的经验为依据,采取人工整理、归纳的方式,对于用户设定相应的标签,这种状况下,尽管制作用户标签的难度不高,但是对于标签进行语义理解进而开展联想推理等深层的应用较为困难,而这正是知识图谱所擅长的。

知识图谱下的用户画像,将客观世界的知识以实体与属性、关系、概念等结构抽象进行表示、储存,进而形成机器能够理解的格式,以便让用户对于画像标签的理解不再停留在文本表示本身,而是可以利用背后的知识库实体层和概念层实现深层画像应用[4]。

3.4.4 个性化推荐。个性化推荐是根据用户的个性化特征,为用户推荐感兴趣的报告。个性化推荐系统将基于对用户职级、专业等分析的基础之上,通过个性化的算法,围绕用户的实际需求、个性特征和兴趣喜好形成相应的科技报告,其属性、分类、内容等均与用户和科技成果之间形成一定的关系和关联,以此实现为用户推荐感兴趣的成果或者技术内容的目的。

4 结束语

通过对知识成果管理及应用技术的研究,实现成果知识图谱的构建,通过知识抽取、实体属性关联等手段实现相应成果报告、科技文献等的统一性,挖掘其内在关联,于国防科科研人员而言,借助知识图谱可完成快速检索资料、提高认识的目的。以及采取相应的手段和技术对非结构化、板结构化成果进行处理和知识融合,将有效提升数据的管理能力,奠定未来国防科技大数据综合应用的坚实基础。

猜你喜欢
国防科技结构化图谱
美国国防科技集成创新初探
促进知识结构化的主题式复习初探
区域国防科技创新生态系统的构成与培育
绘一张成长图谱
结构化面试方法在研究生复试中的应用
补肾强身片UPLC指纹图谱
主动对接你思维的知识图谱
基于图模型的通用半结构化数据检索
基于软信息的结构化转换
杂草图谱