基于纪检招投标监督的知识图谱构建与应用

2021-12-02 01:22刘月峰郭威张晗宇边浩东何滢婕张小燕董建敏弓彦章
现代计算机 2021年28期
关键词:公职人员中标图谱

刘月峰,郭威,张晗宇,边浩东,何滢婕,张小燕,董建敏,弓彦章

(1.内蒙古科技大学信息工程学院,包头 014010;2.内蒙古纪检监察大数据实验室,内蒙古 010015)

0 引言

随着优化营商环境政策的贯彻落实,招投标任务的数据体量发生了爆炸式增长,大量的数据为纪检工作人员数据整合和关系推断带来了困难。传统的违纪违法判定依赖于人工判断,人工判断对违纪人员之间的隐层关系挖掘以及关系级联等需要数据支撑的任务效果不佳。构建精准监督知识图谱对实际工作提供辅助决策具有重要作用。知识图谱也称为知识领域映射地图,是显示知识发展进程与结构关系的一系列图形,在公安侦查、金融风控、营销管理等场景应用广泛。相比较于通用知识图谱,领域知识图谱具体问题具体分析,能够针对现有问题提出普适性强的解决方案,故对其构建流程的研究具有重要意义。文献[1]通过寻找非现场审计系统的困境提出了知识图谱在商业银行内部审计平台的应用,通过知识图谱实现关系挖掘。文献[2]通过知识图谱技术,将行内外数据整合并进行深入挖掘,为银行实施风险管理,提供技术支持。文献[3]剖析了知识图谱在金融风控领域的应用,针对三种操作风险提出了主题关系识别、数据监测、违规行为识别等三大方面。上述文献均在知识图谱风控方面做出了积极探索,但目前尚未有知识图谱技术应用于纪检招标违纪判断的相关文献,构建精准监督知识图谱可以帮助从业人员利用关联规则预知可能出现的招投标违法违纪行为。

1 “招投标精准监督”知识图谱的构建

1.1 数据集获取与建立

数据集是支撑知识图谱运行的重要基础,覆盖面广且体量大的数据集能够带来更好的决策支撑。文献[4]计划通过银行内文本、音频、视频等非结构化数据进行自然语言处理,从中提取出实体满足知识图谱构建。文献[5]利用百科类数据和结构化数据相结合构建体量庞大的数据库、在此基础上进行金融知识图谱的建设。本实验数据集利用纪检委信息科提供的招投标数据、相对应注册公司数据、公职人员及其家属数据、公职人员单位数据等结构化数据(上述数据经过脱敏、实验展示均用化名替代),经过人工筛选根据本实验要求构建结构化数据表格、为后续知识建模提供数据来源。

1.2 知识建模

知识建模的制作需要根据已有的数据集定义建模规则、还应根据具体需要解决的问题进行设计。知识建模设计的好坏关系到整个知识图谱构建的成败。针对本次设计,我们需要通过招标项目查找中标单位的名称、还应查找到中标项目的负责人;当用户查询中标单位时除了单位的基本信息、还应关联到法人与股东。文献[6]在网络空间安全方向分析了网络空间安全知识、提取了知识间的关系,最终构建了面向网络攻防领域的本体。文献[7]从实体抽取、关系抽取、事件抽取等多个角度抽取实体,以用来构建自己的知识建模模型。本文参考其他领域知识建模设计思路。针对数据集中的实体指定本体设计、将来自招标项目库、公职人员库以及亲属库等库的内容进行归纳总结,围绕招投标精准监督业务进行知识建模。建模图如图1、图2所示。

图2 “精准监督”知识图谱模型2

1.3 知识融合

招投标精准监督领域知识覆盖范围广且内容多样,不同数据源对于某些内容的称呼不尽相同,知识融合则是解决此类问题的有效途径。知识融合通过检测的方法将多源异构的知识进行判断,并通过构建领域知识库的方法进行消歧[8]。在不同数据源进行知识抽取时,建立本体与实体的映射关系。并从本体中融合相同客体的术语差异,使客体、实体、本体形成映射关系融合成统一的知识库[9]。在融合时使用关系数据库索引、并利用大数据运算。通过知识融合可以增强知识图谱的数据体量,消除概念的歧义、剔除冗余和错误的内容[10]。在知识来源种类繁多时意义重大。本实验知识融合经过三个阶段:指代消解、实体消歧与知识合并。指代消解将对同一事物的不同语言描述归纳为同一实体,如将A有限责任公司与A公司归纳为一个实体;实体消歧则对同名实体进行区分,如对同名同姓的个人,将通过任职单位、身份证号、性别等多种属性进行区分;知识合并则通过不同知识来源将新增知识合并入图谱中。如本实验进行知识建模后,将通过公职人员实体与法人、股东、负责人实体的关系进行合并,最终发掘中标单位与政府部门的关联。

1.4 知识加工

通过知识融合消除了实体之间的歧义、扩充了实体之与实体之间的关系,最终得到了基本的事实表达。然而事实本身并不完全等于知识,要形成结构化的知识网络,还需要知识更新、知识推理和质量评估等加工过程[11]。随着招标项目的增长、公职人员的流动、公司股东的变更等信息变动,知识图谱需要进行知识更新。知识更新可分为增量更新与全局更新,增量更新通过更新实体与关系的方法扩充图谱;全局更新则抛弃旧实体与关系,在不改变其建模方式的前提下进行内容更新。知识推理能够从现有知识中发现新知识,也是本实验的应用方向所在。通过实体间关系的逐级推理可以发现违法违纪情况。质量评估可以对知识的可信度进行量化,通过各种判断标准判断知识是否可信,从而保证知识图谱的质量,提高知识图谱内容的准确性[12]。

1.5 知识存储

通过上述过程我们得到了图结构的事实表达,接下来将选择合适的知识库进行知识存储。目前主流的存储方法有基于关系型数据库的存储方法和基于图数据库的存储方法。招投标知识图谱需对多层关系进行级联查询、并对其结果进行可视化展示,因此选用图数据库进行知识存储。在众多图数据库系统中,Neo4j具有高效存储、设计灵活、开发敏捷等特征[13],为更好的实现知识推理与应用,本文采用Neo4j实现知识图谱的存储。用户可以使用CQL(cypher query language)语言操作数据,CQL语法通俗、结构易懂,为后续纪检监察人员查询级联关系提供了便捷。

2 “招投标精准监督”知识图谱的应用

本图谱选取数据源,经过噪声剔除等过程获得内容实体,根据实体与实体间的属性关系构建知识建模。根据模型与模型之间的关系进行知识融合,通过不断迭代的信息源进行知识更新,最后将上述内容存储至Neo4j数据库中完成知识存储,并实现后续应用。

图3 “招投标精准监督”知识图谱模型

2.1 违纪事实判断

招投标精准监督知识图谱构建的初衷为挖掘违法违纪事实。将招投标数据、相对应注册公司数据、公职人员及其家属数据、公职人员单位数据等结构化数据录入知识图谱后可挖掘违纪关系,如中标项目负责人为公职人员,其家属为公职人员;中标单位的股东、法人及其家属为公职人员等。根据《中国共产党廉洁自律准则》第一章第二条、第五条等规定,禁止公职人员私自从事营利性活动、禁止利用职权和职务上的影响为亲属及身边工作人员谋取利益。故以上行为存在触犯法律的可能性。问题示例以Neo4j展示,如图4—图7所示。

图4 中标项目负责人为公职人员

图5 中标项目负责人为公职人员家属

图6 中标单位股东为公职人员

图7 中标单位法人股东为公职人员家属

2.2 历史案例关联

在纪检监察工作人员通过知识图谱判定违纪事实后,可通过CQL语句将处罚条例、处罚结果、处罚时间、处罚地区等信息按照处罚案例知识建模的格式要求录入知识图谱中,历史案例知识建模如图8所示。

图8 历史案例知识建模图

当工作人员再次查询到类似违纪事实后,则可通过先前录入的案例以及触犯的法律内容辅助决策。也可通过时间、地区为索引统计某一限定条件下发生违纪事实的数量以及案件案件间是否存在关系。为工作人员提供关联性强的可视化图形界面。

2.3 数据支撑

经过多次知识建模扩充,招投标精准监督知识图谱的数据内容以及来源将更加丰富。图谱本身可为历史案件查询、知识库问答系统等功能提供数据支撑。

3 结语

本文以“招投标精准监督”知识图谱的构建作为实例,介绍了知识图谱的构建与应用的全程。通过获取数据集、知识建模、知识融合、知识加工、知识存储等实践过程完成了从数据到Neo4j数据库存储的工作,最终生成了易用的知识图谱。并介绍了知识图谱的部分应用方式,为纪检监察领域提供了工作新思路。

由于现存数据内容不足,知识图谱体量受到限制,如填充知识类型即可能发现更多违纪可能性,为其应用提供更多的信息来源。下面进行举例:

(1)添加未中标公司实体,通过查询语句查询未中标超过10次以上的公司,查看该标段中标公司重复率,若重复率大于80%,则判断此未中标公司存在陪标嫌疑。

(2)查询项目负责人所对应所有标段,若负责人对应标段中有50%以上中标公司为同一家,则判断该负责人与该公司存在串通嫌疑。

(3)添加银行流水实体,利用中标单位股东与招标项目负责人或招标项目负责人亲属银行流水关系,判断负责人是否存在受贿嫌疑。

(4)添加中标单位法人股东与其亲属工作单位、添加标段负责人工作单位、如工作单位出现重叠,则判断公司与该标段负责人是否存在勾结嫌疑。

知识图谱的先进体现在其灵活易用、关系直观、可拓展性强。若能适当拓宽数据来源则更有利于发现知识关联,从而为纪检监察工作带来更有效,更全面的支撑。

4 致谢

感谢“内蒙古自治区纪检监察大数据实验室”对本实验的支持,包括提供数据集、协助实验、指导审阅等贡献。

猜你喜欢
公职人员中标图谱
“植物界大熊猫”完整基因组图谱首次发布
基于伪谱法的水下航行体快速操舵变深图谱研究
轨交项目连中标,东南两地传喜报
公职人员进修政策应该向基层倾斜吗?
张怀芝减薪有高招
尊崇法治,从国家公职人员做起
图表
中国知名官方智库图谱