GSGD：一种基于BERT与本体推理的自动分级系统

2020-08-12 02:32王珊珊刘汪洋蔡惠民

计算机技术与发展 2020年8期

王珊珊，邹佳，程序，刘汪洋，蔡惠民

(1.中电科大数据研究院有限公司，贵州贵阳 550022；2.提升政府治理能力大数据应用技术国家工程实验室，贵州贵阳 550022)

0 引言

政府数据分级管理，能够明确政府数据的范围边界和使用方式，是政府数据治理的关键性工作，为数据共享开放提供依据[1-2]。国务院2015年9月5日印发的《促进大数据发展行动纲要》(国发〔2015〕50号)的主要任务中明确提出要大力推动政府部门数据共享，稳步推动公共数据资源开放。国务院办公厅于2017年5月18日印发并实施《政务信息系统整合共享实施方案》(国办发〔2017〕39号)，提出了加快推进政务信息系统整合共享。2018年1月12日，贵阳市发布《贵阳市政府数据共享开放实施办法》，用以协调解决政府数据共享开放有关重大问题。

根据《政务信息资源共享管理暂行办法》、《贵州省政务数据资源管理暂行办法》、《贵阳市政府数据共享开放实施办法》，政府数据分级主要是对数据在开放和共享两个方向进行分级；共享级别分别为无条件共享、有条件共享、不予共享三大等级，开放级别分别为无条件开放、依申请开放和不予开放三大等级。

目前，政府数据分级工作多为人工操作，然而，随着政府数据的增长，人工标注已不能满足分级工作要求，带来了很多问题。由于分级政策法规条款较多，人工对大量的数据进行分级时需不停查阅相关规定导致工作量大、效率低；同时人为理解政策法规具有较强的主观性，导致现有人工分级工作精确性差、较为主观等。由于分级工作涉及领域较广，例如：安全生产、健康保障、信用体系等，且需要政策法规依据支撑结果，因此传统的分类方法不足以支撑分级工作。

法律本体能够对法律法规进行条理的梳理、描述；还可通过自定义规则，以满足个性化推理需求。Valente从法律的社会角色和功能出发，提出了FOLaw(functional ontology for law)[3]法律本体。Breuker[4]创建了LRI-Core法律本体模型。汤庸等结合了许多研究，提出了新的本体模型DOLegal[5]。贾君枝[6]等以专业人员参与为核心，提出了一种新的法律框架网络知识本体模型。卢明纯[7]在结合国内外研究成果的基础上,提出了一种新的本体模型，并设计了原型系统。佘贵清等[8]基于历史案例本体知识库构建了刑事审判案例推理模型。姜赢等[9]构建了医疗卫生政策法律知识库，以方便对政策法律进行管理。Thammaboosadee等[10]根据泰国刑法典提出了一个判决系统。上述研究大多针对《刑法》等法律且推理规则多关注于行为处罚措施，涉及法律内容较为单一。

本体的语义匹配技术较多，有基于模式的匹配、基于概念图的匹配，以概念分类为基础的学习策略等；贾君枝等在充分考虑法律语言的模糊性上，结合了相关技术，提出了基于法律框架网络本体的语义匹配的基本思路；但基于框架网络的语义匹配更适合应用于范围界限较为清晰的领域[11]。

随着大数据等技术的发展，采用大数据、人工智能等方法对政府数据自动进行分级已成必然趋势。因此，文中以《中华人民共和国政府信息公开条例》、《政务信息资源共享管理暂行办法》以及贵州省、贵阳市地方法规、标准等作为政策法规依据，以某些省市开放平台中的典型案例作为案例数据，设计并实现了政府数据自动分级系统—GSGD，以解决现有人工分级支撑依据不足、主观性强、精确性差的问题。

1 系统框架

GSGD由输入数据、基础能力、算法模型、结果输出四个部分构成，系统框架如图1所示。分级输入数据格式为xx市政府各委办局“行政区委办局名称系统名称表名称字段名称”目录，输入数据样例见表1。

图1 分级系统框架

表1 输入数据样例与分级结果

基础能力以及算法模型板块完成了数据中间处理过程。基础能力板块主要是政策法规库、典型案例库、推理规则库，文中分级结果以《中华人民共和国政府信息公开条例》、《政务信息资源共享管理暂行办法》以及《贵州省政务数据资源管理暂行办法》、《贵阳市政府数据共享开放条例》、《贵阳市政府数据共享开放实施办法》等贵州省、贵阳市地方法规、标准作为依据，构建政策法规库；以某些省市开放平台中的典型案例作为依据，构建典型案例库；根据政策法规库以及典型案例库中本体概念以及框架，设计自定义推理规则构成推理规则库。将政策法规库以及典型案例库中的关键词(例如：人事任免、健康保障等)提出作为分级关键词。算法模型板块由BERT[12]模型、相似度计算、Jena推理机[13]以及SPARQL查询[14]构成；BERT与相似度计算完成输入数据到政策法规库/典型案例库中关键词的映射过程；Jena推理机以及SPARQL查询完成政策法规库/典型案例库中关键词到分级结果的推理分析过程。结果输出模块将对算法模型模块的结果进行整理，并格式化输出，输出内容包括：开放结果、共享结果以及结果依据。系统整体流程如图2所示。

图2 系统整体流程

2 系统模块设计

2.1 本体构建

文中采用Protégé作为构建本体工具，Protégé是由斯坦福大学开发的本体编辑器，具有众多的插件。Protégé能够直观地以树形层次目录结构显示本体，且操作简便，是目前使用最广泛的本体编辑器之一[15-16]。

图3 政策法规库本体框架

文中参考许多已有的研究，并结合分级工作的特性，构建了分级政策法规库以及典型案例库。政策法规本体库顶层划分为两大概念：抽象实体和物理实体。抽象实体的子类有主题、分级、涉敏类别以及秘密类别，物理实体的子类有物理对象。根据贵阳市政府信息公开目录对政策法规进行概念提取，例如，组配分类中的子类有：人事信息、总结公报、规划计划等。规范文件可分为：宪法、法律、行政法规、地方性法规、部门规章、其他规范文件，规范文件子类中各概念之间的效力级别采用“效力高于”这一对象属性进行描述[17]，详细的分类如图3所示。典型案例库采用与构建政策法规库相似的方式进行构建，典型案例库的本体框架如图 4所示。构建数据为某些省市政府开放数据平台上获得的典型案例，例如：机动车驾驶证满分名单等。

图4 典型案例库本体框架

2.2 基于BERT的相似度计算

BERT(bidirectional encoder representations from transformers)是基于深度双向Transformer的预训练模型，BERT在训练任务中关注词前后的信息，生成融合了上下文信息的语义向量，因此，BERT可以用于问答系统、命名实体识别、文本挖掘等任务中[12,18-20]。文中利用BERT获得精准的语义向量，并将语义向量用于输入数据以及分级关键词的相似度计算中。

图5 求词/句向量流程

通过计算输入数据中委办局名称、系统名称、表名称、字段名称部分分别与分级关键词的词/句向量相似度，选取输入数据每个部分所对应相似度较高的关键词作为查询推理的输入。词/句向量采用BERT进行计算，将BERT模型的输出，即模型最后一层的输出，作为输入数据/关键词中每个字的字向量；对输入数据/关键词的字向量求平均，得到输入数据/关键词的词/句向量，流程如图5所示。

计算输入数据各部分的词/句向量与每个分级关键词的词/句向量的余弦相似度，并取输入数据各部分对应相似度最大的前两个关键词组成的关键词集合作为查询推理的输入。余弦相似度用两个向量夹角的余弦值作为衡量两个个体间差异的大小，更加注重两个向量在方向上的差异，较多地应用于文本相似度计算[21-22];假设有文档x=,y=,其余弦相似度为[23]：

(1)

2.3 推理规则

文中使用Jena推理机完成本体查询以及推理模块。Jena是由HP Labs开发的Java开发，是一种开源的产生式规则的前向推理系统，可通过自定义规则完成个性化推理，通过Jena提供的OWL API接口、SPARQL查询接口和本体推理机接口，可以实现基于本体智能应用程序[13,24-25]。

文中通过自定义的推理规则对通用规则进行扩展，满足对实际应用的个性化需求，本体中有间接关系的概念可通过规则的制订，经过推理最终被查询到。Jena的推理规则分为前向规则和后向规则，文中使用的是前向规则，规则分为前提和结论，形式如下，其中term和hterm是三元组或扩展三元组[26-27]。

term,…,term->hterm,…,hterm

(2)

表2列出了部分推理规则及其功能。由于一些政策法规条款内容较为相似，例如，贵阳市政府数据共享开放实施办法第二十五条与贵州省政务数据资源管理暂行办法第二十八条。因此文中采用规则对条款之间的关系进行处理，使得某一条款“继承”与其内容相似条款的关系，减轻人工构建本体时的工作量。虽然，文中所涉及的政策法规没有冲突，为防止随着政策法规增加，存在条款冲突的情况，给出了冲突检测的推理规则，若两条条款反映的是同一关键词，但两条条款涉及的分级结果不一致，则两条条款冲突，此时效力较低的政策法规服从效力较高的政策法规，分级以效力较高的政策法规作为分级依据。表中还给出了获得分级结果的推理规则，若某条款反映某一关键词，条款涉及某个分级内容(这里以无条件开放为例)，则涉及这一关键词的领域数据应当无条件开放；若某案例属于某一平台，此平台涉及某个分级内容(这里以无条件开放为例)，则此案例应当无条件开放。

表2 部分推理规则及其功能

2.4 查询实现

文中基于自定义规则，采用SPARQL查询语句实现推理查询功能[14，28]。对查询推理的每个输入词进行分级结果查询，输出与输入词相关的政策法规条例，并检测是否有与条例相冲突的其他条例；同时根据政策法规条例所属类别，按其效力进行从高到低的排序，并选取效力最高的结果作为每个输入词对应的中间结果；若在政策法规库中查找不到结果，则去典型案例库中查找，将输入词与案例所属平台、案例名称作为参考依据给出。

根据上述中间结果，开放以不与开放、依申请开放、无条件开放的从高到低的级别等级，共享以不予共享、有条件共享、无条件共享的级别等级，输出开放和共享最高等级的结果，并输出所有对应的法律法规条例作为参考依据。

3 系统实现与结果评估

图6为所创建的GSGD系统，输入拟分级数据后，上述模块会对数据进行计算、推理、分析，最终系统会自动给出分级结果及其依据，点击依据条例，系统会显示详细的条例信息。

图6 系统测试示例

为验证所实现系统的效果，文中采用欧氏距离(Euclidean distance)作为相似度计算对比方法进行实验。实验数据为xx市若干委办局“行政区委办局名称系统名称表名称字段名称”目录，共500条，涉及卫计委、国税局、城管局、公安局等委办局数据目录；由于数据是无标签的，因此对数据分别从开放与共享两个方向进行人工标注，以方便对比实验结果。实验结果也分别从开放与共享两个方向进行对比，由表3可看出，不论是开放还是共享方向，文中方法相比于对比方法在准确率、F1值上更高，验证了该方法的有效性。

表3 两种方法对比结果(对共享、开放方向进行分级)

4 结束语

针对政府数据分级工作数据资源规模大，支撑依据不足、主观性强、精确性差等问题，提出了采用政策法规库以及典型案例库对数据进行自动化分级，设计并实现了基于BERT以及本体构建推理的政府数据分级系统—GSGD。通过BERT以及相似度计算获取本体推理查询的输入关键词，再通过Jena推理机进行推理查询，实现对政策法规冲突检测、效力级别分析等功能，最终获得分级结果以及依据；最后通过对比实验分析，验证了该方法的有效性。未来在以下几个方向有待探索：一、采用人工构建本体，但随着政策法规/案例的增加，应尝试采用自动化方法构建政策法规库以及案例库；二、调整相似度计算方法，将多种相似度计算方法融合以得到更精确的结果。