基于本体引导的注塑知识图谱构建及缺陷溯因应用

2022-05-31 06:18王雅琳邹江枫袁小锋谢胜利
电子与信息学报 2022年5期
关键词:元组语料本体

王雅琳 邹江枫 王 凯* 袁小锋 谢胜利

①(中南大学自动化学院 长沙 410083)

②(广东工业大学 广州 510006)

1 引言

注塑成型因生产周期短、自动化程度高等优势,普遍应用于各类复杂塑料制品的批量生产。然而,由于模具、环境等多重因素的共同影响,注塑过程容易在产品外观、尺寸等方面出现问题[1]。为此,如何根据产品表观分析缺陷成因,并提出合理解决方案受到了国内外学者的广泛关注,是注塑行业提质增效的关键。

一般而言,注塑制品的缺陷诊断方法可分为人工检测、试验设计、深度学习和专家系统4类[2,3]。其中人工检测法[4]需依赖大量经验知识,不利于实际生产的快速运用。在此背景下,试验设计法被提出,其主要思想是通过结合仿真模拟和数值分析等[5–7]技术,来指导优化工艺参数,但仍要求操作人员具备一定的机理建模水平。而纯数据驱动的深度学习技术借助各类神经网络[8,9],可以避免复杂的机理建模问题,实现制品图像的深层特征提取和缺陷诊断。然而,工业过程的监测数据并不总是完全可信的,因此为避免低质量数据的影响,文献[10]结合生产经验建立专家系统,但维护成本高昂、可移植性差等问题还未得到解决。

相较于人工检测和专家系统,知识图谱技术在灵活性、精确度及更新能力等方面优势显著[11–13],为注塑制品的缺陷溯因分析提供了新的可行思路。其中注塑本体是知识图谱的一类通用概念模型,核心思想是将复杂领域经验分解为多条本征知识[14],用以指导各种实体、关系及其属性的抽取,进而形成具有领域特色的知识图谱。其既可以借助专家经验设计(自顶向下),也可以从开源数据中提炼(自底向上)。此外,基于叙词表[15]和已有本体[16]等半自动本体构建方法也相继被提出,但注塑领域无可复用的专业词库和本体结构。本体的自动构建[17]则通常需要复杂的语言处理模型来分析语义,开发周期长且准确率难以保障。因此基于上述分析,手工构建本体不失为一种可靠并有效的选择,然而,如何定义领域本体以减少歧义并实现正确推理[18],仍是工业知识图谱构建的首要挑战。

构建好的领域本体再用于指导多源网页的知识抽取,主要包括结构化、半结构化和非结构化3种数据形式。一般而言,结构化数据易于抽取,但难以获取;半结构化网页常采用爬虫技术提取,但大部分注塑网站结构化程度不高,往往以纯文本形式存在,直接采用爬虫技术只能抽取到少量实体及其关系[19];而将其视为非结构化文本,通用做法是利用专家标注好的语料来训练得到实体识别、关系抽取等监督模型。例如,早期的有条件随机场(Conditional Random Field, CRF)[20]和支持向量机(Support Vector Machine, SVM)[21]等经典机器学习模型,但其较大程度依赖特征工程。因此,文献[22]针对这一问题,提出结合双向长短期记忆网络(Bi-directional Long Short-Term Memory, Bi-LSTM)和CRF的方法。另外,文献[23]还研究了实体识别与关系抽取的联合学习模型。显然,上述方法均离不开代价高昂的标注数据,且由于各个领域的专业词汇相差甚远,严重导致注塑知识抽取模型的准确性难以保证。

因此为避免对专家标注和领域词典的过度依赖,充分利用先验信息是一种有效的途径,文献[24]提出基于触发词的网络模型,所谓触发词是指由文本中的知识标记和分隔元素等结构信息整合而来的通用句式或词组。其主要优势是不需要大量的标记数据,且成本效益更高,但触发词的手工构建仍存在挑战。同时本体结构中蕴含的逻辑信息在知识抽取中鲜有被利用[25],且通常未考虑冗余知识的对齐问题,工业知识的抽取质量有待进一步提升。

受上述模型的启发,本文提出一种基于本体引导的注塑知识图谱构建方法,在构建注塑本体的基础上,引导注塑知识的自动抽取。本文主要贡献为:(1)综合专家经验知识和实际网页数据,实现了以缺陷-表观-原因-方案为导向的注塑本体设计,有助于填补目前工业本体的领域空白。(2)将本体信息引入触发词库的生成中,既能保障知识的准确触发,也无需大量标注语料。(3)将冗余实体的判别转化为实体及其属性的两级对齐,进一步提升了知识图谱的精简性。

2 框架概述

知识图谱旨在描述客观世界的实体概念及其关系,主要分为“实体-属性-属性值”和“实体-关系-实体”两种知识类型。然而,注塑过程属专业领域,既缺乏专业注塑语料集,也缺乏可借鉴的较为成熟的注塑知识图谱,因此为构建面向缺陷诊断的注塑知识图谱,首先需设计指导注塑知识挖掘的本体。一般而言,本体定义[26]为

其中,O表示注塑本体,C为实际概念,P为概念属性,R表示概念间的关系,I为某概念实例。

注塑本体构建完成后,可在其引导下进一步挖掘网页中的注塑知识。具体地,首先将本体中的概念、属性等各项文本统一整合成关键字集合K,以指导注塑网页的搜集,然而,由于网页来源不同,可能包含大量与注塑应用无关的信息,需再经PR指标筛选形成最终的网页集。另外,由于注塑过程语料稀缺,缺乏重要的标注数据,基于有监督的知识抽取模型无法直接使用。又考虑到注塑缺陷诊断为专用领域,其有用知识必定包含一些标识性词语,如“方案”“缺陷”等。为此,本文在本体引导下设计触发词对筛选后的注塑网页进行片段分割,以提取包含触发词的实体关系。

一旦网页知识被遍历抽取完成后,可根据实体及关系构建领域知识图谱。然而,由于网页来源众多,挖掘的网页必定包含众多重复或相似实体,因此还需对冗余知识进行处理,即实体对齐。过去大部分研究很少利用到知识图谱中的“实体-属性-属性值”3元组信息,为此本文基于两级对齐策略综合考虑实体和属性的相似度来实现知识融合。

最后,融合后的知识3元组再存入Neo4j图数据库中,形成注塑知识图谱ζ= (ε,τ,s), 其中ε,τ,s分别为实体、关系和3元组集合,且对于每个3元组(h,r,t)∈s,头尾实体h,t ∈ε,关系r∈τ。

总体而言,基于本体引导的注塑知识图谱构建框架如图1所示,主要包括注塑本体设计、知识3元组抽取模型、两级知识融合和知识图谱应用4部分,以下将详细阐述各个环节的技术细节。

图1 注塑知识图谱构建框架图

3 注塑领域本体设计

考虑注塑领域中所要抽取的知识范围明确,更适合基于专家经验的自顶向下方式。但随着网页数据的不断积累,原来的本体结构被发现并不完善,还需根据数据特点完善数据模型,所以本文采用一种双向的注塑本体设计方法,主要包括基于顶层经验的本体向下定义和基于底层数据的本体向上完善。具体设计过程包括以下步骤:

步骤1 明确知识父类:根据缺陷原因分析和解决方案查询等需求,确定顶层知识父类,包括“注塑缺陷”“表现状态”“产生原因”和“解决方案”等,即图2灰色矩形框所示。

步骤2 细化知识子类:父类不断进行细化添加子类,以形成结构良好的概念层次,即式(1)中的C,图2中白色圆角矩形框表示子类。

步骤3 建立类间关系:式(1)中的R用来描述概念之间的关系,方便注塑知识的自动检索和查询推理。图2中“r:”表示类间关系。

步骤4 定义各类属性:式(1)中的P用来描述概念的具体性质,以获取更加完整全面的概念全貌。图2中“p:”表示各类属性。

步骤5 给出具体实例:式(1)中的I表示子类的具体实例,即图2中灰色圆角矩阵所示。

图2 注塑缺陷诊断本体概况(部分)

步骤6 本体反馈完善:自上而下构建的(C1,P1,R1,I1)指导搜集网页,再根据实际网页提炼新 增(C2,P2,R2,I2), 形成最终本体(C,P,R,I)。

4 基于本体引导的领域知识发现方法

构建好领域本体后,可进一步引导网页知识的抽取。整体架构如图3所示,主要包含网页评估、知识抽取和实体对齐3个步骤。首先,基于本体的关键字集合可收集丰富的网页数据,并评估网页的置信度进行筛选;再将其与本体结构结合,以对其内容进行解析,生成属性触发词和关系触发词,提取注塑知识3元组;最后再进行知识归并。

图3 基于本体引导的领域知识发现方法

其中网页采用P R 指标评估,P R值是可查询的标识网页质量的重要标准。其分为10个等级,PR等级越高,表示可参考价值越大。一般来说,PR级别达到4,网页的质量就有所保证,依据该经验,当P R<4时,则剔除。

最终形成的网页集合普遍呈现出结构化程度低、内容分布零散等特点,采用传统的爬虫方法难以提取,为此本文开发出注塑领域基于触发词的语料知识抽取方法。针对“实体-属性-属性值”和“实体-关系-实体”两种3元组形式,可将触发方式分为属性触发和关系触发两类。如图4所示,对于注塑缺陷诊断,依据中文习惯,其属性触发词包括“俗称”“别名”等;同样地,针对关系触发,其触发词包括“办法”“原因”等。

图4 基于触发词的语料知识抽取方法

基于上述分析和举例,容易发现设计的本体父类、子类及关系中包含了大部分触发词。实际上,由于模型是采用本体结构来指导网页的搜集筛选,自然地,网页文本也会反映本体结构中的概念特性,但其蕴含的逻辑知识和推理能力在信息抽取却很少被利用。因此该文提出将本体信息引入到网页文本的解析过程,完成属性和关系触发词的生成,进而实现注塑知识的抽取。具体地,对本体的关键字集合进行属性和关系分类,初始化属性触发词库和关系触发词库。由于本体中包含的触发词有限,可再结合专家经验对触发词进行补充,也可通过观察部分PR值高的网页,进一步补充触发词。一旦确定属性和关系触发词后,则“实体-属性-属性值”和“实体-关系-实体”3元组就可通过分词等方式进行抽取。

知识抽取完成后,可形成相应的知识图谱。此时的知识图谱具有两个特点,一是绝大部分实体具有多重属性,极少量实体不具备属性;二是存在大量相似实体,如“填充不足”与“填充不满”可被认为是相似实体。若不进行相似实体归并,即实体对齐,则知识图谱的查询、推断等应用效率将显著降级。同时由于实体的相似性本质上在于其属性的相似性,因此,可通过利用实体的各重属性来判断两实体是否相似。然而,实体的属性值可能包含词组等短文本,如名称属性、等级属性等;而部分属性值包含具有明显语义信息的长文本,如定义属性。为此,本文针对短文本和长文本同时存在的情况,提出了基于属性相似度的两级对齐方法,以综合提升冗余实体的发现率。图5描述了算法的整体架构。

图5 基于多重属性的两级实体对齐架构

首先针对缺陷俗称、别名等短文本属性进行实体的相似度评估,由于是短文本,可直接比对字符串,当存在某一属性值重合时,即判断为同一实体,结束该对实体的归并过程。若未发现短文本属性值重合,进一步比对两实体的长文本。由于长文本包含丰富的语义信息,需定义基于语义的相似度,为此,首先定义注塑语料库Z,语料库要求能完全涵盖所收集的3元组中的词组,可采用网络爬虫进行搜集,并通过文本清洗、中文分词、去除无关词等操作,最终形成包含N个词组的注塑过程词汇表V={vi},i=1,2,...,N。其中,////为l2范数,余弦相似度越大,表示两者间的语义越接近,越有可能为相同实体。本文选取0.9为阈值,进行相似实体归并,即将对齐的实体的关系链接至保留实体中,对齐实体相对于保留实体的额外属性知识则归并至保留实体中。

5 实验结果及分析

5.1 基于专家经验的注塑知识置信度评估

实验选取9个高质量注塑网页进行知识抽取,最终存储并构建了648条知识3元组,其中包括注塑缺陷、产生原因和解决方案3类实体、“导致”和“作用于”这2大关系以及注塑缺陷实体的多重属性。详细的评估结果如表1所示。

然而基于多源网页抽取的知识并不总是完全准确的,只有经书籍、专家多方评判置信度方能存为图谱知识,具体可划分为书籍重合、新增、争议和错误知识4大类。知识评估时,本文默认与书籍重合的3元组为准确知识;书籍中不存在的3元组,经过先验知识和网络资源多方评估,若准确便纳入新增知识;与书籍矛盾的则归为错误知识;无法判断的则归入争议知识。同时,整个评估过程我们借助专家经验来完成,表1给出了3位不同专家进行知识置信度评估后的结果。

表1 注塑知识3元组的置信度评估

与文献[1]的43类注塑缺陷相比较,本文共抽取到了136个注塑缺陷实体,新增了许多书籍中没有的实体表述,体现了本文基于网页获取知识的多样性和可取性;其次针对抽取到的注塑缺陷实体及其属性,正确率高达98%,只是存在相同实体表述不一的情形;另外三者针对原因和方案3元组的准确率评估均超过90%,知识3元组(包括实体属性和关系3元组)的置信度评估均超过95%,表明了所提抽取方法的有效性。

5.2 与现有知识抽取方法的对比

为了进一步验证本文知识抽取方法的优势,传统单一的爬虫方案和经典Bi-LSTM+CRF的监督类模型[29]也被应用于该节的注塑知识抽取中。其中基于爬虫的知识抽取通过分析网站的HTML代码,进而使用对应表达式提取目标实体;基于深度学习的BiLSTM+CRF模型则事先针对抽取到的9个网站文本进行实体的BIO标注(B和I表示实体开端和中间、O表示非实体),再采用其中6个网页的标注数据进行训练,剩余的3个网页用于知识抽取效果的检验。

图6给出了3种知识抽取方案的各类实体抽取数目和准确率,其中BiLSTM+CRF模型的实体抽取准确率用序列标注准确率衡量,其余方法与标注结果相比较得出。可以看出传统爬虫方案受网页代码层次的制约,只抽取到了少量实体;而BiLSTM+CRF模型的准确率高达77%,但往往因某个标注错误导致整体抽取实体数大大降低,更适用于非结构化知识的抽取;而相比其他两类方案,本文所提的基于本体引导的知识触发抽取方法能够在无需标注语料的前提下,显著提升注塑实体抽取的准确率,有利于后续标注集的快速构建。

图6 采用不同知识抽取方案的效果对比

图7给出了知识3元组(表述不重复)随抽取网页数目的增长曲线。当注塑网页的代码层次不高,但其文本内容有组织时,本文方法能确保无标注语料下的知识抽取效果,且随着抽取网页数量的增加,实体及3元组知识的完备性和规模也在不断提升。

图7 知识3元组随抽取网页数目的增长曲线

5.3 与传统知识融合算法的对比

知识抽取完成后,为了避免不同表述的同一实体共存于图谱中,导致图谱存在冗余信息,本文采用了一种基于多重属性的两级实体对齐算法,在精简知识的同时,也能同步完善补充实体的属性描述。

知识融合效果对比如图8所示。为了验证所提方法的优越性,本文将所提的两级实体对齐方法(Double alignment based on Double properties,DD算法)与仅使用实体名称和单一的字符串(Single alignment based on Single property, SS)对比,基于实体名称的两级对齐(Double alignment basedon Single property, DS),以及使用多重属性的字符串(Single alignment based on Double properties,SD)方法进行比较。不难发现,本文所提DD方法能够提高缺陷实体的冗余发现数目。另外,由于产生原因和解决方案不存在定义等属性,本文只采用SS和SD两种算法验证,实验证明,两级实体对齐算法有效提升了冗余知识的发现效果。

图8 采用不同知识融合方案的效果对比

5.4 实体对齐前后的知识图谱性能对比

图9和图10给出了实体对齐前后的可视化结果,可以看出对齐后的注塑知识图谱更加具有组织性和精简性,反映了本文所提实体对齐方法的有效性。同时精简后的知识图谱再应用于制品缺陷溯因,输入缺陷表观等先验条件,可查询得出具体缺陷类型、产生原因以及合理的解决方案。

图9 实体对齐前的知识图谱可视化示例结果

图10 实体对齐后的知识图谱可视化示例结果

6 结论

针对现有爬虫抽取方案所需结构化注塑网址匮乏、监督类知识挖掘模型缺乏标注语料集,人工开发周期长等问题,本文提出一种基于本体引导的工业知识图谱构建方法。首先,基于注塑过程实际需求和专家经验设计构建注塑本体层,进而实现文本知识的解析抽取;其次利用实体属性相似度对冗余重复实体进行两级对齐,精简知识图谱;最后基于实体对齐后的知识图谱,实现注塑过程表面缺陷的诊断及优化应用。实验结果表明,与专业书籍对比,所构建图谱知识错误率不超过5%,可以准确诊断缺陷类型及原因,快速给出解决方案,是注塑过程专用领域图谱构建的一种新的实践。

猜你喜欢
元组语料本体
基于归一化点向互信息的低资源平行语料过滤方法*
Python核心语法
眼睛是“本体”
针对隐藏Web数据库的Skyline查询方法研究*
一种基于时间戳的简单表缩减算法∗
海量数据上有效的top-kSkyline查询算法*
濒危语言与汉语平行语料库动态构建技术研究
基于本体的机械产品工艺知识表示
对外汉语教学领域可比语料库的构建及应用研究
——以“把”字句的句法语义标注及应用研究为例
国内外语用学实证研究比较:语料类型与收集方法