电力设备缺陷文本质量保证与评级软件的开发及应用

2022-08-09 00:53李彦儒王慧芳张佳丽谢雅雯
浙江电力 2022年7期
关键词:图谱评级合格

李彦儒,王慧芳,陈 昊,张佳丽,江 帆,谢雅雯

(1.浙江大学 电气工程学院,杭州 310027;2.国网浙江省电力有限公司金华供电公司,浙江 金华 321017;3.国网浙江省电力有限公司新兴科技有限公司,杭州 310000)

0 引言

随着经济的快速发展,电网设备持续增加,巡检任务的工作量和工作难度与日俱增。电网设备持续增加,智能化、自动化技术不断引入电网[1-2],为提高巡检人员的工作效率和准确性提供了支持。

电力设备缺陷记录是描述电力设备从发现到消除缺陷这一闭环工作过程中相关信息的记录,通常包括发现人、发现时间、缺陷内容、缺陷等级、消缺人和消缺时间等内容。其中大部分内容是客观的不易出错,主观性强也最易出现问题的是缺陷内容和缺陷等级。缺陷内容是对缺陷情况的描述,俗称缺陷文本[3-4],通常包括缺陷发生的部位、现象和程度等的详细描述;缺陷等级是对电力设备缺陷严重程度的判断,国家电网有限公司发布的输变电一次设备缺陷分类标准(以下简称“标准”)[5]中将其分为一般、严重和紧急3 类。巡检人员发现缺陷时,需要撰写缺陷文本并进行缺陷评级,且两者应相对应。缺陷文本不仅是缺陷评级的依据,还是后续消缺处理的依据。然而,目前缺陷文本的质量缺乏刚性约束,内容详略由记录人员的经验和习惯决定[6],因此常出现文本质量问题,如描述不准确、重点不突出和表述模糊等,即质量问题有个性化特点。这种情况不仅使缺陷发现者难以提高认知并快速获得经验,还影响消缺人员对缺陷的理解,甚至影响消缺资源的配置和处理效率,对消缺工作产生不利影响。因此,急需智能化工具为电力设备缺陷文本的质量保证与评级工作提供有效的帮助与指导。

目前,基于NLP(自然语音处理)与人工智能的缺陷文本质量保证和评级研究已经取得了很多成果[7-12]。在质量保证方面,文献[7]提出了3种质量评价指标,通过基于层次-自适应灰色关联分析法的评价方法对缺陷文本进行打分;文献[8]提出了电力设备缺陷文本知识图谱的构建方法,并根据缺陷文本在知识图谱上的路径查找结果,判断质量是否合格。在缺陷评级方面,文献[9]设计了基于CNN(卷积神经网络)的缺陷自动评级模型,取得了较好的分类精度和效率;文献[10]采用基于注意力机制的Bi-LSTM(双向长短期记忆网络)模型,也取得了较好效果;文献[11]提出了基于“左贪心”出栈规则和神经网络依存关系状态转移模型,查找相似的历史缺陷进行缺陷评级;文献[12]将标准表示成树结构,运用树路径匹配算法与缺陷文本匹配,实现缺陷评级。这些研究都取得了很好的成果,为后续研究提供了方法参考,但是还没有进行工程化的应用开发。

本文针对电力设备缺陷文本质量保证和评级工作缺少智能化工具的问题,提出开发基于标准和历史缺陷的电力设备缺陷文本质量保证与评级软件,进行了需求分析、流程设计和关键模块的详细设计,并运用算例展示了应用效果。

1 需求分析

电力设备缺陷文本质量保证与评级软件(以下简称“软件”)应为用户(如巡检人员)提供完成工作流程的功能,并对可能出现的困难提供帮助。为此,分析用户与软件之间的信息交流关系,绘制数据流图如图1 所示。图1 中,用户输入缺陷文本,软件进行文本质量分析。若质量合格,软件继续进行缺陷评级,将缺陷等级和评级依据返回给用户;若质量分析发现存在质量问题,则把具体的质量问题及修改建议返回给用户。用户依据返回结果对缺陷文本进行修改,修改完毕重新提交给软件,由软件重新进行质量分析,如此反复,直到软件判断缺陷文本质量合格,最终完成缺陷评级。

图1 数据流

因此,软件应具备以下两大功能:对录入或修改后的缺陷文本进行质量分析,对不合格的文本给出修改建议,直到质量合格才能进行评级,进而实现缺陷文本质量的智能管控;对质量合格的缺陷文本进行缺陷自动评级,并给出相应的评级依据。

上述缺陷文本质量分析与自动评级的依据主要有两类:

1)国家电网有限公司总结已有缺陷情况发布的标准。标准中的缺陷文本结构清晰,缺陷等级判断准确,因此标准对于缺陷文本的研究,特别是缺陷评级起到至关重要的作用。但是标准往往包含一些重要或常见缺陷,因而难以覆盖所有缺陷,具有准确而不全面的特点。

2)已上报缺陷汇总得到的历史缺陷。绝大多数的现场缺陷通常都能从中找到相同或相近的缺陷文本,因此参考历史缺陷对于经验和知识不足的巡检人员来说,具有全面性[13]。特别是对于还未被纳入标准的缺陷,历史经验成为对其评级的主要参考来源。然而,历史缺陷由于是人工输入和评级的,难免带有主观性,规范性和严谨程度难以保证,因而具有全面但不一定准确的特点。

由此可见,两类依据的优缺点是互补的。因此,在进行缺陷文本的研究时,既要考虑标准,又要考虑历史缺陷,若缺陷在标准覆盖范围内,则以标准为依据;否则以历史缺陷为依据。

2 流程设计

由需求分析知,需分别针对标准和历史缺陷两类依据来实现需要的2 个功能。由于依据不同,实现方法存在差异,为此主要有4 个关键功能模块:基于标准的文本质量分析、基于标准的缺陷评级、基于历史缺陷的文本质量分析、基于历史缺陷的缺陷评级。然而,关键功能模块的使用流程与用户期望的软件交互过程有关,为此提出两种可能的交互流程,如图2所示。

图2 软件流程设计

流程1考虑标准准确而不全面的特点,输入文本直接进入基于标准的质量分析模块后,很可能由于不在标准覆盖范围内而被判断为存在质量问题。此时即使依据标准给出修改建议,也往往与实际缺陷情况不符,难以修改。为此,用户可以选择是否直接进行基于历史缺陷的质量分析,若选择是,则进行基于历史缺陷的质量分析;否则进行基于标准的质量分析。两类质量分析若发现存在质量问题,则分别针对各自的依据给出修改建议;否则分别进行缺陷评级并给出评级结果和依据。

流程2考虑标准的优先级高,为此按优先级顺序,对缺陷文本直接进行基于标准的质量分析。若质量合格,则基于标准进行缺陷评级,并输出评级结果和依据;若质量不合格,则自动进行基于历史缺陷的质量分析。若基于历史缺陷的质量分析认为质量合格,则进行基于历史缺陷的评级,并同时输出基于标准的修改建议和基于历史缺陷的评级与依据,供用户参考并决定是否还要进行向标准靠拢的缺陷文本修改;若基于历史缺陷的质量分析认为质量不合格,则同时输出基于标准和基于历史缺陷的两种修改建议,供用户综合参考后修改缺陷文本。

上述两种流程都可以通过输入或修改缺陷文本反复触发,直到获得缺陷等级和评级依据。在反复修改和触发流程的过程中,用户不仅能不断积累经验获得专业方面的提升,还能保证缺陷文本质量和评级准确,为下一步的消缺工作提供有价值的指导。至于具体选择哪种流程,可以由用户根据自己对标准和当前缺陷的熟悉程度决定,通过软件界面上设置的动作按钮实现,选择单一分析模式“基于历史缺陷分析”或“基于标准缺陷分析”则进入流程1;选择“综合分析”则进入流程2。

3 关键功能模块的详细设计

在软件要实现的两个功能中,缺陷自动评级相对简单,找到与输入文本相同或相近的标准和历史缺陷,获得其缺陷等级即可。但是对于文本质量分析,质量合格与不合格的文本在相似度上的差别可能比较微小,尤其是设备、部件等关键信息还有简称和代称等情况,都会影响输入文本中有效信息的识别精确度。考虑到缺陷文本中的缺陷位置描述存在层级关系,有一定的逻辑性,因此可以用树结构或图结构对其进行表示,进而基于逻辑关系开展文本质量分析研究,从而提高文本质量分析的效果。

3.1 基于标准的文本质量分析和缺陷自动评级

3.1.1 文本质量分析

标准中的缺陷文本层级关系非常清晰,可以采用树结构表示。参考文献[12]的方法,根据标准的设备分层和从属关系,将其转化为根节点之下的8层树结构:第1层是10种设备类型;第2—5层是由大到小的设备部件层级;第6层是缺陷现象;第7 层是缺陷程度;第8 层是缺陷等级。因此,标准树上每条完整的树路径对应一条标准。将标准树的各层数据按照设备类型分别存储在对应的10个Excel文件中,调用这些Excel文件即可生成标准树。

进行基于标准的文本质量分析时,假设设备类型已由用户选择,据此进行初始化的定义工作,包括:统计设备类型包含树路径的总数N;定义匹配到树路径的数量M,初值赋为N;定义树路径匹配的备选节点的层数i,初值赋为1,即设备类型层;定义匹配到的备选节点数量K,初值赋为1,即只有设备类型这一个备选节点。用户输入缺陷文本后,软件先对输入文本进行分词,设备类型作为首层备选节点,将它的子节点与输入文本进行匹配,将匹配到的节点加入下一轮匹配的备选节点,从上到下逐层进行匹配,匹配过程即是逐步缩小输入文本对应的标准范围的过程,一直匹配到第7层,即得到完整的树路径,匹配到的第7层节点数即为匹配到的树路径数量。若匹配到的树路径唯一,说明输入文本质量合格;否则输出匹配结果和建议。详细的基于标准的文本质量分析过程采用如图3所示流程。

图3 基于标准的文本质量分析过程

匹配结果有以下3种:

1)M=1,说明匹配到唯一一条标准,输入文本质量合格,该标准即为评级依据。

2)M=N,说明没有匹配到任何节点,只能建议用户进行基于历史缺陷的质量分析。

3)1

3.1.2 缺陷自动评级

输入文本被基于标准的文本质量分析判定为合格,说明它在标准树上能够匹配到唯一一条标准。那么,这条标准的缺陷等级就是输入文本的缺陷等级,标准即为评级依据,将它们反馈给用户即可。

3.2 基于历史缺陷的文本质量分析和缺陷自动评级

3.2.1 文本质量分析

由于历史缺陷的复杂性和不规范性,对其中的有效信息进行研究相对困难。文献[8]提出了构建电力设备缺陷文本知识图谱的方法,知识图谱方便实现逻辑推理[14],为基于历史缺陷的文本质量分析提供了方法。

文献[8]中定义了组成知识图谱的4 类实体词汇:描述电力设备的名词En、描述缺陷现象的动词Pv、描述缺陷程度的副词Pad、描述缺陷程度的量词Pq以及它们之间的关系,不同实体词通过具体的关系形成三元组。据此可以将知识图谱以三元组表的形式进行存储,在使用时通过调用三元组存储文件即可生成所需的电力设备缺陷文本知识图谱。在知识图谱图结构上,实体词对应节点,关系对应节点间的有向边,一条合格的缺陷文本对应唯一一条完整的路径[8]。因此输入文本在知识图谱上的路径查找结果可以作为其是否合格的判断依据,要求:

1)完整的路径必须有En 和Pv 节点,且有En节点与Pv节点相连接。

2)存在Pad或Pq节点时,它们必须与Pv节点相连接。

3)En节点之间形成单树支。

这为路径查找和文本错误类型的定义提供了基础。

同样假设设备类型已由用户选择,用户输入缺陷文本后,软件先对输入文本进行分词、词性标注、同义词转化,并标记输入文本在知识图谱上对应的节点,根据节点进行路径查找。分词和词性标注需要使用电力本体字典[15]文件辅助jieba分词,文件中每一行是一个实体词及其词性,如“主变压器En”;同义词转化是由于知识图谱中共指消解的需求,参照同义词文件将同义的实体词转化为标准词,每一行是一组同义词,每行的首个词汇是标准词,如“压力释放阀 释压阀”代表“释压阀”的标准词是“压力释放阀”。这2个文件在构建知识图谱过程中已形成并使用[13]。进行路径查找时,先检查这些节点是否符合要求1)和要求2),依据是三元组表中的实体词间的关系;然后根据要求3)从与Pv节点相连接的En节点(缺陷现象发生的位置)开始自下而上的查找En 节点间的路径。路径查找结果有如下3 种:路径唯一存在,说明输入文本质量合格;路径不唯一,无法确定发生缺陷现象的位置的具体信息,文本质量不合格,对含有多个上级的En 节点进行提示,返回“En节点+对象不唯一”;有一些En节点孤立于路径之外,说明它们包含的部件不应该发生这样的缺陷现象,输入文本可能存在问题,返回“En 节点+无对应现象”。

详细的基于历史缺陷的文本质量分析过程采用过程设计语言进行描述,具体如下:

ge(t设备类型)

选择设备类型所对应的三元组存储文件生成该设备类型知识图谱

ge(t输入文本)

对输入文本进行分词、词性标注、同义词转化

标记输入文本在知识图谱上对应的节点

对节点类型是否符合要求进行判断

if没有Pv节点then

质量不合格,输出“缺现象或现象未录入”

else if没有En节点then

质量不合格,输出“缺对象”

end if

对Pv节点与其他节点间的关系是否符合要求进行判断

if对于某一个Pv节点没有与它相连接的En节点then

质量不合格,输出“Pv节点+无对应对象”

else if 存在Pq 节点and 对于某一个Pq 节点没有与它相连接的Pv节点then

质量不合格,输出“Pq节点+无对应现象”

else if 存在Pad 节点and 对于某一个Pad 节点没有与它相连接的Pv节点then

质量不合格,输出“Pad节点+无对应现象”

end if

查找En节点间的路径

if存在多条路径then

质量不合格,对所有路径进行分析,找出所有含有多个上级的En 节点,输出“En 节点+对象不唯一”

else if存在孤立于路径之外的En节点then

质量不合格,输出“En节点+无对应对象”

end if

质量合格,得到输入文本在知识图谱上的路径

end基于历史缺陷的质量分析

3.2.2 缺陷自动评级

文献[13]认为,若两条缺陷文本在知识图谱上对应的路径一致,则它们描述的缺陷情况完全一致。据此提出根据质量合格的缺陷文本的路径检索出与其路径相同的所有历史缺陷,这些历史缺陷的缺陷等级可以作为输入文本的评级依据。

在软件测试过程中发现,根据知识图谱进行的缺陷评级存在以下问题:

1)历史缺陷数量较多,查找出所有历史缺陷的路径后,再与输入文本的路径进行对比则耗时较长,且部分历史缺陷由于存在文本质量问题而无法查找到路径。

2)历史缺陷中,存在实体信息完全相同但缺陷等级不同的情形,是不同评级人员的经验和判断不同造成的。

针对问题1),可以先对所有历史缺陷进行路径查找,将能够查找到完整路径的缺陷文本与它们的路径和缺陷等级保存在单独的文件(如Excel表)中。以后使用时,只需将输入文本的路径查找结果与该文件中的路径相对比,就能够根据路径的一致性,检索出与输入文本描述情况一致的所有历史缺陷,继而根据它们的缺陷等级进行输入文本的缺陷评级。

针对问题2),对查找到的所有历史缺陷的缺陷等级进行数量统计,选择数量最多或者数量相等时情况最重的等级推荐为缺陷评级。对于评级依据,不仅要反馈3种缺陷等级统计到的具体数量信息,还应向用户展示检索到的所有历史缺陷。

4 算例展示

采用某公司提供的5 000 条变压器缺陷记录,构建电力设备缺陷文本知识图谱。以其中出现的缺陷现象“呼吸器硅胶变色”为例,在这些缺陷记录中寻找到一些详略不一的缺陷文本,用来展示软件的信息反馈情况。输入的缺陷文本编号及内容,输出的质量分析、缺陷评级与反馈信息结果如表1所示。

对于软件而言,当输入文本被基于标准的文本质量分析认为合格时,流程2的反馈信息与流程1中“基于标准缺陷分析”模式的反馈信息相同;不合格时,流程2的反馈信息是流程1中两种模式的反馈信息的加和。因此,对于同一条输入文本,表1只同时展示流程1中两种模式的反馈信息。

表1 输入文本在两类研究依据下的质量分析、缺陷评级情况与反馈信息

在基于标准的质量分析被认为不合格时会反馈匹配到多条标准,它们在标准树的较高层级普遍是相同的,从某一层级开始出现差异,因此使用加粗字体表示对开始出现差异的层级进行特殊标记。在完成基于历史缺陷的缺陷评级后,会向用户反馈检索到的所有历史缺陷。考虑篇幅,在这两种情况下均仅展示其中的1条标准或历史缺陷作为示例。

文本1信息非常不完整,两类依据的文本质量分析都认为它不合格,无法进行缺陷评级。基于标准的文本质量分析一共匹配到了4 条相关标准,出现差异的第一层是“油浸变压器”的下一层,可能是“本体”或“分接开关”;而基于历史缺陷的文本质量分析,从发生缺陷现象的En节点开始向上一级节点进行查找,发现“呼吸器”有多个上级之后,给出的修改建议为“呼吸器对象不唯一”。

文本2 相较于文本1 增加了中间层级“有载开关”,设备层级关系更加精确。由标准树层级的逻辑性,能够找到发生缺陷现象的部位是有载开关的呼吸器。然而,文本2没有描述“硅胶变色”的程度,因此标准树第7 层的两个节点都成为备选节点,匹配到2条标准,判断质量不合格。考虑到不同缺陷现象的详略差别,基于历史缺陷的文本质量分析不强制要求存在缺陷程度的描述,认为其合格之后,根据历史缺陷的缺陷等级数量统计情况,将数量最多的“一般”作为评级结果。

文本3相较于文本2虽然增加了关于缺陷程度的描述“超过2/3”,却不够详细,在基于标准的文本质量分析中,没有与第7层节点匹配,仍然不合格。但是对于基于历史缺陷的文本质量分析,由于记录人员普遍性的省略,这种详略状况的描述已经可以帮助文本3 增加一个与Pv 节点“变色”相连接的Pq节点,从而改变了检索到的历史缺陷。

文本4在基于标准的文本质量分析中能够找到缺陷现象发生的部位,并且由于缺陷程度描述“自上而下”匹配到了第7 层的节点,因此匹配到了唯一一条标准,质量合格,缺陷评级为“严重”。通过对比文本3、文本4可知,标准中对于缺陷程度的描述(标准树第7层)通常比较详细,采用文本相似度或关键词匹配法难免会错判,导致较多输入文本被判断为不合格,因此有必要提供两个流程供用户选择。文本4在基于历史缺陷的评级中,统计到“一般”与“严重”的数量相同,选择情况较重的“严重”作为缺陷等级,与基于标准的评级一致。由此可以合理推测,存在历史缺陷的数量统计结果与标准的缺陷等级不相符的情况,即标准中缺陷等级为“严重”的缺陷文本4,在历史缺陷的数量统计结果可能是“一般”最多,故而被评级为“一般”。因此对于基于历史缺陷的评级结果不可全信,在标准覆盖范围内应该坚持以标准为主。

5 结语

本文提出开发基于标准和历史缺陷的电力设备缺陷文本质量保证与评级软件,并进行了需求分析、流程设计和关键模块的详细设计。应用算例展示反馈信息来表明软件的应用效果和实用价值。该软件通过交互方式实现了输入缺陷文本的质量智能管控和自动评级功能,为电力设备缺陷闭环管理和运检智能化水平的提升提供了有力支撑。

猜你喜欢
图谱评级合格
基于图对比注意力网络的知识图谱补全
绘一张成长图谱
图表
不合格的洗衣工
分析师最新给予买入评级的公司
主动对接你思维的知识图谱
做合格党员
句子的合格与不合格
创投概念股评级一览表
《钱经》月度公募基金评级