工业机器人领域数字化标准体系构建方法探索*

2022-02-06 04:16袁梦宗洁琼张正敏
中国科技纵横 2022年22期
关键词:文档社团机器人

袁梦 宗洁琼 张正敏

(上海市质量和标准化研究院,上海 200031)

0.引言

标准体系是指一定范围内的标准按其内在联系形成的科学的有机整体[1],需要周期性动态维护更新。随着新兴行业领域快速发展和分工精细化,传统标准体系构建方法也已经满足不了多元化的市场发展要求。在新技术和产业融合快速发展的背景下,传统标准体系“自下而上”的思维方式,逐渐在新兴行业和跨学科跨产业领域显得力所不及,面临着难以批量处理海量标准数据的窘困。加之标准制修订周期与标准体系制定周期的叠加,时滞效应的累积进一步阻碍了标准化发展。因此,在高新技术和智能制造产业中,如何在海量标准中高效快速实现标准集合划分、服务标准体系构建、助力新型标准体系,是近年来质量和标准化工作的研究重点,也是标准数字化转型研究领域面向标准知识图谱的探索路径之一。

近年来,复杂网络技术、大数据技术被引入到多个研究和行业领域,其系统理论和高效应用得到了学术界的广泛认可[2]。《国家机器人标准体系建设指南》中指出,机器人是先进制造业中不可替代的重要装备,在支撑智能制造、提升生产效率、增进民众福祉等方面发挥着重要作用。因此,本文围绕工业机器人标准,基于该领域的标准引用网络研究基础[3],进一步引入社团发现算法[4],来实现标准集合的划分,再利用关键词抽取算法挖掘标准主题[5],服务标准体系基础层的构建,为数字化手段解决标准体系构建问题提供技术支持。

1.数学模型

基于已建立的工业机器人领域的标准引用网络图及其最大连通子图[6],本文融合复杂网络技术、大数据技术设计标准基础子体系构建模型,利用网络及其最大连通子图的异质性来实现标准社团划分,以数字化手段解决大量标准数据准确、快速、自动划分成标准子体系基层结构。整个模型框架图见图1。

图1 模型框架图

对上述标准引用网络及其最大连通子图,分别统计计算度分布情况,以此为网络结构的异质性检验标准。若两网络结构均为异质网络,则可利用该异质性实施下一步的标准社团划分。

由于网络的异质性和邻居节点累积效应的不同,使得节点合并结果不同,故而对系统贡献的增益量不同。然而,BGLL算法就是以模块度增益ΔQ为度量来实现标准社团划分,即为基于标准引用网络结构异质性、网络连通性,以及引用和被引标准集合等指标,来测算标准合并为系统带来的增效,并以此为度量来实现标准集合自动划分。该算法的迭代过程是“自下而上”凝聚思维的表现之一,在面对大规模稀疏网络时,具有时间复杂度线性优势,结果稳定且较为准确,易于实现,具有较广的发展空间和较高的应用价值。另外,ΔQ的计算,可结合网络属性,如节点间连边的方向、权重等,衍生出许多变式,是一个较为开放灵活的算法。该算法对网络规模容量区间宽泛,故而对行业发展成熟度的要求并不严格,在规模较大和较小的标准引用网络中均可适用。

标准引用网络在构建之初,所有标准文件的标题已预先转化为中文文本,但标题中的停词、通用词语等会被高频使用,对文档主题的确认并没有太大作用,还会增加计算成本,故而本文模型先利用Jieba分词实现文本预处理,实现标题清洗和划分。然后,再利用TF-IDF关键词抽取技术[7],以网络中所有标准标题为语料库,以每个社团内标准标题为关键词集来实现各社团的主题识别。最后,将各社团对应的标准集合与社团主题对已发布的标准体系框架补充完善,形成工业机器人标准体系结构图。

2.概念和算法

2.1 标准引用网络

以“工业机器人”为关键词,在上海市质量和标准化研究院丰富的标准馆藏库中,利用标准与其规范性引用文件,转化为点集、边集和引用关系,生成标准引用网络G1(527,1080),后删除图中规模较小、处于游离状态的标准和连边,提取网络的最大连通子图G2(475,1012)。

2.2 度、度分布和异质网络

在标准引用网络中,节点的度即为标准在系统中的引用关系总数,记为k。度分布是指该网络中标准数与引用关系的分布情况,对标准引用网络的度分布进行拟合,若拟合为长尾曲线,即为幂律分布,它则是异质网络。

2.3 社团

邻居节点指的是与该标准有直接引用关系的其他标准。在网络科研领域,研究人员发现由于节点与节点之间关联强弱的不同,周边邻居节点集的差异等原因,使得具有连接关系的两节点间可能归属不同点线集合,并在结构上表现出,内部关联紧密,外部结构稀疏。此类点线集合,被认为是社团Cj,整个网络视为连通的社团系统Cs={C1,C2,…CK},并要求社团内部节点连通[8]。

2.4 BGLL社团检测算法

Newman等人首先给出了模块度Q的定义,通过比较真实网络与随机网络中各社团的边缘密度差异来度量社团结构的显著性,并用以衡量社团划分结果的好坏。基于模块度优化的社团发现算法研究较早,使用广泛,具有精度高、稳定性好等特点,但在大规模稀疏网络中,往往会带来计算复杂度高,小社团识别度有限等问题。为降低算法的时间复杂度,Blondel等人在模块度Q的基础上提出了一种能够用于加权网络的层次性贪心算法,探测网络层次化社团结构的凝聚算法—BGLL算法[9]。整个算法分为两个阶段:

在网络初始化时,将网络中的每个节点分别作为一个社团。然后对任意相连的社团i,j,计算社团i加入到它的邻居社团j所在社团时,该社团模块度的增益ΔQ,见式(1)。∑in是社团内部所有边的权重和;∑tot是所有与社团内部节点相关联的边的权重和;ki是所有与节点i相关联的边的权重和;ki,in是社团i与社团C相连接的所有边的权重和,m是该网络中的连边总数[10]。

当ΔQ为正值时,选出对应最大值的那个邻居社团,把社团i加入到该邻居社团中;若所有ΔQ为负值,则社团i留在初始社团中。将社团合并过程重复进行,直到整个网络不在出现合并现象,得到划分出的第一层社团。

以第一阶段探测出的各个社团为节点,重塑为加权网络,节点间的连边权重为两个社团间所有连边的权重和。然后,用第一阶段的算法再次对新网络进行社团划分,并以此类推,直到不能划分出更高层次的社团结构为止。

2.5 TF-IDF关键词抽取算法

词频TF(Term Frequency)是指词语在文档中出现的频率,见式(2)。其中,TFi,j表示词条ti在文档dj中出现的频率,ni,j表示词条ti在文档dj中出现的次数。

逆向词频IDF(Inverse Document Frequency)是指该词在语料库中出现的频率,见式(3)。其中,IDFi表示词条ti在语料库中出现的频率,表示语料库中的文件总数,表示包含词条ti的文件数,为保障除数不为零,往往采用代替。

因此,词语i在文档dj中的匹配度,即为它的TFIDF值,见式(4)。其思想是,当一个词在文档中高频出现,又在其他文件中出现频率很低时,表明该词语具有很好的区分能力,可以用来将它所在的文档与其他文档区别开来。

3.实证分析

本文在工业机器人领域,利用图论和复杂网络技术、大数据技术等,借助标准与规范性引用文件的引用关系建立标准引用网络G1及提取其最大连通子图G2。经统计和数据拟合,对G1和G2的度分布均拟合为幂律分布,分别为p(k)= 0 .5576k-1.671和p(k)= 0 .5668k-1.658,幂指数γ分别为γ1= 1.671,γ2=1.658,即为异质网络。因此,利用标准节点的邻居节点集合和连边结构的不同,该网络可以被划分成多个规格不一的小社团。

为排除连通性对结构的影响,本文基于标准引用网络的最大连通子图G2中引入BGLL社团检测算法,基于网络的节点、连边和邻接矩阵等信息,以模块度增益为度量标准,进行自动划分,结果输出24个标准社团。各社团对应标准数量分布情况,如图2所示。

图2 标准社团划分结果分布图

再利用Jieba分词和TF-IDF算法,针对各社团内的标准名称,进行匹配度计算。以G2所涉及的所有标准主题为语料库,以每个社团中包含的标准主题建立相应文档dj,对文档中的词组进行匹配度测算和数据统计,并假设以数据拐点为分界线,提取匹配度较高的关键词,结合每个社团中的标准文件集合和相应关键词,进行人工标记,并汇总为表1。

表1 社团关键词及主题汇总

其中,序号15的社团中仅包含标准文件GB/T 5226.1《工业机械电气设备 第1部分:通用技术条件》,将其纳入“通用技术条件”子体系。序号10和23中涉及标准数量较少,且标准文件标题尚未发现匹配度较高的关键词。序号19和24社团中的标准与材料的焊接有关,属于工业机器人产业链上游的原材料工艺领域。因此,上述社团的标准暂不参与本次标准体系构建。

之后,结合《国家机器人标准体系建设指南》中的机器人体系框架,对上述社团进行梳理,补充标准体系基层结构,如图3所示。基础标准子体系中,发现了与工业机器人部件相关的“机械制图”子体系。检测评定方法中,发现了功能和性能、电磁兼容、安全和质量检测等子体系。零部件中,发现了滚动轴承、电力配置、减速器和传感器4个子体系。整机中,仅发现了“通用技术条件”子体系及相关标准。系统集成中,发现通信规范、无线电和控制局域网3个子体系。

图3 工业机器人标准体系结构图

基于工业机器人标准研制现状,通过实证分析说明了在以产品名称为关键词,并以标准间的规范性引用关系,而建立的标准引用网络模型基础上,可以利用大数据技术、复杂网络技术等,利用数学模型和算法来实现标准集合自动划分,服务标准体系构建,为标准数字化转型提供技术支持。

4.结论

本文在“工业机器人”相关标准集合,以规范性引用关系而建立的标准引用网络基础上,通过设计数学模型引入BGLL社团发现算法,实现了标准集合重新划分;后借助Jieba分词和TF-IDF关键词匹配技术,识别了各标准集合的主题,从而形成了工业机器人标准体系结构图。整个模型实现了对现有标准的自动划分,服务和完善标准体系构建,初步解决了批量处理海量标准数据信息的难题,弱化了长期以来对专家知识和经验的主观依赖,针对标准体系动态更新维护及时性和有效性提出了数字化解决思路。本模型目前仅依靠现有标准基础,因此,将进一步思考标准的强关联性,优化标准集合划分原则,丰富测算指标,力求建立更科学合理、贴近实际情况的智能化标准体系构建模型,为我国的标准数字化转型提供技术支持。

猜你喜欢
文档社团机器人
缤纷社团
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
最棒的健美操社团
K-BOT拼插社团
基于RI码计算的Word复制文档鉴别
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
文学社团简介