云制造资源文本信息的特征提取与关联分析方法

2020-10-10 01:02王珊珊高新勤魏锋涛
制造业自动化 2020年9期
关键词:项集关键字词条

王珊珊,高新勤,张 辉,魏锋涛

(西安理工大学 机械与精密仪器工程学院,西安 710048)

0 引言

随着云计算、物联网等新兴技术的不断发展,一种面向服务的网络化制造新模式—云制造应运而生[1]。在云制造模式下,制造企业通过云平台,形成一个覆盖面极广的网络资源服务体系[2]。云制造资源是云平台管理的主要对象,是用于产品制造全生命周期中的各种要素,包括硬资源、软资源、计算资源和人力资源等[3]。资源提供方将这些闲置的制造资源上传到云平台,供资源需求方搜索选择。由于云制造资源量大类多,具有分布性、多样性、异构性等特点,若不对云制造资源信息进行任何预处理,会造成存储空间庞大、查询效率低下、与用户期望不匹配等问题[4,5]。因此,如何对云制造资源信息进行统一化描述,已经成为云制造模式落地应用的关键问题[6,7]。

目前,关于云制造资源信息主要有基于语义、基于本体以及基于资源属性的描述方法等。汤华茂等构造了制造资源的分布式语义描述模型,在信息表示的更高层次实现了制造资源粒子的虚拟化描述[8]。汪卫星将制造资源描述问题转化为Web语义描述问题,提出了一种通用的制造资源描述框架[9]。陈友玲等针对云制造环境下资源难以统一描述、资源云池内可用资源更新滞后等问题,提出了一种显形表达资源动态变化的层次环境视频语义模型[10]。李孝斌等研究了元数据本体表示方法,构建了一种基于语义服务建模本体的机床装备资源描述框架[11]。许峰等提出了一种基于云制造平台的“框架建立—框架获取—资源描述”三阶段的资源语义描述,建立了资源服务与服务请求的本体描述模型[12]。程臻等提出了基于本体的资源描述及虚拟化方法,建立了制造资源本体模型[13]。高新勤等建立了云模式下加工设备的制造属性描述模型,提出了基于相似度的加工设备云服务聚类方法[14]。周际锋等以制造软件资源为研究对象,在面向服务的构架下,建立了软件资源属性的描述模型[15]。耿超等将云制造资源描述模型通过映射函数转化成文本信息处理中的形式化模型,提出了一种基于文本信息处理的云制造资源发现方法[16]。Hao等考虑了服务的演化特性,通过添加服务组合,提出了一种面向时间的可重构服务描述方法(T-TRSD)[17]。

已有研究对云制造资源信息的描述、存储、查找等进行了探索,但大多数以字段的形式将云制造资源信息存储于数据库中,对以文本形式存在的云制造资源信息的描述涉及较少。实际上,以段落文本形式存在的资源信息在云制造模式中占有很大比例。本文提出一种针对云制造资源文本信息的特征提取和关联分析方法,为实现云平台上云制造资源的供需准确匹配提供支持。

1 特征提取和关联分析方法

在云制造模式下,不同制造企业在共享资源、寻找服务的过程中,会产生大量纷繁复杂的信息,以段落文本存在的云制造资源描述信息就是其中之一。为了满足用户的使用需求,准确地对文本类资源信息进行描述,并根据存储索引实现快速查找与匹配,云平台服务方需要预先对上传的云制造资源文本信息进行处理,获取其以关键字为代表的关键特征和不同资源信息之间的共性联系,建立关联规则。

图1所示为针对云制造资源文本信息提出的预处理方法,即特征提取和关联分析方法。该方法主要包括两大步骤,第一步是以各个云制造资源描述文本为输入,采用TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆向文本频率)算法,获取它们的关键字,并计算权重值。第二步是对各个云制造资源描述文本进行关联分析,采用基于Apriori算法改进的FPgrowth(Frequent Pattern,频繁模式)算法,对不同云制造资源描述文本之间的关联关系进行分析,获得关联规则,为后续建立云制造资源文本信息的存储索引以及实现云平台上云制造资源的供需准确匹配奠定基础。

图1 云制造资源本文信息的特征提取和关联分析方法

2 制造资源配置评价函数构造

在云制造模式下,以段落文本存在的云制造资源描述信息通常都比较冗长,如果不对其关键字等特征信息进行提取而随意存储,势必造成存储空间庞大且杂乱无序,影响云制造资源供需匹配的效率和准确性。本文以各个云制造资源描述文本为输入,采用TF-IDF算法,获取关键字,并计算其权重值。

TF-IDF是一种信息检索与文本挖掘的统计方法和加权技术,用以评估一个词条对于一个文本集或一个语料库中的其中一份文本的重要程度[18]。词条的重要性随着它在文本中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

在第j个云制造资源描述文本dj中,词频(Term Frequency,TF)是第i个词条ti在描述文本dj中出现的频率,用tfi,j表示,计算公式为:

式中:ni,j为词条ti在描述文本dj中出现的次数;∑knk,j为描述文本dj中所有词条出现的次数总和。

逆向文本频率(Inverse Document Frequency,IDF)是衡量词条ti是否为常用词的权重调整参数,表达词条的类别区分能力,用idfi表示,计算公式为:

式中:|D|为一个语料库中文本的总数;|{j|ti∈dj}|为包含词条ti的文本数量。

如果某一云制造资源描述文本中的高频词条,在所有云制造资源描述文本中呈现低频率,那么该词条可以产生出高权重的TF-IDF。TF-IDF旨在滤除区分度低的高频常见词,保留区分度高的低频词,用tfi,j表示,计算公式为。

采用TF-IDF算法对云制造资源文本信息提取关键词、计算权重值的流程如图2所示。基于已知语料库和结巴分词工具[19],对云制造资源文本信息进行分词处理。在此基础上,执行TF-IDF算法,获取云制造资源文本信息的关键字及权重值,主要步骤如下:

Step 1:文本预处理:利用结巴分词工具对文本信息进行分词;

Step 2:权重值计算:计算词频(tfi,j)、逆向文本频率(idfi)以及权重值(tfidfi,j);

Step 3:提取关键词:滤除常用词,获得有效关键词;

Step 4:关键词输出:按照权重值排序,输出关键字及其对应的权重值。

图2 云制造资源文本信息关键词获取及权重值计算流程

3 文本信息的关联规则构建

云模式下的制造资源由不同的制造企业提供,但它们不是孤立的,相互之间存在着千丝万缕的关联。分析这种关联关系并用于建立存储索引,对于实现云制造资源文本信息的分类存储以及云制造资源的供需快速、准确匹配具有重要的意义。

关联分析是一种简单、实用的分析技术,旨在发现存在于大量数据集中的关联性,其概念和Apriori算法率先由Agrawal等人提出[20]。Apriori算法应用频繁项集性质的先验知识,逐层迭代搜索,用k-项集搜索(k+1)-项集,直到不能找到更高一维频繁项集为止。在Apriori算法的执行过程中,需要多次扫描数据集,且生成大量的候选项集,导致该算法的执行效率低下,时间和空间复杂性提高[21,22]。针对Apriori算法的缺点,Han等在2000年提出了FP-Growth(Frequent Pattern-growth)关联分析算法[23],将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree),但仍保留项集关联信息。

把云制造资源文本信息的关键字及权重值组成的数据集,作为FP-Growth算法的输入事务数据库,经过两次搜索,得到每个事务所包含的频繁项,按其支持度降序排列后压缩存储到FP-tree中。在后续搜索频繁模式的过程中,不需要再扫描事务数据库,在FP-Tree中进行查找即可,不再产出候选模式。

根据频繁项集产生既满足最小支持度又满足最小置信度的强关联规则,置信度的计算公式为:

式中:support_count(A∪B)表示包含项集(A∪B)的记录条数,support_count(A)表示包含项集A的记录条数。

采用FP-growth算法从云制造资源文本信息中获得频繁项集的流程如图3所示,主要步骤如下:

Step 1:设置最小支持度minsup;

Step 2:扫描数据库,得到频繁项集和每个频繁项的支持度;

Step 3:将频繁项集按照支持度降序排列得到频繁项集L(删去支持度小于minsup的频繁项);

Step 4:对于每个频繁项,构造它的条件投影数据库和投影FP-tree;

Step 5:对每个新构建的FP-tree重复Step 4,直到构造的新FP-tree为空,或者只包含一条路径;

Step 6:当构造的FP-tree为空时,其前缀即为频繁模式;当只包含一条路径时,通过枚举所有可能组合并与此树的前缀连接即可得到频繁模式。

最后,计算云制造资源文本信息中频繁项集所对应的置信度值,根据置信度值大小产生关联规则。

4 实例分析

4.1 云制造资源文本信息

图3 云制造资源文本信息的频繁项集获取流程

在云制造模式下,云制造资源的文本信息通常由资源提供方上传到云平台,然后由云平台服务方对其进行特征提取和关联分析的基础上,按索引分类存储后供资源需求方搜索、选择和使用。如图4所示,以硬制造、软制造以及计算等三类云制造资源的文本信息为例,验证本文所提理论和方法的可行性。其中,硬制造资源为数控加工中心、数控磨床和数控铣床,软制造资源为AutoCAD、SolidWorks和UG,计算资源为中央处理器、输入输出设备和华为云。

图4 云制造资源文本信息

4.2 获取关键字及权重值

利用Eclipse软件,基于Java语言编写TF-IDF算法程序,以三类云制造资源文本信息为输入,提取关键字,计算权重值并按大小进行排序。程序运行结果如图5所示,三类云制造资源文本信息的关键字及权重值如表1、表2和表3所示。

图5 关键词及权重提取结果

表1 硬制造资源文本信息的关键字及权重值

表2 软制造资源文本信息的关键字及权重值

表3 计算资源文本信息的关键字及权重值

4.3 构建关联规则

利用Eclipse软件,基于Java语言编写FP-Growth算法程序,挖掘三类云制造资源文本信息关键字的频繁项集。设置最小支持度minsup=2,以硬制造资源文本信息为例,程序运行结果如图6所示,频繁项集以及置信度如表4所示。

图6 硬制造资源文本信息频繁项集获取结果

基于计算所得的置信度对所有频繁项集进行分析,硬制造资源组“机床-数控-加工”之间具有强关联规则。软制造资源组和计算资源组的强关联规则分别是“设计-产品-解决方案-用户”与“计算机-数据-操作”,具体过程不再赘述。云平台服务方可根据关联规则分类存储云制造资源文本信息,资源需求方可按照关键字搜索、选择和使用云制造资源。

表4 硬制造资源文本信息的关联规则

5 结语

随着先进制造技术与信息技术的深度融合,云制造成为了智能制造发展的新模式。在云制造模式下,存在着大量的云制造资源信息,对它们进行统一化描述,直接关系到云制造资源的存储与匹配,是云制造模式落地应用的关键所在。本文针对以文本形式存在的云制造资源信息,提出了一种特征提取和关联分析方法。对云制造资源的文本信息执行TF-IDF算法和FP-Growth算法,获得关键字及其权重值,在频繁项集挖掘与置信度分析的基础上构建了云制造资源文本信息的关联规则,最后通过实例验证了本文所提理论和方法的可行性。随着云制造资源文本信息的增多,关联规则将得到不断丰富。本研究为云制造资源的分类存储、按关键字快速匹配提供了有力支持,后续将进一步完善权重值的计算方法,确保云制造资源文本信息的特征提取与关联分析更加高效。

猜你喜欢
项集关键字词条
履职尽责求实效 真抓实干勇作为——十个关键字,盘点江苏统战的2021
基于共现结构的频繁高效用项集挖掘算法
利用简单的公式快速分隔中英文词条
成功避开“关键字”
基于矩阵相乘的Apriori改进算法
不确定数据中的代表频繁项集近似挖掘
智能垃圾箱