基于知识图谱寻优的烟丝含水率控制研究与应用

2021-07-02 12:59郑松潘李晓刚
科学与财富 2021年8期
关键词:知识图谱

郑松潘 李晓刚

摘 要:卷烟制丝过程含水率的控制是保障制丝加工质量稳定性非常重要的环节,为充分挖掘历史生产批次中已有的优质控制模式,本文提出一种基于知识图谱寻优的烟丝含水率控制方法,通过对影响烟丝含水率关键工况的识别,从知识图谱的批次实体出发,抽取和挖掘历史批次和工况的相互关系及关联规则形成知识库,指导批次生产时相关操作参数的下达,改变以往需要部分依靠经验和主观判断的含水率控制模式,显著提升了烘丝前烟丝含水率的合格率和稳定性。

关键词:含水率控制;知识图谱;批次寻优

引言

在卷烟工业制丝环节,烟丝的含水率是评价烟丝质量最重要的参数之一[1-2]。制丝主要生产环节包括松散回潮-润叶加料-切丝烘丝-加香-装箱[3],其中对烟丝含水率有较大影响的工序主要是松散回潮和烘丝[4-5],前者对烟叶进行加水回潮,后者对烟丝进行烘干,但在两道工序之间生产线较长且烟丝需入柜存储,烟丝的含水率在车间环境和不同工况的影响下存在较大波动,无法保证烟丝在烘丝入口时含水率达到工艺要求。

本文通过引入知识图谱的构建,对历史工况进行规则学习,挖掘其中的内在联系,形成历史工况知识库。当车间准备投入生产时,只需提交当前已知的工况数据,寻优模型将给出与当前工况最相似且含水率控制最优的历史批次方案,指导车间进行加水比例等操作参数设置。

1 基于知识图谱构建知识库

1.1知识图谱

知识图谱是人工智能技术的重要分支之一[6-7],它以结构化图的形式描述客观世界中概念、实体及其之间的关系,在这里引入三元组“实体-关系-实体”进行知识表示,每个实体用唯一确定的ID表示,通过“属性-属性值”描述知识实体的内在特性,知识实体之间通过关系构成网状的知识结构,并通过对实体、属性之间的关系抽取,将这些关系形成图谱的边信息最终构成图谱知识库。

1.2实体识别

在构建知识图谱时,首先需要确定图谱中的节点[8],通常采用现实实体作为节点对象,将每个实体作为一个知识单元,在检索寻优时能够返回以实体为单元的相关信息。而在制丝生产过程中,通常以批次为最小生产单元,批次内的各个工况属性之间存在复杂的相互关系,本文将批次实体作为研究对象搭建知识图谱,通过高结构化的数据模型形成知识库后,供后续工况寻优搭建基础。

设用于知识表述的三元组形式为:

TP={E,R,ET} (1)

其中E为所有批次实体的集合,R为实体之间的关系集合,ET为批次实体内所有工况数据的属性集。

1.3关系抽取

实体与属性之间的关系抽取是形成知识图谱的关键[9],本文基于关联分析方法FP-growth进行关联规则的挖掘,构建批次间各个关键工况之间,以及各工况与烟丝含水率之间的关联关系,形成图谱的边信息。

通常关联规则表达式形如“X→Y”,如“松散加水比例为5.6时→烘丝入口含水率为19.5”,则可以认为是一个简单的两种工况属性之间的关联规则。当然,在实际生产环境下,工况属性之间的关系不会这么简单直接,而是通过不同的工况关系相互作用、相互关联而产生不同的生产结果,我们通过挖掘批次及各工况之间复杂的关联规则进行关系抽取。

首先提取上述三元组中的所有生产批次实体作为项目集E={E1,E2。。。En},而T={t1,t2…tm}是所有工况属性的事务集合,每个事务ti包含的项集都是批次E内的工况子集,在关联分析中,包含0个或多个项的集合被称为项集。在关联分析中,通过支持度(s)来表述某个规则在给定所有批次数据集中出现的频繁程度,而置信度(c)则表述在出现X事务的前提下同时含有Y的频繁程度,其具体定义分别如下:

其中,N是批次内所有工况事务的总数。若某工况之间的关联规则支持度较低,则说明其出现的概率较低,实际意义不大,而置信度则度量其可进行推理的可靠性。则关系抽取的主要工作是构建满足最小支持度阈值的频繁项集,和从频繁项集中提取高置信度的规则。

(1)构建频繁项集

FP-growth算法[10]通过构建FP-tree来压缩事务数据库中的信息,从而更加有效地产生频繁项集。FP-tree其实是一棵前缀树,按支持度降序排列,支持度越高的频繁项离根节点越近,从而使得更多的频繁项可以共享前缀。

在此之前,因为工况参数基本是连续的线性数值,如环境温度20℃与20.1℃的0.1℃差異在实际生产中我们认为是可以忽略不记的,而在FP-growth扫描事务数据库时则认为其是两种数据项,会给初始算法构建增加不必要的大量负担。为避免该情况的发生,我们需要对所有工况属性的事务集合T进行数据项的初始化,即给所有工况进行阶段划分,如温度19.5℃-20.5℃均划分入温度20℃的初始事务集内,而精度更高的匹配工作在寻优时完成。

划分好工况数据后,即可对事务集合T按批次进行事务数据库的构建,如表3所示:

首先,对该事务数据库中所有批次的工况项进行一次扫描,计算每一批次生产记录中各种工况的支持度,然后按支持度进行排序,将其中低于支持度阈值的项进行剔除,保留其中的频繁项集L,在此基础上进行二次扫描,构建FP-tree,具体算法如下:

1) 创建tree根节点root,标记为null;

2) 对每条事务集合ti中的工况属性按照已有频繁项集L中的次序排序得到[p/P]格式的频繁项集,其中p表示首个工况项,P表示工况频繁项集中除去p后的剩余工况属性组成的项表,将得到项表逐一插入tree节点;

3) 扫描所有批次下的工况项后,对前缀一致的工况项进行计数加1,不一致则新增一个节点,直至最终FP树形成。

(2)规则挖掘

对形成的FP树从底部开始挖掘其频繁规则。以上图为例,在FP树中以d结尾的子树共2个,分别是<(b:5),(a:3),(d:1)>和<(b:5),(c:2),(d:2)>。假设此处支持度阈值设置为2,而工况d在两个子树中分别为(d:1)、(d:2),则显然d自身是个频繁项(d:3);

从末端d向上延生子树可以挖出(c:2),(b:3),分别满足支持度阈值,则以d为前缀形成频繁项规则(dc:2)和(db:3);

然后再分别递归d的两个分支子树,第1个子树中<b,a>与d同时出现只有1次,记为<(b:1),(a:1),(d:1)>,则不符合支持度阈值需剔除;

而第2个子树中<b,c>与d同时出现有2次,记为<(b:2),(c:2),(d:2)>,则以d为前缀形成频繁项规则(dbc:2);

至此,可以得出以d为前缀的频繁项规则为(d:3),(dc:2),(db:3), (dcb:2)。同理,可得其他节点前缀的频繁规则为(a:3),(ab:3),(b:5),(c:3),(cb:3)。

通过FP-growth构建的生产工况间的关联规则知识库形成后,支持新的批次工况信息的实时导入,实现知识图谱的动态更新,为后续工况寻优提供不断优化的基础库。

2基于知识库的工况寻优

(1)工况导入

在匹配寻优之前,我们需要输入除了加水比例、蒸汽比例等可操作的工况参数,并基于此进行历史工况的寻优以及操作参数的推荐。

其中部分工况信息是已经确定的,例如物料流量、加料比例、当前环境温湿度,以及烘丝入口烟丝含水率标准值等,而部分工况信息则需要进行另行计算或从外部获取,如生产时长=批次重量/物料流量;贮叶时长则需导入MES生产运行系统中的排产计划进行推导;外部未来环境温湿度需要获取当地天气预报数据等,通过一系列的信息维护最终完成工况导入。

(2)规则匹配

在寻优前需对导入的工况进行初始事务集划分,即按前述划分规则进行工况属性的初始化,构造形如“a:(物料流量:2000)、b:(加料比例:3.0)”形式的工况属性项,并依此与知识库中的关联规则进行遍历匹配,定位与导入的工况属性项有高相似度的工况事务集,其中相似度按属性项的匹配数量进行计算,本文将相似度大于80%的工况事务集定义为高相似度。

(3)寻优推荐

当定位到一组高相似度的工况事务集后,需将其对应的历史批次工况进行还原,与本次导入的初始工况作原始数据精度的寻优匹配,将其中相似度最高且满足最终烘丝入口烟丝含水率标准的历史批次进行推荐,车间工艺员与操作工按该批次的加水比例、蒸汽比例数值进行操作设置,即可生产出烘丝入口含水率达标的烟丝。

3应用与结果

(1)应用数据选取

本文选取龙岩烟草工业有限责任公司制丝二区2018年1月1日-2020年12月31日某牌号烟丝在松散回潮、润叶加料、切丝烘丝三个工段共计11240个的生产批次数据进行知识库的构建,并对2021年6月8日-14日实际生产的5个批次基于构建的知识库进行工况寻优应用试验。

(2)应用结果

通过知识库寻优后,5个批次的工况寻优推荐结果如表4所示,其中4个批次都获取到了高相似度的历史批次推荐,并按照推荐值对加水比例和蒸汽比例进行操作设置,而其中1个较极端工况的批次,工艺员也在低相似度工况的辅助下进行了操作参数下达,最终烟丝在烘丝入口的含水率均达到工艺标准要求(19.8±0.5),且含水率与标准的绝对差值平均为0.165。而表5为本文方法应用前后同期烟丝含水率的各项对比数值,可以看出,通过本文工况寻优推荐后的烟丝含水率在合格率和稳定性上都有了一定提升。

4.总结

本文提出一种基于知识图谱寻优的烟絲含水率控制方法,通过对影响烟丝含水率关键工况的识别,从知识图谱的批次实体出发,导入历史生产批次数据,按照FP-growth关联规则算法抽取批次与工况之间的相互关系,挖掘其关联规则形成知识库。当有批次需要生产时,只需提前将该批次已知工况导入知识库进行匹配寻优,即可检索到相似度最高且最终烘丝入口烟丝含水率最接近标准值的历史批次,通过将历史最优批次的相关参数操作进行复刻,显著提升了烘丝前烟丝含水率的合格率和稳定性,同时改变了以往需要部分依靠经验和主观判断的含水率控制模式,以数据驱动企业高质量发展。

但该寻优方法仍存在少数极端工况无法检索到优质历史批次的情况,仍需加以人工辅助,未来将进一步进行极端工况的针对性模型学习,让知识库得到更广泛更有效的应用。

参考文献

[1] 邢蕾. 烟草制丝过程中含水率在线监测及控制改进[D]. 2016.

[2] 尤长虹, 张楚安, 彭传新. 制丝质量评价方法的设计与应用[J]. 烟草科技, 2001.

[3] 魏玉玲, 阴耕云, 李绍臣,等. 几个重要制丝工序对烤烟烟丝填充值和碎丝率的影响[J]. 云南大学学报:自然科学版, 2010(S1):183-186.

[4] 朱东风. 影响松散回潮后烟片含水率的分析与控制[J]. 科技创新导报, 2013(21):94-95.

[5] 羊一涛, 周沅桢, 李杰,等. 烘丝工序物料含水率过程控制评价方法研究[C]// 中国烟草学会学术年会优秀论文集. 0.

[6] 朱记伟, 蒋雅丽, 翟曌,等. 基于知识图谱的国内外BIM领域研究对比[J]. 土木工程学报, 2018, v.51(02):113-120.

[7] Gottschalk S , Demidova E . EventKG: A Multilingual Event-Centric Temporal Knowledge Graph[J]. 2018.

[8] Mai G , Janowicz K , Cai L , et al. SE‐KGE: A location‐aware Knowledge Graph Embedding model for Geographic Question Answering and Spatial Semantic Lifting[J]. Transactions in GIS, 2020, 24(3).

[9] Grainger T , Aljadda K , Korayem M , et al. The Semantic Knowledge Graph: A compact, auto-generated model for real-time traversal and ranking of any relationship within a domain[J]. 2016.

[10] 王新宇, 杜孝平, 谢昆青. FP-growth算法的实现方法研究[J]. 计算机工程与应用, 2004, 40(009):174-176.

猜你喜欢
知识图谱
基于知识图谱的智慧教育研究热点与趋势分析
国内酒店品牌管理研究进展的可视化分析
关键词共词分析法:高等教育研究的新方法