基于决策树和正交试验设计的打叶复烤工艺参数优化

2020-12-07 08:48黄小艳赵广仁黄晶谢俊力贾智伟
天津农业科学 2020年9期
关键词:参数优化正交试验决策树

黄小艳 赵广仁 黄晶 谢俊力 贾智伟

摘    要:打叶复烤过程的工艺参数设置是稳定烟叶质量的关键,为了提高烟叶质量的稳定性,本文提出了一种基于决策树与正交试验设计的参数优化方法。使用决策树算法模型挖掘与分析打叶复烤历史数据的工艺参数与出口水分指标之间的关系,得到工艺参数对指标的影响权重排序,由此设计因素水平表进行正交试验设计,根据试验结果对决策树模型进行验证与修正,并获得较优参数组合,现场验证表明修正后的预测结果与实际相比误差小于5%,所获得的参数组合充分满足现场需求。

关键词:打叶复烤;参数优化;决策树;正交试验

中图分类号:TS443          文献标识码:A          DOI 编码:10.3969/j.issn.1006-6500.2020.09.015

Abstract: The setting of technological parameters in threshing and redrying process is the key to stabilize the quality of tobacco leaves. In order to improve the stability of tobacco quality, a parameter optimization method based on decision tree and orthogonal experimental design was proposed. The decision tree algorithm model was used to mine and analyze the relationship between the process parameters of threshing and redrying and the export moisture index from historical data, and the influence weight of the process parameters on the indexes was obtained. The orthogonal experiment design was carried out by designing the factor level table. According to the experimental results, the decision tree model was verified and modified, and the optimal combination of parameters was obtained. The field verification showed that the modified model was feasible since the error between prediction and the actual results was less than 5%, and the obtained parameter combination fully met the field demand.

Key words: threshing and redrying; process parameter optimization; decision tree; orthogonal experiment

打叶复烤是卷烟生产加工中不可缺少的一部分,稳定烟草打叶复烤质量一直是企业面临的重要问题,合理设置工艺参数是解决这一问题的有效方法。在烟叶打叶复烤加工过程中,烟叶水分的稳定性是多年来业界关注的重要课题,加工设备的工艺参数设置通常为现场技术人员根据经验和现场临时情况进行调整,囿于现场人员的经验和能力差异,烟叶水分指标常常难以达到理想水平。因此,这一过程中的工艺参数优化成为关注的重点。杨洋等[1]利用层次分析法(AHP)和正交试驗对指定的烟叶进行检验,经过多组对比试验,得出能显著提高烤烟品质的参数组合。通过设置不同的润叶参数并观察润二的出口烟叶温度变化,徐国金[2]发现,适当增加风机频率和润叶段的蒸汽用量可以显著改善出口的湿度和温度。吴芳等[3]对3种不同产地的烟叶试验了11组的不同来自经验的参数组合,试验结果与唐莹[4]的研究结果类似:针对不同产地的烟叶原料,适合的工艺参数设置会让打叶复烤的质量水平得到较大提高。刘彦岭等[5]采用均匀试验与多元线性回归分析建立了润叶段的2个指标与各工艺参数的调整模型,该模型可以准确地控制和优化润叶效果。然而,这些参数优化研究大多是基于现场人员或企业的经验,即使较少的模型建立与分析,数据也来源于根据经验参数设置得到的指标,对历史数据的挖掘不够,所设计试验代表性存在问题,因此,本文通过采用决策树方法对历史生产工艺参数与出口湿度关系进行分析和建模,选取重要工艺参数建立因素水平表,设计正交试验方案,验证并修正模型,获得最优参数组合,采用现场试验对最优参数组合进行检验。

1 材料和方法

1.1 试验材料

郴州复烤厂2019年全年生产工艺参数及烟草指标数据,包括A3CD1、A2CD2、A4CH1、B3F、C3F、C2FABCD等烟叶等级。全年工艺参数记录119 472项,每项记录包括润叶区8项参数、打叶区5项参数、复燥区13项参数,相当于打叶、复燥区26项参数。正交试验和最后验证采用材料为郴州C3F。

1.2 系统概述

算法设计如图1所示。对原始历史数据进行预处理后,用决策树进行训练,通过输入参数组合预测输出,建立决策树模型。根据模型所得的工艺参数重要性排序设计正交试验方案。依据正交试验结果修正决策树模型,并进行极差分析获得最优参数组合,利用改进的决策树模型对指标进行预测和验证。

1.3 数据预处理

烟叶的工艺参数及理化指标数据来源于打叶复烤过程中的生产线数据采样采集系统。这些数据直接反映了烟叶在打叶复烤过程中的实时情况。由于该过程由多个生产环节组成,数据预处理阶段应消除异常值和缺失值,为后续的模型训练和数据挖掘提供高质量的数据。

根据打叶复烤工艺参数的顺序构造输入空间X,空间的向量为x(x1,x2,…,xp ),p=26,。打叶复烤的质量指标主要由烟叶产量水分值决定,计算公式如下:

一般优化的目标为Y = 12%[6]。

1.4 数据处理

对郴州复烤厂2019年之前的历史数据按照70%和30%的比例进行抽取,分别作为CART决策树[7-8]的训练集和测试集,获得工艺参数特征对烟叶出口水分的映射,采用机器学习方法Scikit_learn 模块中的Decision tree Regression模型对训练数据集进行拟合。

回归过程中,为了使决策树回归模型最优化,主要对模型里的超参数max_depth(树最大深度)进行优化[9-10]。为了更好地评估回归模型的性能,将使用均方根误差(RMSE)、平均绝对误差(MAE)作为模型指标,定义如下:

其中均方根误差(RMSE)对回归中的特大特小误差反应非常敏感,能够很好地反映出回归的精确度,而平均绝对误差(MAE)则能较好的描述预测值与实际值的离散程度。

1.5 算法模型评价

表1是经过决策回归树模型不同超参数的优化之后的实际值和预测值的均方根误差、平均绝对误差和出口水分特征的精确度的对比。由表1可知,对于多维度的输入样本X,决策树模型经过优化后最好的精确度达到95.91%,说明 CART决策树回归算法对训练集和验证集具有较好的适应性。

表2是精确度最高时(max_depth=10)决策树模型的特征重要度排序,表示模型中对出口水分指标影响较大的的工艺参数的排序,由于指标涉及到26个不同的参数,同时每个变量的取值范围都比较大,所以难以使用遍历方法来对参数的范围和水平选取进行优化,根据现场需求,设计正交试验方案求取最优参数组合。

1.6 基于特征重要度的正交试验设计

正交试验设计是研究多因素多水平的一种试验设计方法。当试验涉及的因素在3个或3个以上,而且因素间可能有交互作用时,试验工作量会变得很大,甚至难以全面实施。针对这个困扰,正交试验设计是一种更好的选择。正交试验设计的主要工具是正交表,根据试验的因素数、因素的水平数以及是否具有交互作用等需求查找相应的正交表,依托正交表从全面试验中挑选出部分有代表性的点进行试验,可以实现以最少的试验次数达到与全面试验等效的结果。针对本次试验的多维度多水平的实际情况,采用正交试验设计,既能在满足试验条件的同时又能保障烟叶复烤厂的经济效应性[11-12]。

应用决策树模型得到工艺参数特征重要度排序(表2)后,考虑到生产现场可提供的烟叶试验次数有限,每个因素选取3个水平,根据生产现场技术人员的实际经验确定各因素的水平取值,获得9因素3水平的正交设计表L27(93)(表3)进行正交试验设计。对应的具体工艺参数选择实施方案见表4,针对不同的工艺参数组合,利用决策树模型可以预测相应的出口烟叶水分值,同样列在表4中。

2 结果与分析

对表4中的正交试验方案进行现场检验可以获得对应出口水分实际值,与预测水分值相比,两者存在一定的差距,因此将所获得的27组现场数据以2∶7的比例分别加入训练集和测试集,加大训练集中现场数据的权重后重新训练,获得的新的预测值与实际出口水分值得对比如图2所示,两者差距小于5%。相同等级(郴州C3F)叶片理化特性的年际差异可能是造成这种差异的主要原因,符合现场的实际情况,验证了决策树模型的适应性。

根据正交试验设计组合,采用极差分析法对正交试验方案对应结果进行分析。因子A的K1为A第一水平因素对应的各试验指标之和的平均值。由于本试验不考虑交互作用,因此3组方案A1、A2、A3在相同试验条件下执行。如果A对试验指标没有影响,那么输出KA1, KA2, KA3理论上应该是相等的,如果实际上不相等,KA1均值、KA2均值和KA3均值的值分别反映了A1、A2和A3对试验指标的影响。由于水分值应尽可能接近12%(实际要求),笔者单独调整A,使A因素的水平达到最优,其他因素的最优水平也用相同方法得到。

极差分析法得到的最优参数组合如表6所示。对应的决策树模型预测的水分值为12.44,现场试验值为11.93,差值为0.51,相对误差为4.27%,满足现场要求。

3 结论与讨论

由于历史数据均来源于正常生产的历史记录,相应的工艺参数设置往往由现场经验决定,参数范围具有局限性和不完整性的特点,所以基于历史数据的决策树模型泛化能力存在天然的不足,特别当试验参数与现场经验参数设置相差较大时,预测结果可能与现场试验结果相差较大。改善这一问题的有效方法是扩大历史数据的取值范围以及样本数量。

本研究采用决策树模型对打叶复烤工艺参数与出口水分的关系进行建模,以工艺参数为自变量,出口水分指标为因变量形成映射,并对模型超参数进行最优化,优化后模型精确度为95.91%。由于可供试验的次数较少,根据决策树模型的特征重要度获得工艺参数的重要性排序,由此设计正交试验方案,根据正交试验结果修正模型,并采用极差分析获得最优参数组合,将该工艺参数组合的现场试验结果与模型预测进行对比,发现误差为0.51,相对误差小于5%。这一对比表明所采用的决策树模型预测效果良好,可以为打叶复烤前的工艺参数决策提供良好的帮助。决策树与正交试验设计所形成的最优参数组合具有较好的现场效果,满足现场生产需要。

参考文献:

[1]杨洋,杨雨波,吴昊,等.烟草加工中打叶复烤工艺参数优化[J].农业工程,2018, 8(8):83-85.

[2]徐国金.不同润叶设备参数对润叶质量的影响[J].农业与技术,2017,37(6):99.

[3]吴芳,喻文蓉,李德综,等.不同工艺参数的设定与打叶复烤质量的关系[J].科技与企业,2012(14):324.

[4]唐莹.打叶复烤工艺参数优化探讨[J].科技传播,2013,5(16):134-135.

[5]刘彦岭,王泽理,周强,等.打叶复烤润叶段水分温度控制模型的建立[J].安徽农学通报,2017,23 (22):109-111.

[6]吴洪田,李晓红,崔焰,等.打叶烟叶质量检验: YC/T147 -2010[S].北京:中国标准出版社,2011.

[7]苏志同,汪武珺.基于随机森林的煅烧工艺参数的研究和分析[J].软件,2018,39(4):148-150.

[8]BOGDAN Z, VUKOBRATOV IC,RASTISLAV J R. Struharik. Co-processor for evolutionary full decision tree induction[J]. Microprocessors and microsystems,2016,45: 253-269.

[9]張长水. 统计机器学习若干理论、方法与应用研究[D]. 北京:清华大学,2008.

[10]BAS B L, PENNING DE V,MAARTEN V S,et al.  Propensity score estimation using classification and regression trees in the presence of missing covariate data[J]. Epidemiologic methods,2018,7(1): 20-49.

[11]卢幼祥,徐其敏,杨波,等.基于正交设计的皖南烟叶叶片复烤工艺参数优化研究[J].安徽农业科学,2015,43(27):218-219,224.

[12]战磊,肖明礼,尹智华,等.复烤温度对西南清香型烟叶质量的影响[J].湖南农业大学学报(自然科学版),2018,44(2):136-139,150.

猜你喜欢
参数优化正交试验决策树
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于决策树的出租车乘客出行目的识别
基于肺癌CT的决策树模型在肺癌诊断中的应用