基于动态分类器集成系统的卷烟感官质量预测方法

2020-01-14 06:03童珂凡张忠良雒兴刚汤建国

计算机应用与软件 2020年1期

童珂凡张忠良* 雒兴刚曾鸣汤建国

1(杭州电子科技大学管理学院浙江杭州 310018)2(云南中烟工业有限责任公司技术中心云南昆明 650231)

0 引言

卷烟的感官质量是评价其品质的重要指标之一，一般包括光泽、香气、谐调、杂气、刺激性和余味等指标。目前，烟草公司主要采用卷烟感官评估专家人工评吸的方式对卷烟感官质量进行评价。这种依赖专家经验进行卷烟感官质量评价的方式存在诸多不足：首先，受到评吸专家主观因素以及客观环境的影响，不能保证评价结果的准确性；其次，高强度的评吸工作会影响评吸专家的身体健康；最后，烟草行业面临着日益严峻的市场竞争，要求相关企业在卷烟制品的开发和产品维护中具有更高的效率和灵活性。

为了解决上述问题，从事烟草研究的相关专家试图采用智能方式对卷烟感官质量进行评价。文献[1-5]表明，烟叶化学成分是卷烟感官质量的物质基础，很多研究致力于建立卷烟感官质量与化学成分之间的映射关系，从而辅助卷烟感官质量评估。近年来，采用数据挖掘技术构建卷烟感官质量评估模型受到了广泛的关注。文献[6]利用BP神经网络建立了卷烟感官质量评估模型，而文献[7]则采用基于支持向量机的技术对卷烟感官质量评估进行了研究。考虑卷烟感官评估中的错分代价敏感问题，文献[8]提出了一种基于代价敏感学习的卷烟感官质量评估方法。

然而，在卷烟感官质量智能预测方面，现有研究大多使用单一分类器对卷烟感官质量进行预测。数据挖掘研究[10]表明，目前还不存在一种分类学习算法可以在任何情况下都比其他分类算法表现出更好的性能[10]。即使是针对同一分类问题，针对不同的预测样本的特点，不同的分类算法也表现出不同的分类效果。基于这个事实，研究人员提出了动态选择分类器，并且成为了数据挖掘领域重要的研究方向。另一方面，文献[11-12]表明，集成学习能够有效改善学习效果，并且对不同分类问题具有良好的鲁棒性。结合动态分类器选择和集成学习优势，人们提出了动态分类器集成选择策略，目前该策略是一种有效的数据挖掘手段[13-15]。

本文针对卷烟感官质量智能化评估问题的特点，提出了一种基于动态分类器集成选择的卷烟感官质量预测方法。首先，利用分类算法训练得到20个不同的分类器形成分类器池；然后针对每一个测试样本，采用一定的标准选择符合要求的分类器；最后利用被选择的分类器输出预测结果。在候选分类器集合生成过程中，本文采用两种方式：同种分类器集成和异种分类器集成。实验结果表明，无论采用何种候选分类器集合生成方式，动态分类器集成方案在卷烟感官质量评估中都能取得显著的效果。

1 动态分类器集成系统

不同于静态分类算法对不同的待分类样本采用一致的分类器，动态分类学习算法对每个待分类样本选择不同的分类器。一般地，动态分类学习算法大致又可以分为动态分类器选择和动态集成选择。前者考虑对每个待测样本尽量选择最有竞争力的分类器，而后者则选择最合适的分类器组合。图1反映了动态分类器选择和动态集成选择的过程。

(a) 动态分类器选择

(b) 动态集成选择图1 动态分类学习算法示例

可以看出，动态分类器集成大致可以分为4个步骤：(1) 生成候选分类器集合，分类器集合中的分类器可以采用同种分类学习算法得到也可以采用异质分类学习算法获得；(2) 评估候选分类器集合中每个基分类器对待测样本分类性能；(3) 选择最有竞争力的分类器或分类器组合；(4) 对待测样本进行预测。

1.1 动态分类器选择

动态分类器选择算法如算法1所示。本文采用文献[16]所提出的算法，该方法采用待测未知样本在训练集中的邻域作为评估候选分类器池中基分类器的性能，分类准确率最高的分类器被选择预测未知样本的标识。

算法1动态分类器选择算法

输入：分类器池C；训练集Tr；测试集Te；最近邻参数k

For每个测试集Te中的样本tdo

If所有的分类器的输出结果一致then

1-将该类别赋予测试样本t

Else

2-在训练集Tr中找到样本t的k个最近邻，由这些样本构成样本t的邻域Ψ

For每个分类器池C中的分类器cido

Endfor

Endif

Endfor

1.2 动态分类器集成选择

在动态集成选择方面，本文采用文献[17]提出的方案。该方法采用基于随机分类器来评估分类器的竞争力。分类器的竞争力采用如下方式计算：

(1)

算法2动态集成选择算法

输入：分类器池C；训练集Tr；测试集Te；最近邻参数k

For每个测试集Te中的样本tdo

If所有的分类器的输出结果一致then

2-将该类别赋予测试样本t

Else

3-在训练集Tr中找到样本t的k个最近邻组成邻域Ψ

For每个分类器池C中的分类器cido

IfCompetencei(ci|t)>0

Endif

Endfor

7-k=k-1

Ifk=0

Else

9-返回步骤3

Endif

Endfor

2 卷烟感官质量预测系统

2.1 数据描述

本文所采用的实验数据来自于国内某烟草公司在2010年-2012年间针对成品烟的物理化学成份分析检测和相应的感官质量人工专家评吸结果。表1描述了卷烟感官质量评判标准，样本总量为684组数据。具体而言，物理化学指标包括总糖量、还原糖、总挥发碱、烟碱量、总氮量、烟碱氮、蛋白质、含钾量、含氯量、氨态碱、糖碱比、氮碱比、施木克值，总计13项，这些指标将作为分类学习算法的输入属性；用于评估卷烟感官质量的指标包括香气、光泽、谐调、刺激、杂气和余味，共计6项，这些指标将分别作为分类学习算法的决策属性。因此，本文考虑6组表示卷烟不同感官指标的数据集。

表1 卷烟感官质量评判标准

2.2 数据预处理

按照表1卷烟感官质量评判标准，由多位卷烟评吸专家以0.5为最小单位独立地给出各感官指标的评吸结果，然后计算每个感官指标平均值作为相应感官指标的最终感官评价结果。我们得到的原始数据表中感官指标的数值不是0.5为间隔的离散值，需要对感官结果进行离散化处理。本文采用等区间的离散化处理方式，表2给出了卷烟感官评估指标的离散化情况。例如，以光泽感官指标为例，其评分标准为3～5，事实上在卷烟实际生产过程中感官质量会满足一定指标要求，因此在光泽指标上历史数据中不存在分值小于3.75的情况，这样将分值在[3.75,4.25]的样本归为第1类，(4.25,4.75]为第2类，(4.75,5]为第3类。

表2 卷烟感官指标离散化情况

续表2

针对每个感官指标，按照表2的离散化区间将历史数据转化成分类问题，获得光泽、香气、谐调、杂气、刺激性以及余味6个数据集，其基本信息如表3所示，其中#Ex.表示样本数量，#Attr.表示属性个数，#Cl.表示类别数目，#Dc.表示样本分布。

表3 感官评估数据集信息

此外，由于历史数据的物化指标量纲不同，需要进行归一化处理，本文采用下式进行归一化操作：

(2)

式中：xi是属性取值;xmin是相应属性取值中的最小值；xmax是相应属性取值中的最大值。经过归一化处理之后，所有属性取值在[0,1]之间。

本文采用5次5折交叉验证的方式进行实验分析。首先将全部数据样本随机分为数据规模相似的5份并尽可能保持数据分布的一致性。然后，每次取其中的4份训练算法获得分类器，剩下的1份样本作为测试集，计算分类器在测试集上的分类准确率。每份数据集作一次测试集，就可以获得5个测试结果，返回这5个结果的均值。重复进行5次这样的实验，并返回5次的平均结果作为最终分类预测准确率。

2.3 基分类器及其参数设置

本文根据文献[12]采用两种方式产生候选分类器集合：同种类型的分类器和异质分类器。在同种类型候选分类器集合中，分类器之间的差异通过有放回抽样的方式获得，也就是每个分类器使用不同的训练样本得到。在异质候选分类器集合中，每个分类器使用的训练样本一致，分类器之间的差异通过不同类型的分类学习算法得到。本文中，同种类型候选分类器集合采用决策树作为基分类器，而异质候选分类器集合采用决策树作为基分类器，两种候选分类器集合中的基分类器个数均设置为20，所采用的分类学习算法和参数设置如表4所示。

表4 基础分类器及其参数设置

3 实验

本文采用以下方法进行实验比较：

(1) 理想效果(Oracle)：对于任意一个待测样本，只要有一个分类器分类正确，则认为该样本被正确预测，因此这是动态分类器选择预测系统效果的上界，也是理想效果。

(2) 静态分类器选择(Static Classifier Selection, SCS)：静态选择最优的分类器，首先选择在验证集上效果最好的分类器，然后采用该分类器对所有的未知样本进行标识。

(3) 动态分类器选择(Dynamic Classifier Selection, DCS)：针对每个被测样本，首先确定被测样本的邻域，然后根据分类器在邻域上的分类准确率(Local Accuracy, LA)，选择最优的分类器。其中邻域的选择采用两种方式：k-最近邻(K-Nearest Neighbor, KNN)和k平等最近邻(K-Nearest Neighbor Equality, KNNE)，而分类性能的计算又采用距离加权(Distance weighted, DW)和未加权两种方式。因此，产生4种动态分类器选择的方式：LA-KNN(LK)、 LA-DW-KNN(LDK)、LA-KNNE(LKE)以及LA-DW-KNNE(LDKE)。

(4) 动态集成选择(Dynamic Ensemble Selection, DES)：对每个待测样本动态地选择分类器集合进行预测，采用基于距离加权的分类器性能评估方法，最终的预测结果采用多数投票机制，其中最近邻个数设置为10。

采用分类准确率作为评价预测效果的标准，即分类准确率=(正确分类样本数/样本总数)×100%。

采用同种分类器的实验结果如表5所示。从平均结果看，LA-DW-KNN取得了最优的结果，而DES紧追其后，两者效果表现差异不大。从具体数据集角度看，除了在香气这个数据集上，DES取得了最优的效果，LA-DW-KNN在其他数据集上取得的效果最好。另外，相比较于静态分类器选择，动态分类器选择方案具有明显的优势。和理想情况相比，目前所取得的效果还有很大差距，理论上还有改进的空间。为了更直观地观察各个算法在卷烟感官质量预测中的效果，图2给出了所有算法(包括理想情况)的预测结果的直方图。可以看出，LA-DW-KNN和DES比其他方法的预测效果更好。

表5 采用同质分类器的实验结果

图2 基于同种分类器集成的结果比较

采用异种分类器的实验结果如表6所示。不同于采用同种分类器产生分类器池所得到的实验结果，采用异种分类器产生分类器池的情况下，DES取得了最优的效果，并且其总体效果也优于前者。具体来看，除了在光泽数据集上，SCS取得了最优的效果，在其他数据集上，DES均取得了最优的效果。但相较于理想情况，还有很大的改进空间。类似的结论也可以从图3给出的直方图中直观地得出。

表6 采用异种分类器的实验结果

图3 基于异种分类器集成的结果比较

4 结语

本文采用动态分类器选择对卷烟感官质量进行预测，实验结果表明该方法可以有效改善预测效果。为了观察基础分类器对实验结果的影响，我们采用了两种方式产生分类器池：同种分类器和异种分类器。总体而言，当采用同种分类器时，LA-DW-KNN效果最好；而当采用异种分类器时，DES效果最优。

虽然本文的研究表明采用动态分类器选择可以有效改善卷烟感官质量预测的效果，但是本文只采用了几种经典的动态分类器选择方案，因此下一步将对不同动态分类器选择方案在卷烟感官质量预测中的效果进行比较实验。

基于动态分类器集成系统的卷烟感官质量预测方法

0 引 言

1 动态分类器集成系统

1.1 动态分类器选择

1.2 动态分类器集成选择

2 卷烟感官质量预测系统

2.1 数据描述

2.2 数据预处理

2.3 基分类器及其参数设置

3 实 验

4 结 语

0 引言

3 实验

4 结语