基于KECA+FDA的白酒电子鼻多特征鉴别方法

2018-04-19 01:04申晓鹏于慧春
农业机械学报 2018年4期
关键词:电子鼻正确率白酒

殷 勇 申晓鹏 于慧春

(河南科技大学食品与生物工程学院, 洛阳 471023)

0 引言

作为一种快速、无损检测的鉴别工具,电子鼻在白酒鉴别分析中[1-3]均是对类别的简单识别,鉴别工作相对容易。白酒属于复杂样品,在类别较多且存在质量等级相近的样品时,其鉴别难度明显增加。此时传统的线性模式识别方法,如主成分分析(Principal component analysis, PCA)[4-5]、Fisher判别分析(Fisher discriminant analysis, FDA)[6-8]等已很难满足鉴别工作的要求,需要更先进的模式识别技术来提升电子鼻的鉴别能力。

模式识别中核变换方法的引入较好解决了用线性模式识别技术处理非线性复杂分类的问题[9-11]。其中核熵成分分析(Kernel entropy component analysis, KECA)以最大熵理论为依据进行核熵成分选择,不仅能够解决很多非线性问题,而且在提高模式识别的鉴别能力上也有很大的潜力[12]。但KECA在电子鼻检测中的应用尚属起步阶段。文献[13]中将KECA应用于室内单一污染成分的鉴别分析,其最佳鉴别正确率为91.9%。文献[14]在对白酒的分类识别中仅将KECA用于数据降维,并未对核参数选择及模型进行深入验证。为了鉴别质量等级相近的6种白酒,本文在提取6种白酒样本电子鼻信号的积分值(Integral value, INV)、方差(Variance, VAR)、相对稳态平均值(Average value in relative steady-state, AVRS)、平均微分值(Average differential value, ADV)以及小波能量(Wavelet energy value, WEV)等5种特征的基础上,借助特征选择与特征组合,深入研究KECA对电子鼻鉴别白酒效能的提高程度,以便较好实现电子鼻对6种白酒样品的准确鉴别。

1 材料与方法

1.1 试验仪器及材料

1.1.1试验仪器

试验使用的测试仪器是由实验室自行研制的电子鼻系统。该系统主要由气敏传感器阵列、测量室、数据采集装置、稳压电源及计算机等几部分组成。传感器阵列由14支金属氧化物气敏传感器组成。各传感器型号及其对应的敏感气体见文献[15]。试验过程中,气敏传感器的测量回路电压为(10±0.01) V,加热电压为(5±0.05) V。此外,该系统还配有外置的温、湿度传感器来测量环境温、湿度的变化,以补偿环境对气敏传感器的影响。

1.1.2试验材料

试验选取泸州老窖红瓷头曲、泸州老窖头曲、绵竹头曲3号、绵竹头曲6号、一滴醇醇和、一滴醇醇锦3个品牌6种类别白酒(表1)进行测试,分别用LZA、LZB、MZA、MZB、YDCA、YDCB来表示。

表1 白酒样品的基本信息Tab.1 Basic information of white spirit samples

1.2 试验方法与样本集构建

每种白酒采集58个样本,总计得到6×58=348个样本测试结果,测试时间历时4个月,且为间断性随机测量每种样品。每个样本测试前先采集传感器对环境的响应值(简称空载响应值),然后进行样本测试。采用定量取样,每次用移液管量取5 mL样本于表面皿中,迅速将表面皿放入电子鼻测量室进行数据采集。根据预试验结果,设置电子鼻的工作参数为:空采20 s,样本采集1 200 s,采样间隔为1 s,采后恢复时间为960 s。

每种样品随机抽取44个样本(占样本数的3/4)构成训练集,训练集样本数共为6×44=264个,剩下的14个样本构成测试集,测试集样本数共为6×14=84个。

2 去基准处理与特征提取

2.1 去基准处理与信号平滑

为减少环境温、湿度及信号噪声的影响,首先对电子鼻数据去基准处理,即每个样本采集的1 200个响应值减去其空载条件下的响应平均值,以部分补偿环境温湿度的影响。然后采用Savitzky-Golay五点二次多项式[16]对数据进行平滑处理,以消除噪声信号。

以传感器TGS825对1个LZA样本的测试结果为例,由于测试结果在200 s后噪声现象明显,所以在该测试结果去基准后,为了突出展示平滑后的效果,图1给出了200 s之后平滑处理前、后的曲线图。从图1可以看出,去基准后的数据经平滑处理后,可以明显消除噪声信号。文中的所有数据处理工作均在Matlab R2014a软件平台上实现。

图1 TGS825对1个LZA样本平滑前、后的响应曲线Fig.1 Response curve of TGS825 to a LZA sample before and after smoothness processing

2.2 特征提取

为比较不同特征对白酒电子鼻鉴别结果的影响,选取积分值、方差、相对稳态平均值、平均微分值以及小波能量等5种特征参量[17],并进行提取。计算式分别为

(1)

(2)

(3)

(4)

(5)

式中I——积分值S——方差

R——相对稳态平均值

A——平均微分值

N——传感器对一个样本的采集时间,取1 200 s

E——小波能量

ci——传感器对一个样本第i秒的响应值

t0——曲线即将稳定时所对应时间,s

a3i——信号三尺度分解后逼近系数集中第i个分解系数

m——逼近系数集中的系数总数

由于5个特征值的数量级不同、量纲不同,所以特征提取结果均进行归一化处理。

图2给出了每个传感器对一个LZA样本响应信号的特征柱状图。从图中可以看出,同一个传感器,不同特征体现不同的响应;而同一特征对不同的传感器也存在差异,体现了传感器的选择性。这说明了该阵列生成的样本数据模式可用来表征6种白酒的差异性,实现了响应模式与样本的一一对应。因此,该阵列可用来鉴别6种白酒样品。

图2 各传感器对1个LZA样本的5个特征的柱状图Fig.2 Bar results of five kinds of features for each gas sensor to one sample LZA

3 KECA简介及核参数确定

3.1 核熵成分分析

KECA的核心思想是将原始数据投影到高维特征空间后,对生成的核矩阵进行特征分解,选取前l个对瑞利熵贡献最大的特征向量,然后向这些特征向量投影构成新的数据集[18-19]。

瑞利熵[20-21]不仅可以度量数据携带的信息量,而且还可作为数据分类或聚类优劣的评价指标,其定义为

(6)

式中x——原始数据空间中的数据

p(x)——原始数据x对应的概率密度函数

由于对数函数具有单调性,故对式(6)中瑞利熵可量化估计为

(7)

KECA的详细分析见文献[22],在选用Parzen窗密度估计的基础上,最终瑞利熵估计V(p)可进一步估计为

(8)

式中K——n×n阶的核矩阵

λi——核矩阵K特征分解后的第i个特征值

ei——λi对应的特征向量

i——n维单位向量

(9)

依据每一项的贡献值,在选择对瑞利熵贡献最大的前l个特征值对应的特征向量作为核熵成分分析变量后,便可进行后续的鉴别分析。

3.2 核矩阵与核参数确定方法

3.2.1核矩阵

由于径向基核函数(Radial basis function, RBF)应用最为广泛,适用于低维、高维、小样本、大样本等情况,具有较宽的收敛域,是较为理想的分类依据函数[23]。故本文选取RBF作为核变换函数,表达式为

k(xi,xj)=exp(-‖xi,xj‖2/η)

(10)

式中η——待定核参数

xi——原数据第i个数据向量

xj——原数据第j个数据向量

根据核变换中的核技巧[24],采用RBF作为核函数,通过计算原数据空间中任意2个数据向量xi、xj的内积kij,可构造核矩阵K,kij为核矩阵中的元素。定义矩阵K为实际样本Gram矩阵。

3.2.2核参数确定方法

依据实际样本核矩阵,理想条件下,即xi、xj完全相同时,两个向量的内积为1。由此可构造理想Gram矩阵G,其元素构成为

(11)

xi=xj表示xi、xj属同类样本,xi≠xj表示xi、xj属异类样本。矩阵K与理想Gram矩阵G越相近,对分类越有利,此时确定的核参数η就越适用。因此引入基于欧氏距离测度的矩阵相似性度量方法来确定核参数η[25]。计算公式为

(12)

式中K′——实际Gram矩阵K转化的n2维向量

G′——理想Gram矩阵G转化的n2维向量

D值越小,说明矩阵K与矩阵G越相似。通过求取式中D的极小值即可确定核参数。

4 结果与分析

4.1 FDA鉴别分析

特征不同,白酒的鉴别效果会存在差异,因此需要选择合适的特征来表征电子鼻信号。6种白酒对应于5种特征的FDA鉴别正确率见表2。需说明的是,文中FDA的鉴别正确率均为在取前5个判别函数条件下得到的结果,但直观图对应的是前2个判别向量(便于直观分析)的鉴别效果。

表2 单特征下对应的FDA鉴别正确率Tab.2  FDA correct identification rate based on each single feature %

从表2可以看出,表中5种特征值在单独表征电子鼻测试信号时,鉴别正确率较低,不能满足不同白酒的鉴别需求。考虑到电子鼻响应信号构成复杂,故采用多特征表征。但是,表征特征参量增多,会造成核变换过程的计算复杂性增大,且会产生较多的冗余信息。因此,在采用多特征表征电子鼻信号时,需进行选择。依据表2选择有较好鉴别结果的INV、AVRS与WEV,分别实施两两组合、3种特征组合来表征电子鼻信号,得到4种表征方式,其FDA结果见表3。

表3 各组合特征对应的FDA鉴别正确率Tab.3 FDA correct identification rate based on different features combination %

从表3中可以看出,组合特征提高了电子鼻鉴别6种白酒的能力,尤其用三特征表征电子鼻信号时训练集的鉴别正确率达到82.14%,测试集正确率也提高至79.92%。图3、4分别给出基于WEV特征及三特征组合表征下FDA直观图。

图3 WEV对应的FDA结果Fig.3 FDA results of WEV

图4 三特征组合下对应的FDA结果Fig.4 FDA results of three features combination

从图3中可以看出,用WEV表征电子鼻信号时除MZB以外,其他5种白酒混杂现象明显,可分性不高。由图4可看出,用3种特征组合表征电子鼻信号时,同类白酒的聚集增加,混杂度也有所下降。这说明三特征组合表征电子鼻信号可以更加全面地体现白酒响应信息之间的差异,有利于白酒鉴别。但图4中各类白酒之间分界处仍存在交错,被认为是非线性分类问题。因此,在三特征组合表征的前提下,进行了KECA+FDA分析,并与BP神经网络、支持向量机等方法进行了比较。

4.2 KECA+FDA鉴别分析

在三特征组合表征电子鼻信号下KECA+FDA鉴别分析的具体过程如下:

(1)由式(10)、(11)分别计算实际Gram矩阵与理想Gram矩阵中的各元素,生成相应的Gram矩阵,其中实际Gram矩阵中含待定核参数η。

(2)运用式(12)计算两个Gram矩阵间的欧氏距离,通过对距离D值求取极值,即可确定对应核参数η,其值为16.860 8。然后运用式(10)计算确定实际核矩阵K,K为348×348维的对称矩阵。

(3)对核矩阵K进行分解,得到各特征值及其对应的特征向量。

(4)由式(9)计算每个特征值所对应的瑞利熵,根据对瑞利熵贡献的大小,选取对应前l个贡献最大的特征值对应的特征向量,依据选出的特征向量来确定核熵成分矩阵T。

(5)对T矩阵进行FDA分析,即实现KECA+FDA分析。

不同的l值对应的KECA+FDA鉴别结果差异很大,在三特征组合表征的前提下,图5为不同个数的核熵成分对应的KECA+FDA鉴别结果。

图5 三特征组合下不同核熵成分数对应的KECA+FDA鉴别正确率Fig.5 KECA+FDA correct identification rate of different KEC numbers based on three features combination

图5显示,随着所选择核熵成分数的增多,KECA+FDA鉴别正确率也随之提高,当选择前220个核熵成分并采用5个判别函数时,训练集、测试集鉴别正确率均达到100%。因为5个投影方向的鉴别直观图不易给出,为了能直观表示鉴别效果,图6给出了基于第1判别函数和第2判别函数下的鉴别效果图,其中KEFD1和KEFD2分别为第1判别函数和第2判别函数。图6中,同类样本之间与图3相比更加聚集,6种白酒基本上能得以鉴别(在5个判别函数下可完全分开)。与表3中三特征组合下FDA鉴别结果相比较,KECA+FDA显著提高了电子鼻对6种白酒的鉴别能力。

图6 三特征组合下KECA+FDA结果Fig.6 KECA+FDA results of three features combination

4.3 与其他算法的比较

在三特征组合表征电子鼻信号的前提下,分别采用BP神经网络、支持向量机两种非线性方法进行分析,其鉴别结果见表4。

从表4中可以发现,与KECA+FDA方法相比较,这2种方法对6种白酒的鉴别能力明显不足。这充分说明了KECA+FDA具有较高的鉴别优势。

5 结论

(1)多种且具有质量等级相近的白酒样品的电子鼻鉴别属于复杂的非线性分类问题。电子鼻信号的单一特征不能充分表征其响应信息,进而不能有效实施鉴别。通过对比单一特征时的Fisher鉴别结果,筛选出了INV、AVRS、WEV 3种特征。然后分别研究它们不同组合表征时的鉴别结果。结果表明,三特征组合表征时的鉴别结果更好。

表4 BP神经网络与支持向量机方法的分类结果Tab.4 Classification results based on BP neural network and support vector machine %

(2)在以INV、AVRS、WEV 3种特征值组合表征的基础上,选择RBF函数为核函数,并借助于基于矩阵最佳相似性的方法确定了RBF核参数为16.860 8。在运用KECA+FDA对6种白酒进行了鉴别分析后,测试集样本鉴别正确率由FDA的 79.92%提高到KECA+FDA 的100%。而且对比BP神经网络和支持向量机,KECA+FDA也有明显优势。这说明了基于KECA+FDA的白酒电子鼻鉴别方式是行之有效的,为今后用电子鼻鉴别其他多类复杂样品提供了一种可借鉴的模式识别方法。

1ZENG Hui, LI Qiang, GU Yu. New pattern recognition system in the e-nose for Chinese spirit identification[J]. Chinese Physics B, 2016, 25(2):164-169.

2王辉,李臻峰,邓霞,等.基于电子鼻对不同香型白酒的快速识别和分类[J].食品工业科技,2017,38(6):62-65.

WANG Hui, LI Zhenfeng, DENG Xia, et al. Rapid identification and classification of Chinese spirits of different flavor types by electronic nose [J]. Science and Technology of Food Industry, 2017, 38(6): 62-65. (in Chinese)

3LI Q, GU Y, JIA J. Classification of multiple Chinese liquors by means of a QCM-based E-Nose and MDS-SVM classifier[J]. Sensors, 2017, 17(2):272.

4YAO Y, PAN S, FAN G, et al. Evaluation of volatile profile of Sichuan dongcai, a traditional salted vegetable, by SPME-GC-MS and E-nose[J]. LWT—Food Science and Technology, 2015, 64(2):528-535.

5何余勤,胡荣锁,张海德,等.基于电子鼻技术检测不同焙烤程度咖啡的特征性香气[J].农业工程学报,2015,31(18):247-255.

HE Yuqin, HU Rongsuo, ZHANG Haide, et al. Characteristic aroma detection of coffee at different roasting degree based on electronic nose[J]. Transactions of the CSAE, 2015, 31(18): 247-255. (in Chinese)

6王虎玄,胡仲秋,龙芳羽,等.苹果汁中鲁氏接合酵母早期污染的电子鼻识别研究[J/OL].农业机械学报,2016,47(1):209-214.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20160127&journal_id=jcsam.DOI:10.6041/j.issn.1000-1298.2016.01.027.

WANG Huxuan, HU Zhongqiu, LONG Fangyu, et al. Research on identification of spoilage in apple juice caused byZygosaccharomycesrouxiiat early stage using electronic nose[J/OL]. Transactions of the Chinese Society for Agricultural Machinery, 2016, 47(1): 209-214. (in Chinese)

7SHAO X, LI H, WANG N, et al. Comparison of different classification methods for analyzing electronic nose data to characterize sesame oils and blends[J]. Sensors, 2015, 15(10):26726-26742.

8徐赛,陆华忠,周志艳,等.基于电子鼻的果园荔枝成熟阶段监测[J].农业工程学报,2015,31(18):240-246.

XU Sai, LU Huazhong, ZHOU Zhiyan, et al. Electronic nose monitoring mature stage of litchi in orchard[J]. Transactions of the CSAE, 2015, 31(18): 240-246. (in Chinese)

9DIAF A, BBOUFAMA B, BENLAMRI R. Non-parametric Fisher’s discriminant analysis with kernels for data classification [J]. Pattern Recognition Letters, 2013, 34: 552-558.

10ALI H, HARIHARAN M, YAACOB S, et al. Facial emotion recognition using empirical mode decomposition[J]. Expert Systems with Applications. An International Journal, 2015, 42(3):1261-1277.

11黄丽瑾,施俊,钟瑾.基于核熵成分分析的数据降维[J].计算机工程,2012,38(2):175-177.

HUANG Lijin, SHI Jun, ZHONG Jin. Data dimension reduction based on kernel entropy component analysis[J]. Computer Engineering, 2012, 38(2): 175-177. (in Chinese)

12常鹏,王普,高学金,等.基于核熵投影技术的多阶段间歇过程监测研究[J].仪器仪表学报,2014,35(7):1654-1661.

CHANG Peng, WANG Pu, GAO Xuejin, et al. Research on batch process monitoring based on multi-stage kernel pattern entropy projection technology[J]. Journal of Scientific Instrument, 2014, 35(7): 1654-1661. (in Chinese)

13PENG X, ZHANG L, TIAN F, et al. A novel sensor feature extraction based on kernel entropy component analysis for discrimination of indoor air contaminants[J]. Sensors & Actuators A, 2015, 234(11): 143-149.

14JING Y, MENG Q, QI P, et al. Electronic nose with a new feature reduction method and a multi-linear classifier for Chinese liquor classification[J]. Review of Scientific Instruments, 2014, 85(5): 11543-11549.

15殷勇, 白玉, 于慧春,等. 电子鼻信号小波去漂移方法及其鉴别白酒研究[J/OL].农业机械学报,2016,47(11):219-223. http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20161130&journal_id=jcsam.DOI:10.6041/j.issn.1000-1298.2016.11.030.

YIN Yong, BAI Yu, YU Huichun, et al. Drift elimination method of electronic nose signals based on wavelet analysis and discrimination of white spirit samples [J/OL]. Transactions of the Chinese Society for Agricultural Machinery, 2016, 47(11): 219-223. (in Chinese)

16赵安新,汤晓君,张钟华,等.优化Savitzky-Golay滤波器的参数及其在傅里叶变换红外气体光谱数据平滑预处理中的应用[J].光谱学与光谱分析,2016,36(5):1340-1344.

ZHAO Anxin, TANG Xiaojun, ZHANG Zhonghua, et al. Optimizing Savitzky-Golay parameters and its smoothing pretreatment for FTIR gas spectra[J]. Spectroscopy and Spectral Analysis, 2016, 36(5):1340-1344. (in Chinese)

17于慧春,褚冰,殷勇.食醋电子鼻检测中一种特征参量评价方法[J].农业工程学报,2013,29(3):258-264.

YU Huichun, CHU Bing, YIN Yong. Evaluation method of feature vector in vinegar identification by electronic nose[J]. Transactions of the CSAE, 2013, 29(3): 258-264. (in Chinese)

18PRINCIPE J C. Information theoretic learning: Renyi’s entropy and kernel perspectives[M]. New York: Springer Verlag, 2010: 47-88.

19JENSSEN R, ELTOFT T. A new information theoretic analysis of sum-of-squared-error kernel clustering[J]. Neurocomputing, 2008, 72(1-3): 23-31.

20YANG Y, LI X, LIU X, et al. Wavelet kernel entropy component analysis with application to industrial process monitoring [J]. Neurocomputing, 2015, 147(1):395-402.

21何飞,徐金梧,梁治国,等.基于核熵成分分析的热轧带钢自适应聚类分析[J].中南大学学报:自然科学版,2012,43(5):1732-1738.

HE Fei, XU Jinwu, LIANG Zhiguo, et al. Hot rolled strip state clustering based on kernel entropy component analysis[J]. Journal of Central South University: Natural Science Edition, 2012, 43(5): 1732-1738. (in Chinese)

22JENSSEN R. Kernel entropy component analysis[J]. Pattern Analysis and Machine Intelligence, 2010, 32(5): 847-860.

23宋晖,薛云,张良均.基于SVM分类问题的核函数选择仿真研究[J].计算机与现代化,2011(8):133-136.

SONG Hui, XUE Yun, ZHANG Liangjun. Research on kernel function selection simulation based on SVM classification[J]. Computer & Modernization, 2011(8):133-136. (in Chinese)

24陈才扣,高林,杨静宇.一种基于空间变换的核Fisher鉴别分析[J].计算机工程,2005,31(8):17-18.

CHEN Caikou, GAO Lin, YANG Jingyu. Space transformation-based kernel Fisher discriminant analysis[J]. Computer Engineering, 2005, 31(8):17-18. (in Chinese)

25李晓宇,张新峰,沈兰荪,等.一种确定径向基核函数参数的方法[J].电子学报,2005,33(增刊):2459-2463.

LI Xiaoyu, ZHANG Xinfeng, SHEN Lansun, et al. A selection means off the parameter of radius basis function[J]. Chinese Journal of Electronics, 2005, 33(Supp.): 2459-2463. (in Chinese)

猜你喜欢
电子鼻正确率白酒
我国现存白酒相关企业20.08万家
个性化护理干预对提高住院患者留取痰标本正确率的影响
基于电子鼻的肺癌无创检测研究
白酒局变
门诊分诊服务态度与正确率对护患关系的影响
电子鼻咽喉镜在腔镜甲状腺手术前的应用
2018年1—5月中国白酒产量422.8万千升
香辛料识别中电子鼻采集及算法研究
生意
飞到火星去“闻味儿”——神奇的电子鼻