基于大数据分析的农产品质量控制研究

2018-08-01 07:53孙建召
江苏农业科学 2018年13期
关键词:控制精度半成品类别

孙建召

(河南经贸职业学院计算机工程学院,河南郑州 450018)

我国为农业与人口大国,近年来,随着我国经济迅猛发展,人们物质及生活水平逐渐提高,对农产品质量的要求越来越高[1]。农产品出口为我国外汇收入的关键部分[2],当前国外对农产品进口出台贸易保护政策,且我国少部分出口农产品质量标准低,被进口国退货的事件时有发生[3]。面对国内外环境,农产品作为食品的源头,其质量直接影响着国家发展,须研究一种有效的农产品质量控制方法,保证市场农产品质量。

当前,我国政府对农产品质量控制非常关注,出台了相应的法律法规,为农产品质量控制分析与应用提供了重要保障[4]。在此基础上,很多学者对农产品质量控制进行了系统研究,但当前农产品质量控制方法大多通过抽样实现农产品质量控制,结果并不可靠,为此,提出一种新的基于大数据分析的农产品质量控制方法,不但控制精度和稳定性高,而且具有很高的参考价值。

1 基于大数据分析的农产品质量控制方法

1.1 建立大数据分析体系框架

建立大数据分析背景下农产品质量控制体系框架(图1)。依据农业信息化基础设施建立体系,通过模块化开发平台为农产品质量控制体系提供开发环境,利用网络提供质量控制服务,主要包括用户访问层、业务服务层、数据平台层、基础数据层和虚拟资源层。

1.2 关键技术

1.2.1 数据采集技术 为实现农产品质量控制,须对其生产销售过程中的重要参数进行采集,即基础数据库层。无线传感网络能够实时采集数据,选用基于ZigBee的无线传感网络对数据进行采集。ZigBee整体性能高[5],基于ZigBee的无线传感网络将CC2430作为核心,主要用于数据交换[6]。CC2430为TI(Texas Instruments)企业生产的芯片,其内置增强型8051控制器与2.8 GHz扩频射频收发器,外围电路简单,是一种高性能芯片[7]。ZigBee模块除CC2430芯片外,还有天线、传感器等,实质上就是一个节点,能够和其他节点通信。

ZigBee网络拓扑结构即ZigBee节点的组网结构,主要有星型、树型与网状等3种结构[8],用于实际应用环境中,选择合理的ZigBee网络拓扑结构。

本节农产品质量控制体系选用网状拓扑结构。在ZigBee模块中,网状拓扑结构有网络协调器、路由器和终端设备等3种通信设备(图2)。选用的网状拓扑结构自组织与自愈能力强,可以很好地适应农产品大数据分析需求。

网状拓扑结构的ZigBee网络能够有效地采集农产品数据,利用中继方式[9]把采集数据发送至远程数据中心。远程数据中心将接收的数据保存至数据库,通过业务服务层与数据平台层进行大数据分析,再保存至Web存储器及相应服务器。

1.2.2 农产品质量监控 主要对生产阶段、收购阶段、加工阶段、销售阶段的农产品质量进行监控。将生产阶段、加工阶段的农产品看作主要研究目标,开展有针对性的质量控制监控研究。研究关键为基于大数据分析的农产品质量控制,将大数据分析应用于农产品质量控制中,而本节提出的质量监控方法为大数据分析的基础。农产品质量监控过程如图3所示。

通过检测历史异常数据和数据分布异常对农产品数据进行分析,实现对农产品质量监控。

在对农产品质量进行监控时,随着时间的推移,会形成大规模监测数据集合。对农产品数据进行研究,获取数据的变化规律与比较数据库当前数据改变规律,得到监控农产品数据改变趋势,从而发现可能出现的农产品质量异常情况。

(1)

式中:δab为决定农产品质量控制过程中检测数据历史异常趋势系数,该值的正负情况表示异常状况个数在使用者设定的m个时间区间中的递增或递减趋势;a为m个时间区间中发生异常状况的总个数;ab为第b个时间区间中出现质量异常的个数,这里:

(2)

对于时间区间而言,可依据农产品的种类、特性等因素进行设定[10],通常为几天,有时为几个月。

在分析过程中,农产品质量控制人员根据实际状况对趋势系数δab的阈值ξ进行设定,若δab>ξ,表明农产品质量控制要素在质量安全上发生异常,并按照事先设定的危险等级进行报警。

根据异常趋势系数δab能够掌握被监控农产品质量控制点在某一时期内数值的改变情况,是一种依据时间序列的质量控制方法。

数据分布异常主要针对不同区域中的相同要素进行分析和比较,从而获取各区域间不同农产品质量监测方法。

农产品监测数据历史数据库中包含了所有质量数据异常的信息,对历史数据库中异常数据在不同区域的分布状态进行分析,有助于质量监测人员发现各区域已经存在及潜在的农产品质量问题。

详细过程如下:

针对须监控的农产品区域,首先将其分为k个子区域,用q描述区域向量,通过k个子区域构成1个集合,也就是q=(q1,q2,…,qk)。用L描述相应子区域出现异常的农产品数据集合,也就是L=(L1,L2,…,Lk)。假设R是从数据库中采集的该区域完成检测的质量控制要素个数,也就是R=(R1,R2,…,Rk),则有:

(3)

区域i中的农产品质量数据异常情况通过均值可描述成ui,u=(u1,u2,…,uk),ε表示常数,负责对u进行标准化处理,使其处于(1,10)范围内[11]。

农产品质量监测按照实际情况对阈值S进行设置,S=(S1,S2,…,Sk),在ui>Si的情况下,认为qi区域有质量异常农产品数据,用户须按情况发出报警信息。

针对上述区域,农产品异常状态数据量均值u可通过下式计算:

(4)

(5)

1.3 农产品溯源及召回

1.3.1 射频识别(radio frequency identification,简称RFID)硬件设计 通过射频识别对出现质量问题的农产品进行溯源和召回,射频识别系统结构如图4所示。

射频识别系统主要包括电子标签、读写器和计算机通信网络。

电子标签主要用于保存农产品相关信息,一般被置于农产品上,其保存的信息可利用读写器通过非接触形式读写[12]。读写器为能够通过射频技术实现电子标签信息读写操作的装置。读写器读出标签信息后,利用PC机和网络系统对信息进行传输。在射频识别系统中,计算机通信网络主要负责完成对农产品质量数据的管理,实现通信功能。读写器能够经标准接口和PC机通信网络相连[13],从而达到通信与数据传输的目的。

1.3.2 软件设计 当农产品出现质量问题时,先根据出现质量问题的成品批次,从下到上逐步找到出现问题的原料批次,即溯源;再根据这些出现质量问题的原料批次,由上到下逐步找出含此批次的成品,即跟踪;最后将它们一并召回。依据批次的农产品召回示意如图5所示。

上面主要阐述了依据批次的农产品溯源与召回原理,下面对其优化模型进行介绍。先对各层次批次集合进行定义,主要包括原料C个批次、部件P个批次、半成品G个批次以及成品V个批次,且可依次分成D、N、H、Z个类别,依次对原料层次YL、部件层次BJ、半成品层次HP以及成品层次CP的批次集合进行描述,公式描述如下:

YL=(YL1,…,YLc,…,YLC);

(6)

BJ=(BJ1,…,BJp,…,BJP);

(7)

HP=(HP1,…,HPg,…,HPG);

8)

CP=(CP1,…,CPv,…,CPV)。

(9)

各层中任意一个批次的属性可描述为:

YLc=(IYLc,CYLc,NYLc);

(10)

BJp=(IBJp,CBJp,NBJp);

(11)

HPg=(IHPg,CHPg,NHPg);

(12)

CPv=(ICPv,CCPv,NCPv)。

(13)

在各层中,各批次农场品均存在电子标签、类别以及数目等3大属性。对于原料批次YLc的属性,IYLc表示其电子标签,为此批次在整个系统中的唯一标志;CYLc表示它的类别,且CYLc∈{1,…,d,…,D};NYLc表示它的数量。同理,可实现部件、半成品以及成品各批次属性的定义,其批次电子标签属性依次是IBJ、IHP、ICP,类别属性依次是CBJ、CHP、CCP,数目属性依次是NBJ、NHP、NCP。

分解、组合和包装比例只受批次类别属性的影响,存在下述关系:

(14)

15)

(16)

式中:Dec(d,n)用于描述分解比例,也就是原材料类别d分解至部件类别n的比例;Gro(n,h)用于描述组合比例,也就是半成品类别h中,部件类别n占用的比例;Pac(h,z)用于描述包装比例,也就是成品类别z中,半成品类别h占用的比例。

用X(c,p)描述原料至部件的批次布尔变量,BJp中含YLc的元素时,则X(c,p)为1,否则X(c,p),为0;用K(p,g)描述部件至半成品的批次布尔变量,若HPg中含有BJp元素,则K(p,g)为1,否则K(p,g)为0;用Y(g,v)描述半成品至成品的批次布尔变量,若CPv中存在HPg元素,则Y(g,v)为1,否则Y(g,v)为0;用W(c,v)描述原料至成品的批次布尔变量,若CPv中含有YLc元素,则W(c,v)为1,否则W(c,v)为0。通过布尔运算可得:

(17)

一旦原料批次YLc出现质量不达标问题,对全部含有YLc的成品批次均召回。通过下式求出平均召回规模:

(18)

在生产和加工的过程中,受加工器械、工作场景以及人员水平的制约[14],考虑到经济效益,须将部件与半成品批次的数量控制在某一范围。设类别为n的部件批次的最大与最小允许数量依次为ξmax(n)与ξmin(n),类别为h的半成品批次的最大与最小允许数量依次为ξmax(h)与ξmin(h)。由此可得部件与半成品的批次数量的限制条件[15],即:

ξmin(CYLc)≤NYLc≤ξmax(CYLc);

(19)

ξmin(CHPg)≤NCHPg≤ξmax(CHPg)。

(20)

将公式(18)作为目标函数,将公式(19)与(20)作为目标函数的约束条件,构建农产品召回优化模型,公式描述如下:

(21)

利用粒子群法对模型进行寻优处理,通过优化模型达到农产品的最小召回目标,从而实现农产品质量控制。

2 结果与分析

2.1 样品采集及制备

为了验证本方法的有效性,将统计学方法和数据挖掘方法作为对比进行测试。依次采用3种方法对3个不同种植基地的农产品质量进行控制。试验样品采用抽样方式,针对个体较大的样品,采样量为2个。针对个体较小的样品,采样量为0.5 kg。

把抽取的样品混合在一起,通过四分法进行缩分处理。针对个体较小的样品,去除不可食部分,保留可食部分;针对个体较大的样品,将其切为小块;针对不均匀样品,在其任意部位取小片;针对谷类和豆类样品,通过圆锥四分法完成缩分。

把缩分后样品搅碎并混匀,通过四分法取样,将湿样匀浆添加至聚乙烯瓶中,在-18 ℃左右环境下储存,干货类搅匀后添加至瓶中,在常温下通风储存。

2.2 召回试验

以农药残留为标准,将有农药残留农产品召回,不同浓度农药残留对召回率的要求以及3种方法召回率比较结果如表1所示。

表1 不同添加浓度要求召回率及3种方法召回率比较

由表1可知,本研究方法召回率一直处于要求召回率范围内,且在农药残留浓度相同的情况下,本研究方法召回率高于统计学方法和数据挖掘方法。统计学方法和数据挖掘方法召回率大部分未处于要求召回率范围内,召回率低,说明本研究方法质量控制效果更佳。

2.3 农产品质量控制性能评价

农产品质量控制性能评价包括计算工作评价值与技术评定2部分,本研究通过稳健Z比分数对农产品质量控制性能进行衡量,其可通过下式求出:

Zbf=(x-X)÷0.752×3IQR。

(22)

式中:x表示试验结果;X表示试验结果中值;IQR表示上四分位数和下四分位数差值。

在稳健Z比分数低于2的情况下,认为相应农产品质量控制方法性能高,控制稳定;在稳健Z比分数在(2,3)范围内的情况下,认为相应农产品质量控制方法稳定性一般;在稳健Z比分数高于3的情况下,认为相应农产品质量控制方法非常不稳定。由表2可知,本研究方法质量控制稳定性高,而统计学方法和数据挖掘方法的稳定性均一般,控制精度时高时低,实用性较差。

农产品质量控制精度为影响农产品质量控制方法性能的关键指标,对3种方法的农产品质量控制精度进行进一步测试。

表2 3种方法质量控制性能比较

通过重复性限和再现性限对农产品质量控制精度进行衡量。在正态分布的情况下,重复性限公式为:

(23)

再现性限公式为:

(24)

式中:δζ表示重复性标准差;δs表示再现性标准差。

将本研究方法、统计学方法和数据挖掘方法检测结果极差的绝对值和重复性限相比,若极差绝对值低于重复性限,则认为通过质量检测;否则未通过质量检测。再现性试验和重复性相同。按照上述过程对不同方法对农产品质量控制精度进行测试,取平均值。经测试发现,本研究方法控制精度为96.23%,统计学方法控制精度为78.36%,数据挖掘方法控制精度为69.85%,本研究方法控制精度最高。

3 结论

提出了一种新的基于大数据分析的农产品质量控制方法,建立大数据分析背景下农产品质量控制体系框架,通过基于ZigBee的无线传感网络对数据进行采集。通过检测历史异常数据和数据分布异常对农产品数据进行分析,实现农产品质量监控,利用RFID射频识别对出现质量问题的农产品进行溯源和召回,从而实现农产品质量控制。经试验验证,本研究所提方法能够有效控制农产品质量,控制精度和稳定性高。

猜你喜欢
控制精度半成品类别
装饰石材半成品板补胶、定厚技术操作(二)
装饰石材半成品板补胶、定厚技术操作(一)
MW级太空发电站微波能量波束指向控制精度分析
服务类别
欧瑞传动SD10系列伺服系统在无缝针织内衣机上的应用解决方案
论类别股东会
中医类别全科医师培养模式的探讨
聚合酶链式反应快速鉴别5种常见肉类别
平行结转分步法下约当总产量确定