基于廊坊市部分商户数据的评判模型与算法分析

2020-10-21 20:59郝国栋曹瑞华李高升李新悦
青年生活 2020年8期

郝国栋 曹瑞华 李高升 李新悦

摘要:步入新时代以来,国民的收入水平不断提升,生活水平及生活质量得到极大改善,尤其是临近2020年我国即将全面建成小康社会的目标的实现,食品安全日益成为人们关注热点,市场上存在着各式各样的饭店,政府无法及时的将饭店食品安全检查结果传递给广大消费者,从而出现餐饮行业卫生安全问题层出不穷,使得人们对餐饮食品安全产生怀疑。食品安全关系到国民切身利益,关系到经济健康发展和社会稳定。而食安之健康服务平台的创立旨在衔接广大消费者与地区相关政府部门,将商户卫生安全情况及时反馈消费者,为消费者提供卫生健康优质的商户选择,并监督商户配合管理部门及时整改,推动该地区整体餐饮行业环境向卫生安全健康方向发展。

本文基于该平台前端数据反馈,采用层次分析法对主要影响商户评判的各个因素进行分析,对各商户进行综合评估打分。并对商户所得分值采用快速聚类法进行层次等级划分,目的为方便客户对商户的判别。

关键词:AHP;快速聚类;商户评判;SPSS

一.问题分析

收集可以反映餐馆整体情况的相关信息,包括营业执照、卫生许可证、食品从业人员健康检查、培训资料证明,和质量技术监督部门要求提供的其他资料等各种正规的证件信息,政府相关部门对商户检查情况和消费者本身对商家的反映情况数据。本文采用层次分析法建立评价模型,最大化反映商户实际整体情况,基于商家实际数据通过数学模型计算出来的分值,对计算出来的分值数据进行快速聚类分析算法,对数据进行划分等级,从而更清晰的将情况反映给客户及商家。

二.符号说明

三.模型的建立与求解

1.步骤一模型的建立与求解

1.1 AHP模型说明

层次分析法(AHP)作為一种综合评价方法,以其所具有的定性和定量相结合的优点在目前的安全领域研究中取得广泛应用。层次分析法的优点是能将复杂的问题进行分解,为最佳方案的选择提供科学依据,为决策层作出正确的决策提供理论参考。在进行社会的、经济的以及科学管理领域问题的系统分析中,面临的常常是一个由相互关联、相互制约的众多因素构成的复杂缺少定量数据的系统。层次分析法为这部分问题的决策和排序提供了实用的建模方法。

1.2 问题分析与求解

通过平台收集数据及线下调查获取商家相关安全信息和客户反映信息,包括营业执照、卫生许可证、食品从业人员健康检查和培训资料证明以及质量技术监督部门要求提供的其他资料等各种正规的证件信息。综合上面考核信息主要分为六大类影响因素,采用层次分析法建立模型,综合评价商家整体情况。

在这个模型下,将问题分解为多个元素的组成,这些元素又按其属性及关系形成若干层次。上一层次的元素作为准则对下一层次有关元素起支配作用。

(1)最高层:这一层次为目标层,反映最终评价分值。

(2)中间层:这一层次中为实现目标所涉及的中间环节,包含所需考虑的准则:营业证件完善度、从业人员健康证、食品安全检查评审、客户评价、环境污染相关证件、消防安全相关评审。

(3)最底层:这一层次为可供选择的各商户。

采用调查问卷形式,对以上五种因素进行数据统计,对每一因素打分分值求均值,确定准则层判断矩阵B;bij表示的意义为与指标j相比,i的重要程度。

中间层判断矩阵A,通过平台反馈数据及实际调查对商户单项因素打分进行两两比较。

计算一致性指标CI

CI=(λmax-n)/(n-1)

查找相应的平均随机一致性指标RI。

计算一致性比例CR

CR=CI/RI

当CR<0.10 时,认为判断矩阵的一致性可以接受

最终由算术平均法和特征值法两组权重求平均数得出最后评分准则权重:营业证件完善度:0.2413、从业人员健康证情况:0.2002、食品安全检查评审:0.1442、客户评价:0.1123、环境污染相关证件:0.0667、消防安全相关评审:0.1283

2.步骤二模型的建立与求解

2.1 模型说明

聚类分析方法能够对各种事物的性质进行直接的比较。在数据分析中,这是一种重要的数据分析技术,并有着广泛的应用。在大样本聚类分析中,传统的聚类分析能够实现对数据进行分类的需求。本文应用的k-mean聚类方法可以对测量数据快速分类。这种方法中,数据被视为k维空间中的点,通过距离实现对个体之间亲疏程度的判别。

2.2 问题分析与求解

本文以调查的廊坊市多家商户具体情况为例,采用步骤一模型进行计算,计算后的数据采用SPSS软件进行聚类分析求解。指定聚类成3类,SPSS确定3个类的初始类中心点。SPSS根据样本数据的实际情况,选择3个由代表性的样本数据作为初始类中心。需要指定3组样本数据作为初始类中心点。计算所有样本数据点到3个类中心点的欧氏距离,SPSS按照距3个类中心点距离最短的原则,把所有样本分派到各中心点所在的类中,形成一个新的类,完成一次迭代过程。其中计算公式为:

式中,k表示每个样本中有个变量:示第一个样本在第i个变量上的取值:yi表示第二个样本在第i个变量上的取值。SPSS重新确定k个类的中心点。SPSS计算每个类中各个变量的变量值均值,并以均值点作为新的类中心点。重复以上计算过程,直到达到指定的迭代次数或终止达代的判断要求停止。

将数据录入SPSS中,检查数据是否有录入错误,是否有不合理的数据,最后做一个描述性统计,进而查看那些数据是不合理的。对SPSS进行相关参数的设置,对数据进行分析:

通过表格可以得出分值聚集在0.69分为一类共有36户商家,3.58分为一类共有59户商家,1.95分为一类共有192户商家。

通过以上数据反映出以廊坊部分商户餐馆评分数据总体上的情况,聚类分析用户被分为三类,基于以上研究可以进一步为客户判别提供直观视觉,在实际应用中,为用户更直观的反映餐馆商户具体情况。

四.模型结论及改进

通过平台前端数据反馈,应用层次分析法实时基于商户的各判别因素进行计算,对各商户进行综合评估打分。同时对商户所得分值实时采用快速聚类法进行层次等级划分,在初步实践应用中显示出较良好的判别能力。

但在采用快速聚类分析同时,模型本身对 K 值敏感。K 的选择会较大程度上影响分类效果。在聚类之前,本文方案预先设定 K 的大小为3,但是实际上很难确定分成几类是最优的,是当数据量很大时,预先无法判断。在模型计算中,对离群点和噪声点比较敏感。K-means 是随机选择 K 个点作为初始的聚类中心。我们可以对这个随机性进行一点约束,使迭代速度更快。只能聚凸的数据集。所谓的凸数据集,是指集合内的每一对点,连接两个点的直线段上的每个点也在该集合内。若采用 Bregman 距离,则可显著加强此类算法对更多类型簇结构的适用性。

针对K值的选择,主要是k的值须预先设定,并在整个算法执行过程中无更改。此时,可以应用 ISODATA 算法。虽有很多启发式用于自动确定 k 的值,但是实际应用中,仍然基于不同的 K 值,多次运行取平均值。从而提升等级划分算法的可靠性。

参考文献:

[1]范宓.层次分析法在安全评价中的应用[J].陕西煤炭,2011,30(6):76-77. DOI:10.3969/j.issn.1671-749X.2011.06.036.

[2]司守奎, 孙兆亮. 数学建模算法与应用[M]. 第2版. 北京: 国防工业出版社, 2016.

[3]匡宸毅. 聚类分析及其spss实现[C]. 管理科学和工业工程协会.探索科学2016年6月学术研讨.管理科学和工业工程协会:管理科学和工业工程协会,2016:102.

[4]周志华.《机器学习》[J].航空港,2018,000(002):P.94-94.