基于面向渠道促销场景多维分析的方法研究

2021-12-12 01:12曾剑明
科技信息·学术版 2021年32期
关键词:直方图神经网络距离

摘要:现场促销是促进业务发展的重要方式之一。但是基于促销的图片进行酬金结算涉及到很多问题,例如促销经纬度、促销图片、促销时长是否符合要求等,基于人工稽核将是非常繁琐的过程。基于此,提出了基于面向渠道促销场景多维分析的方法研究,大幅提升稽核效率,促进业务健康发展。

一、引言

每个流通企业都有自己渠道促销的手段,其核心点也大同小异。在产品严重同质化、促销手段也大体类同的情况下,有效的促销策略显得非常重要,毕竟,从产品的本质和市场上来看,还有季节性、地域性等等之分。目前家宽发展已经到了同质化竞争的阶段,用户对资费的敏感度下降了,如何打造优质的售后服务,才是保持竞争力的有力手段。公司通过下达任务,让渠道点完成一定数量场次的促销活动,同时也会结算相应的酬金,但是如何避免渠道虚假促销,这就是本项目研究的重点工作了。

二、现有稽核技术的缺点

目前的图片稽核技术方案采用的是直方图算法。直方图能够描述一幅图像中颜色的全局分布,而且容易理解和实现,所以入门级的图像相似度计算都是使用它的。

直方图算法是对源图像与要筛选的图像进行直方图数据采集,对采集的各自图像直方图进行归一化再使用巴氏系数算法对直方图数据进行计算,最终得出图像相似度值,其值范围在[0,1]之间0表示极其不同,1表示极其相似(相同)。

算法步骤大致可以分为两步,根据源图像与候选图像的像素数据,生成各自直方图数据。第二步:使用第一步输出的直方图结果,运用巴氏系数(Bhattacharyya coefficient)算法,计算出相似程度值。

现有的技术方案是根据两个图像的直方图数据来计算相似度值,直方图反应的是图像灰度值得概率分布,并没有图像的空间位置信息在里面,因此,会出现误判;比如纹理结构相同,但明暗不同的图像,应该相似度很高,但实际结果是相似度很低,而纹理结构不同,但明暗相近的图像,相似度却很高。

为了解决这一问题,本技术方案采用的是孪生神经网络模型,可以提取图像的局部特征变量,从全局的角度进行综合比较,Siamese Network有两个结构相同,且共享权值的子网络。分别接收两个输入X1与X2,将其转换为向量Gw(X1)与Gw(X2),再通过某种距离度量的方式计算两个输出向量的距离Ew。这种方式可以克服图像明暗度不同造成的误判,提高了相似度计算的准确性。

同时构建全方位、多层次的稽核方式,能够更好的识别渠道是否虚假促销。具体如下:

三、构建多层次立体化审核体系

1、构建图像识别模块

孪生神经网络(Siamese Network)是一种特殊类型的神经网络架构,是一种相似性度量的方法。与一个学习对其输入进行分类的模型不同,孪生神经网络学习在两个输入中进行区分,从数据中去学习一个相似性的度量。孪生网络由两个完全相同的神经网络组成,每个都输入一个图像,然后依次馈送到卷积层、池化层和全连接层,最后输出一个特征向量到对比损失函数中,来计算两个图像之间的相似度。孪生神经网络可广泛用于签名验证、人脸识别等领域。网络结构如下:

caffe的孪生神经网络采用的损失函数(Contrastive Loss function)是

其中:

① Ew被定义为姐妹孪生网络输出之间的欧氏距离(euclidean distance),Gw是其中一个姐妹网络的输出,X1和X2是输入数据对。

② Y值为1或0:如果模型预测输入是相似的,那么Y的值为0,否则Y为1。

③ m是阈值。

我们通过以下方式来理解一下损失函数:①当输入图像相似时,欧式距离越大,损失值越大;②当输入图像不同时,欧式距离越小,损失值越大,而欧式距离大于某个阈值m后将不再产生损失。

1.1、制作数据集

1.1.1、我们从系统上的促销工单中批量导出图像,然后对这些图片进行分类,将相似的图片分成一组,不相似的归为另一组,共制作100对样本。

1.1.2、读取数据,划分输入数据集(图片信息列)和输出数据集(label列),同时划分训练集和测试集

1.2、搭建孪生神经网络模型

1.2.1、对图像进行灰度化处理

1.2.2、调整输入图像为100*100,同时接受2张图片作为输入。

1.2.3、子网络包括3个卷积层和3个全连接层,卷积层的卷积核大小分别为3,3,3,每一个卷积层后均添加一个批量归一化层。归一化的引入是为了减少internal covariatie shift現象,其具体表现是在训 练深层网络的过程中,前面层参数的变化会影响后面每层的参数分布,导致了训练时只能选用较低的学习速率以及小心谨慎的参数初始化。而Batch Normalization层(BN)的引入允许我们使用更高的学习率以及不用太担心参数初始化的问题。

1.3、自定义损失函数

在孪生神经网络(siamese network)中,其采用的损失函数是contrastive loss,这种损失函数可以有效的处理孪生神经网络中的paired data的关系。

W代表两个样本特征X1和X2的欧氏距离(二范数),P 表示样本的特征维数,Y 为两个样本是否匹配的标签,Y=0 代表两个样本相似或者匹配,Y=1 则代表不匹配,m 为设定的阈值,N 为样本个数。

1.4、模型训练

1.4.1、读取训练集的数据,定义图像dataset,生成8维的图像数据。

1.4.2、实例化模型,设置学习率,定义优化器,lr设置为0.0005,训练100轮。

1.4.3、保存训练好的模型,下次加载模型即可直接使用,不需要再次训练。

1.5、图片预测

1.5.1、输入2张测试集的图片,进行实际的预测。

2、构建经纬度距离审核模块。

2.1 在距离计算方面,采取了原始数据分离抽取的技术,单独将每一个促销地点的经度和纬度分离出来,然后再利用距离计算函数(利用sin和cos函数进行球面弧长的计算)进行经纬度的计算,根据业务规则进行下一步的判断,输出不符合要求的促销工单号,进行退单处理。

2.2 提单密集度检测:

(1)根据执行人所属单位名称、日期输出分组数据

(2)根据分组后的结果,对于统计数据大于等于6的进行二次分析,先对每一组按照时间进行升序排序,然后

判断第一个时间与第六个时间是否在10分钟以内,如果是的话就判断第一个与第七个是否在10分钟以内,以此类推,

直到将第一个10分钟以内提交的单搜索出来。然后继续下一轮判断

(3)遍历所有的分组后,将不合规的工单编号输出,进行进一步的审核。

3、构建轨迹分析模块

根据渠道进行聚类分析,抽取出对应的渠道名称、经度、纬度等信息,设置定位的中心点,然后将该渠道对应的所有经纬度可视化在地图上,并绘制轨迹图。

通过距离判断,可以对可疑的渠道进行深入分析,探索是否出现不合理的促销地点,如活动距离远远超过促销的平均距离,则可判断该促销异常,需做进一步的核实处理。

4、构建数据可视化模块。

根据统计出来的数据,经过进一步的处理,通过可视化技术显示在数据大屏上,方便进一步做分析处理。主要包括以下几个子模块。

4.1 每日执行单量统计图,根据执行日期和发布日期,统计单日的工单量,通过散点图的方式绘制图形,并辅助以气泡图的形式形象的表示单量的多少。

4.2 各县促销场次分布图,从全量列表中分析出各县的促销场次,并用地图的方式来展现数据,辅助以颜色区间对数量做映射。

4.3 各类网点促销情况图,各类网点的等级和规模大小不一,因此开展的促销场次也有较大的差异,通过饼图的方式来展现各类网点的分布情况。

4.4 网格促销情况图,通过直方图的方式可以很直观地看到各个网格的促销情况,以便根据实际需要做进一步调整。

4.5 现场促销反馈词云图,每场促销都会将当次的促销情况用文字的方式进行反馈,但是这种方式不太直观,不能很好的了解整体的促销情况。根据文字生成词云图,可以大体的了解促销中反馈的问题情况,反馈问题越多的词语将会突出显示,便于管理员抓住重点问题进行整改。

4.6 个人促销数量排行榜,以上都是针对一个群体进行统计分析的,该模块是针对个人的一个统计情况,根据个人促销场次的统计数量,并排序输出,可以明显的看到促销较为积极的人员。

5、视图探索

根据图片审核结果,依照文件路径进行可视化展示,将对应的两张图片显示在软件上,避免了手工查找图片和比对的繁琐流程。

操作步骤:5.1、点击初始化,将所有不符合的组合重新编排,录入到系统中。

5.2、通过查看图片,或者点击上一组、下一组快速比对图片。

5.3、对于人工审核确实不符合条件的工单编号录入系统,导出到本地电脑,便于后续退单处理。

6、数据和图像处理模块。

6.1通过pandas来进行excel数据的处理,包括从excel数据加载到系统中,并且对日期、经纬度等字段进行切片处理,提取出有用的信息,同时对缺失值、异常值进行检测和处理,同时根据渠道点进行汇总统计,排序和筛选,进一步清洗数据,保证 系统接收到的是可以正常使用的数据。

6.2、图像URL下载模块。

首先从系统中批量获取图片的URL地址,然后放入循环体中进行逐一解析,获取响应数据并将数据存储在本地。由于下载的数据是一个压缩包,因此还需要进行解压操作,便于系统读取数据,节约了人工解压的时间。

四、总结

该项目采用孪生神经网络深度学习模型,孪生神经网络(Siamese network)就是“连体的神经网络”,神经网络的“连体”是通过共享权值来实现的。所谓权值共享就是当神经网络有两个输入的时候,这两个输入使用的神经网络的权值是共享的(可以理解为使用了同一个神经网络)。

创新点总结如下:

一、首次将孪生神经网络应用于图像识别,解决了样本量少的模型训练问题

二、改进排列组合算法,采用渠道点为核心的新算法,减少90%的计算量

三、开发了热力图和轨迹图展示模块,相比传统的图表展示方式,更加直观地查看促销点的分布和异常促销情况

通过对模型的数据采集、建模分析等,建立了一整套完整的体系,能够对渠道虚假促销场景进行精准识别,有力规避了渠道虚假套利现象,为公司的业务健康发展提供了有力保障。

作者简介:曾剑明,籍贯:广东省梅州市,广东移动梅州分公司,系统維护管理,高级工程师,大学本科,人工智能与软件开发。

猜你喜欢
直方图神经网络距离
基于人工智能LSTM循环神经网络的学习成绩预测
基于图像处理与卷积神经网络的零件识别
基于自适应神经网络的电网稳定性预测
距离美
用直方图控制画面影调
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
例析频率分布直方图
距离
中考频数分布直方图题型展示
床到马桶的距离