电商基于大数据的关键技术研究

2018-03-08 03:13俞涛
科技资讯 2018年36期
关键词:聚类数据挖掘电商

俞涛

摘 要:电商使用个性化推荐系统分析用户的兴趣偏好,帮助用户从庞大的商品目录中挑选真正适合自己需要的商品,为每个用户提供个性化服务。在很多电商个性化推荐技术中,作为当今运用最广泛、最成功的推荐策略,从而改善了SVM算法在电商数据挖掘方面的性能,并且验证了采用数据挖掘算法应用到电商研究是可行的,并且具有较高的准确性。

关键词:SVM 电商 聚类 数据挖掘

中图分类号: TP311 文献标识码:A 文章编号:1672-3791(2018)12(c)-0035-02

随着新一代社交网络、数字城市等大规模互联网应用的迅猛发展。大数据的特点为:(1)弹性服务。(2)按需服务。(3)资源池化。(4)服务可计费。(5)泛在接入。大数据主要就是云架构计算技术,并且云架构计算是分布式计算、互联网技术以及大规模资源管理等技术的发展与融合,其应用和研究涉及资源虚拟化、信息安全、海量数据处理等亟待处理的重要问题。

数据挖掘于2003年正式开启开发和研究工作,美国的七所顶尖院校的研究人员共同提出了“数据挖掘VGrADS和网格虚拟化”的项目,之后Amazon、Giftag、Saleforce.com以及IBM都使用数据挖掘来提高自己在业界的竞争力。针对数据挖掘算法以及在解决电商研究领域中解决复杂问题的优势及不足,本文提出一种基于支持向量机SVM算法的电商聚类算法,并将基于随机森林模型下的基尼指标特征加权的支持向量机方法应用于电商分析中。从而改善了SVM算法在分类识别方面性能,并且验证了采用数据挖掘算法应用到电商研究是可行的,并且具有较高的准确性。

1 利用数据挖掘技术进行电商研究的流程

随着新一代社交网络、数字城市等大规模互联网应用的迅猛发展。大数据的特点为:弹性服务。大数据主要就是云架构计算技术,并且云架构计算是分布式计算、互联网技术以及大规模资源管理等技术的发展与融合,其应用和研究涉及资源虚拟化、信息安全、海量数据处理等亟待处理的重要问题。数据挖掘的过程主要包括以下几个方面:

(1)根据已知的条件,确定数据挖掘目的。

(2)需要挖掘数据的准备,即对数据的清洗、数据的筛选等步骤。

(3)根据选定的算法对已有的数据进行挖掘。

(4)依据上述挖掘的结果,对数据挖掘的模式评估与知识进行表示。

2 支持向量机SVM算法

2.1 支持向量机SVM算法

支持向量机SVM算法将我们待解决的问题通过一个二次规划来进行解决。例如,通过假设样本集上存在超平面能够将已有的樣本划分为两大类,其中训练集为,那么有一个超平面能使两类样本到其距离的和能达到最大值,那么该平面为超平面,并且超平面的计算公式为:

(1)

(2)

其中,是松弛变量,是一个阈值,是惩罚参数。

我们将上述计算最佳平面的问题通过Lagrange算子转化为二次规划的对偶问题,其计算公式为:

(3)

(4)

其中,是Lagrange乘子,解决此对偶问题得到的决策函数为:

(5)

虽然支持向量机SVM的理论目前的应用领域很广泛,但是它在我们实际的应用过程中还会遇到一些如核函数的选择、归纳、优化及内积参数寻优等问题。

2.2 改进的支持向量机SVM

特征加权支持向量机由核函数经特征加权构造的支持向量机。并且特征加权核函数定义为:

(6)

改进支持向量机SVM算法的详细步骤如下:

Step1.确定样本集S,即为:

其中为特征变量,为类别量。

Step2.所得指标参数对其相应的特征属性加权,构造加权的特征向量:来优化核函数中的原始特征内积。

Step3.构造待输入空间的线性变换矩阵,以建立特征加权的核函数。

Step4.应用所构造的特征加权的核函数在程序设计中替换传统的支持向量机SVM模型中的线性核函数,并且输出核心的SVM构造分类器,与此同时,对构造的改进的支持向量机SVM算法进行性能测试。

3 基于SVM算法的电商协同过滤推荐

本文将SVM,FWSVM,改进的支持向量机SVM3种算法在数据库中的多个电商研究电商分析数据集上进行了实验,将数据集分别应用前面所提到的SVM,FWSVM,改进的支持向量机SVM三种算法在MATLAB 2014a环境中进行仿真实验,其统计结果如图1所示。

UCI电商研究电商分析数据集对比实验结果的分析如图1所示,在这5个分析数据上,可以看出本文所提出的改进的支持向量机SVM算法平均的识别性能相对最高,而经典的SVM算法的识别性能最差,但总体而言,本文所提出的改进的支持向量机SVM算法在电商研究中识别的正确率最高,效果最为明显。

4 结语

通过分析数据挖掘算法以及在解决电商研究领域中复杂问题的优势及不足,提出一种基于支持向量机SVM算法的电商聚类算法,并将基于随机森林模型下的基尼指标特征加权的支持向量机方法应用于电商分析中。从而改善了SVM算法在分类识别方面性能,而且验证了采用数据挖掘算法应用到电商研究的可行性以及准确性,实验结果表明,本文所提出的改进的支持向量机SVM算法在电商研究中识别的正确率最高,效果最为明显。

参考文献

[1] Valentine K, Kopcha TJ. The embodiment of cases as alternative perspective in a mathematics hypermedia learning environment[J].Educational Technology Research & Development,2016,64(6):1-24.

[2] 黄晟.基于变电站为中心的配电网电压态势图片图形特征的态势评估模型及算法[D].杭州电子科技大学, 2017.

猜你喜欢
聚类数据挖掘电商
基于模糊聚类和支持向量回归的成绩预测
社交电商,春天来了?
基于流形学习的自适应反馈聚类中心确定方法
数据挖掘综述
基于密度的自适应搜索增量聚类法
软件工程领域中的异常数据挖掘算法
基于R的医学大数据挖掘系统研究
大型电商十大热卖玩具排行榜
大型电商十大热卖玩具排行榜
VC和电商的互相绑架