K—means算法在电子商务推荐系统中的应用

2015-07-29 04:29王珊珊

现代商贸工业 2015年14期

王珊珊

摘要：近年来，大数据的快速发展为电子商务带来了新的机遇，推荐系统便是大数据与电子商务平台结合的典型应用，能够大大提升用户服务质量，增加用户点击率。据此，介绍了经典的推荐系统并以此为基础描述了K-means算法在推荐系统中的应用。

关键词：电子商务；推荐系统；k-means；大数据

中图分类号：F49 文献标识码：A 文章编号：1672-3198（2015）14-0051-03

电子商务是在Internet开放的网络环境下，以在线形式实现用户、合作伙伴、供应商以及员工进行交互的商业运营模式。电子商务的涌现标志着商贸活动正从传统方式向电子信息化方向变革。今天，Internet为电子商务带来了飞速增长，同时电子商务平台的竞争也日益激烈，如何为用户提供更好的服务获取更多的商品点击率是各电商平台竞争的焦点。

1 协作型过滤技术

当前主流的推荐系统都是采用被称为协作型过滤的技术，该算法基于一个假设，即为用户找到他感兴趣的内容的方法是首先找到与其兴趣相似的用户，然后将这些用户感兴趣的内容推荐给目标用户。其通用做法是对海量用户进行搜索，并从中找出与目标用户相似度最高的部分用户。算法会对所有用户进行考查，并进行组合构造出一个经过排名的推荐列表。

协作型过滤分为：基于用户的协作型过滤和基于物品的协作型过滤。

1.1 基于物品的协作型过滤

将用户对物品的喜好，当作是物品的一个属性来看待，也就是说，有多少用户喜欢某物品，那么可以将该物品看作有多少个维度的属性，具体偏好就是维度的属性值。然后通过相似度算法，来计算物品间的相似度。当大部分用户购买的商品很少的时候，基于物品的协作过滤效果比较好。

1.2 基于用户的协作型过滤

将用户购买的物品看作是这个用户的不同维度的属性，很显然，大部分用户买了多件物品的数据，采用这种方法效果比较好。

2 相似度度量

协作型过滤系统需要通过相似度计算来获取用户间/物品间的相似度，通用的相似度评价体系有：欧几里得距离和皮尔逊相关度。

2.1 欧几里得距离

欧几里得距离（Euclidean distance）也称欧式距离，它是一个通常采用的距离定义，它是在n维空间中两个点之间的真实距离。

在二维和三维空间中的欧式距离的就是两点之间的距离，二维空间的公式：

2.2 皮尔逊相关系数

皮尔逊相关系数是一种度量两个变量间相关程度的方法。它是一个介于1和-1之间的值，其中，1表示变量完全正相关，0表示无关，-1表示完全负相关。该系数是判断两组数据与某一直线拟合程度的一种度量，在数据不规范的时候，该系數会倾向于给出更好的结果。

3 聚类算法在推荐系统中的应用

协作型过滤技术在推荐系统中的应用已经非常成熟且取得了很好的效果，但是随着移动互联网的发展，数据量的逐步增大，通过搜索全部用户寻找与目标用户相似度排名较高的用户会极大的影响推荐系统的效率，特别是一些实时性要求较高的系统中，效率问题会更加凸显。

因此在大数据环境下，一种通过离线聚类在线搜索的方式，提高推荐系统效率的方法可以有效提升系统效率而不损失推荐效果；首先在收集到大量用户数据后，预先对后台用户数据进行聚类，然后通过人工方式对各个类别进行标注，当有用户需要推荐时，仅仅对用户当前关注商品的类别已及相邻类别中的数据进行搜索，这样可以大大减少搜索的范围提升系统效率。

3.1 K-means算法

K-means是发现给定数据集在k个簇的算法。簇个数k是用户给定的，每个簇通过其质心（centroid），即簇中所有点的中心来描述。

K-means算法的工作流程如下：首先，随机确定k个初始点作为质心。其次，将数据集中的每个点分配到一个簇中。即为每个点找距离其最近的质心，并将其分配给质心所对应的簇中。最后，每个簇的质心更新为该簇所有点的平均值。

3.2 二分K-means算法

为了克服K-means算法收敛于局部最小值的问题，于是二分K-means算法被提出了。该算法首先将所有点作为一个簇，然后将该簇一分为二，然后选择其中的一个簇继续进行划分，具体选择哪个簇可以由其划分是否可以最大程度上降低误差的值为标准。不断重复基于误差的划分过程，直到得到用户所指定的数目为止。

二分K-means源码如下：

4 总结

本文主要介绍了电子商务领域最重要的推荐系统之一，协作型过滤技术的算法及主流的相似度计算方法，并以此为基础介绍了K-means算法在推荐系统中的应用。

K-means算法及其改进算法的引入可以在不损失推荐效果的前提条件下，有效的提高系统的效率，获得更好的用户体验。

参考文献

[1]P.S.Bradley and U.M.Fayyad.Refining Initial Poins for k-means Clustering[C].In proc.of the 15th Intl.conf.on machine learning：91-99.

[2]张娜.电子商务环境下的个性化信息推荐服务及应用研究[D].合肥：合肥工业大学，2007.

[3]张建萍，刘希玉.基于聚类分析的K-means算法研究及应用[J].计算机应用研究，2007，24（5）：166-168.

[4]贾磊，丁冠华.数据挖掘中的K-means算法及改进[J].福建电脑，2006，（11）：47-56.

[5]B.S.Everitt，S.Landau，M.Leese.Cluster Analysis.Arnold Publishers[C].London，fourth edition，may，2001.