基于聚类算法的电子商务日志挖掘商业智能研究

2014-03-26 16:48广西国际商务职业技术学院黄绍川
中国商论 2014年1期
关键词:标称日志页面

广西国际商务职业技术学院 黄绍川

随着计算机网络技术、智能终端等的高速发展,国外的Amazon,国内的淘宝、腾讯拍拍等电子商务网站都在以前所未有的速度在壮大。2012年6月11日,苹果公司在全球开发者大会(WWDC)上宣布,iOS 6操作系统将提供名为Passbook的功能,该功能将整合来自各类服务的票据,包括电影票、登机牌、积分卡和礼品卡等,这是电子商务与移动端最新的发展成果。相对于传统的商务贸易形式,网络购物凭借其足不出户的购物体验和极具竞争力的价格迅速网络了一大批忠实拥趸,其中既有消费者也有商家。电子商务的异军突起既为广大商家提供了机会和巨大利润空间,也带来了一系列技术挑战[1]。商家的经营者希望网站能够捕捉到海量访问数据背后蕴藏的商机,但网站的设计者们通常是根据店面所需和自身技术经验来对网站进行架构设计与布局规划,很少考虑到顾客本身的浏览行为并对其定量分析,使得所设计的网站并没有“抓住”客户,而是使其在不断地寻找感兴趣的商品的过程中失去耐心。不过在技术层面上,电子商务网站的Web服务器与数据库会对访问与交易信息进行记录,以Web日志形式进行保存,而且这些日志结构清晰,格式规范,从而为基于Web日志进行商务挖掘提供了绝佳的数据基础与无限可能。因此,如何采用计算机技术挖掘电子商务网站中日志信息并提取出用户的兴趣点,向用户推荐商品,继而为用户提供个性化服务,最终实现商家获利,成为一个值得研究的具有理论和应用价值的问题。

1 应用于网络日志的数据挖掘与聚类分析

聚类分析是数据挖掘中的重要方法。近年来,采用标称数据的聚类方法成为计算机科研人员的主要研究内容。标称数据是指由非数值型数据所组成的数据与属性集合。例如,工作单位就可以作为一个标称属性,其状态可以为国家机关、企事业单位、民营经济实体等。类似的,Web电子商务用户的会话也可以作为标称数据来处理。标称数据可以用整数、字母、符号来表示其属性,但即使是用整数等数值形式,其各状态间也不存在大小关系,因此,通常在标称数据上并不可以使用聚类算法中常用的距离衡量方法。

针对Web日志的聚类包括页面聚类和用户聚类两种方法。页面聚类是对用户访问浏览的网页历史进行挖掘提取,提取出相似的信息并分类,挖掘出不同用户群体最关注的产品和服务,从而对不同兴趣和爱好的用户提供满足其需求的信息,这将大大提高用户的回头率和忠诚度。用户聚类是根据用户在网络访问时产生的会话与行为,判断用户行为模式的相近程度并进行分类。

在Web日志文件中,用户访问网站的原始信息得以记录与保存,但是,通常情况下,这些数据是支离破碎的,或者含有噪声数据,即有的兴趣点属性缺少值,或只含有聚类数据。由于其不一致性,直接对其进行数据挖掘是不易实现的。对网络日志进行挖掘产生的数据还需要经过一系列数据预处理工作,包括数据分类、用户提取、会话整理、路径信息提取等。

2 电子商务网站中用户兴趣表示的传统方法

目前,主要有两种方法用于研究用户访问网站的兴趣判断与分析。第一种是对用户访问网站的URL信息进行研究,根据访问兴趣建立有序关系及映射;第二种研究是将URL视作整体,不再对路径进行拆分分析,而是直接研究用户访问此URL的次数、时间、频率等因子,并用这些因子度量该用户对这个URL感兴趣的程度。

最近提出的一种度量用户兴趣的方法的研究对象不再仅仅参考用户点击的URL,而是汲取以上两种精华,采用日志中的UriQuery项作为研究对象,主要出于以下两种原因:

首先,是用户访问商务网站进行查询时提交的具体参数为UriQuery,通过它可以直接定位到具体的资源。

其次,相比于用户访问的参数,其在网站上进行搜索的信息与用户兴趣更加密切,因为在用户打开商家页面时,如果没有发现其想要的信息,会通过“搜索”表单来进行输入并在数据库中查询目标内容,服务器会通过UriQuery属性列保存此信息。因此,UriQuery项能更好地反映用户的兴趣是显而易见的,适合作为Web日志挖掘的主要对象来对用户兴趣进行度量和采集。

3 一种新的页面兴趣度量方法

本文中的数据来源于腾讯拍拍网,腾讯公司建立拍拍网的目的也和淘宝网类似——建立商家与个人的C2B平台。前文所述的页面兴趣度量算法应用于这类复杂的C2B或者C2C模式的电商网站时,只是用页面访问、点击以及搜索的历史数据来对用户的兴趣点进行衡量的话,并不能完全地作出全面准确的反应。因此,需要重新研究网络日志中的各类电商用户兴趣的影响因素并设计一种可以全面、准确的对用户兴趣进行衡量与体现的方法。

通过分析Web日志文件的结构与内容,可以发现对用户页面兴趣度量的影响因素主要有:网络用户访问页面所花费的时间、服务器与接收的数据量的数据记录(点击次数不能在Web日志文件中直接以属性列反映出来),具体数据如表1所示:

8053 437 16566 230 8054 187 241 292 8055 15953 39249 172 8056 1250 19620 394 8057 156 380 698 8058 78 1399 876 8059 343 23700 244 8060 250 7971 291 8061 12109 26336 180 8062 265 343 438 8063 17843 20584 235 8064 234 415 661 8065 656 31823 300 8066 1968 343 706 8067 250 174 355 8068 250 174 634

在数据分析软件SPSS(Statistical Product and Service Solutions)里导入全部记录,进行分析,数据记录共有75169条,经过用SPSS软件做数据相关性分析,通过Person Correlation分析得出如下分析结果如表2所示:

表2 相关分析的描述统计表

从以上表格与分析结果中可以发现,用户只需要1420.82毫秒的平均时间用于浏览页面。这不到2秒钟的极短时间里,所包含的可能行为是:(1)用户提交搜索参数,但没有搜到所想要的兴趣点内容;(2)或者搜索结果呈现了其兴趣点的链接,用户第一时间转至感兴趣的页面。而(2)是网站高效与所希冀得到的结果。

从表格中还可以发现,服务器平均发送19294.12字节,远远大于平均接收的435.99个字节。即服务器在用户发送请求后,会把相关的大量字节的数据信息反馈给用户,其中既会有用户所感兴趣的内容,也可能包括其他无效链接甚至广告。

通过对比Pearson相关系数,可以发现,服务器发送字节数、接收字节数以及用户的浏览时间的系统都是在0~0.3之间,即它们是微弱相关的。换句话说,即用户浏览页面的时间几乎不受服务器字节发送与接收的多少的影响。因此,本文在对用户兴趣度量因素进行考虑时,也不需要考虑服务器发送接收字节数的影响。

本文定义Pm×n为页面兴趣矩阵,计算方式如下:

其中,Pij=tij/fij;

i=1,2,3,……,m j=1,2,3,……,n;

tij:用户i浏览页面j的消耗时间;

fij:用户i点击页面j的次数;

Pij=tij/fij:用户i浏览页面j的平均时间。

经过上述矩阵所计算得到的页面兴趣实质上为第i个用户浏览页面j所花费的平均时间。此计算算法可以较好地排除用户页面兴趣受偶然兴趣的影响,因此可以较准确地对用户所感兴趣的程度进行反映。

4 结语

当前已经是计算机网络主导的电子商务时代,其已经在各行各业中得到了极为广泛的应用,并为广大厂商与用户带来了巨大的利益与方便。而如何进一步挖掘电子商务中所产生的海量数据信息,获取到有用的隐性知识,是一个具有高度价值与前景的课题。集成了数据仓库、数据挖掘技术一体的商业智能,则为显性知识中的隐性挖掘提供了良好的方式,为企业提供有价值的信息以支持决策。本文针对电商网站的访问日志数据,提出了一种改进的有效指数K-Means算法,解决了传统聚类算法的初始值问题,并进行了相关的实验验证分析。实验证明了算法的科学性与正确性,且具有较高的计算效率,可以较好地应用于Web日志的挖掘分析中。

[1] R.Cooley.Web Usage Mining:Discovery and Application of Interesting Patterns from Web data[D].PhD thesis,Dept.of Computer Science,University of Minnesota,May 2000.

[2] 郑先荣,汤泽滢,曹先彬.适应用户兴趣变化的非线性逐步遗:怎协同过滤算法[J].计算机辅助工程,2010,16(2).

[3] 涂承胜,鲁明羽,陆玉昌.Web挖掘研究综述[J].计算机工程与应用,2003(10).

[4] 陆丽娜,杨怡玲,管旭东,魏恒义.Web日志挖掘中的数据预处理的研究[J].计算机工程,2000,26(4).

[5] 陈志敏,沈洁.基于W曲日志的混合挖掘模型研究[J].扬州大学学报(自然科学版),2007,10(3).

[6] 王绪林,刘培刚.基于Web使用挖掘的用户个性化服务研究[J].情报理论与实践,2003,26(1).

[7] 高哲,魏海平,王福威,赵晓碧.基于Web日志挖掘的Web文档聚类[J].计算机工程与设计,2008,29(18).

[8] 陈敏,苗夺谦,段其国.基于用户浏览行为聚类Web用户[J].计算机科学,2008,35(3).

猜你喜欢
标称日志页面
刷新生活的页面
一名老党员的工作日志
答案
让Word同时拥有横向页和纵向页
扶贫日志
五等量块快速测量方法
雅皮的心情日志
雅皮的心情日志
柒牌、贵人鸟等标称商标服装商品上不合格名单
这些肥料不合格