面向用户互联网访问日志的异常点击分析

2010-07-18 03:11刘奕群马少平茹立云
中文信息学报 2010年3期
关键词:访问量多用户搜索引擎

王 倩,刘奕群,马少平,茹立云

(智能技术与系统国家重点实验室,清华信息科学与技术国家实验室(筹),清华大学计算机科学与技术系,北京100084)

1 引言

据统计,截止2009年12月30日我国网民人数已达到3.84亿[1]。随着互联网逐渐深入人们的日常生活之中,围绕着网络已经形成一个庞大的产业链,如搜索引擎、门户网站、视频网站、博客网站,以及应用在这些网站的种种网络营销。这些资源在丰富网民信息来源的同时,给互联网公司带来了巨大收益。如何在众多竞争对手中脱颖而出,吸引更多的网民注意力,成为了各家互联网公司关注的核心,而用户行为分析,是各个公司获取用户反馈信息从而改进服务的最重要手段之一。

随着搜索引擎技术的发展,由搜索引擎公司提供的浏览器工具栏越来越为广大网络用户所接受。浏览器工具栏可以为用户提供直接的搜索引擎访问接口,同时也可以提供弹出窗口过滤、下载加速、网络书签等多种附加功能。目前的主流搜索引擎公司都推出了自己的浏览器工具栏服务,如谷歌(http://toolbar.goog le.com/)、雅虎(http ://toolbar.yahoo.com/)、百度(http://bar.baidu.com/)、微软(http://toolbar.live.com/)等不少公司还把工具栏与其他软件产品捆绑发行以加强推广。与此同时,大多数搜索引擎供应商也通过工具栏基于匿名策略收集用户的Web访问行为数据,以便为工具栏用户提供更多个性化的增值服务。最近,一些研究人员也开始利用这部分Web访问行为数据对网络用户的行为特征加以研究和利用。

如今,基于互联网访问日志的用户行为分析被广泛应用于搜索引擎算法改进[2-4],竞价广告投放[5],作弊页面识别[6]等方面的研究中。这方面研究中的一个核心问题是:如何基于互联网访问日志进行用户行为分析,并得到真实的用户意图。我们在分析某商用搜索引擎公司的互联网访问日志时,发现用户日志中有很多异常点击,一般是人为不能做到的,还有一些点击很难理解为用户的正常意图,极有可能受到了某种非正当目的的驱动。这些行为不仅干扰了互联网公司用户反馈信息的收集,而且可能提示着某类异常点击行为,对它们的研究不仅能够准确我们的用户行为统计,而且还对网络安全维护起着很重要的作用。

本文对某商用搜索引擎公司的互联网访问日志中的几种异常点击行为进行分析统计,提取出它们不同于正常点击的特征,分析隐藏在它们背后的真实目的,并给出在用户行为分析时处理这些异常点击行为的建议。虽然,本文涉及的仅仅是互联网访问日志的分析,但在一定程度上可以推广到其他日志分析中,具有一定的普适性。

论文其他部分的组织结构如下:第二节给出相关定义,介绍本文用于反映日志特征的几个统计特征,第三节为文章的主体,介绍统计实验,逐一分析了几种异常点击的特征,第四节结论,总结本文的观点,并提出今后工作的方向。

2 定义

这部分介绍本文用于反映用户行为的几个统计特征:访问集中度,用户平均访问量以及访问量时间分布,并给出了它们的形式化定义。

2.1 访问集中度

正常的用户点击日志,在点击记录数和访问过的站点数之间满足一定的关系,但是异常点击行为的这两个数据却可能呈现出不一样的关系。可能出现用户访问站点过于集中或过于分散的状况。访问集中度即是用来衡量用户访问过的站点数偏离正常情况的程度。正常情况下,点击记录数和访问站点数之间的关系,不是一个简单的数学关系,还和当时互联网上有多少站点有关。因此我们利用这样的方法来定义访问集中度:如果待研究的目标记录有N条,我们从一天的日志中随机提取与N相当的记录数rand(N)(我们采用的随机提取算法,不能保证精确提取N条,但是是与N相当的记录数),N条记录访问的站点集合为site(N),站点数为#site(N),随机提取记录访问的站点集合为site(rand(N)),访问站点数为#site(rand(N))。公式如下:

2.2 用户平均访问量

正常浏览互联网的用户群体,一天的访问量满足一个比较稳定的分布,有一个比较稳定的平均值,如果是有某种异常行为的用户群体,他们的平均访问量可能会有一些不同。

假设目标用户数为U,他们一天的点击数为click(U),用户平均访问量的公式如下:

2.3 访问量时间分布

对于用户一天的日志,其各个时间段的点击量分布,在一段时间内保持一个比较稳定的比例,但对于某些异常的点击,它的时间分布可能与所有点击的时间分布有所区别。定义点击量时间分布是一个24维的向量,如果一天的点击量为C,第i(0≤i≤23)维表示第i小时的点击量与一天总点击量的比,公式如下:

3 异常点击分析

3.1 数据准备

我们采用的互联网访问日志记录了用户的互联网浏览行为。日志记录的内容有:用户IP(IP信息经过加密处理);用户ID,日志收集工具随机分配给用户的一个序列号,正常情况下,用户一天内在一台机器上访问互联网,所留下的点击记录里用户ID是一致的;点击时间,点击发生的时间;目的地址,用户此次点击要访问页面的 URL;源地址,用户从该URL点击目的地址。可以看到,我们所采用的互联网访问日志,由于用户IP数据经过加密处理,而用户ID为日志收集工具自动分配,因此不涉及对用户个人隐私信息的记录。

我们采用了2008年12月中10天的数据,共234786 722条记录。

3.2 连续点击的分析

在日志分析中,存在一些用户点击频率过高的现象,表现为一秒钟连续点击多次,这种情况的异常性很明显。作为自然人的用户只有在刷新页面时才可能一秒钟点击两次以上,但是用户刷新页面的行为不能够完全解释一秒连续点击多次的现象,

3.2.1节和3.2.2节从不同角度对这一现象进行了分析统计。用户点击频率过高,也可能表现为一段时间内点击频率过高,3.2.3节对一分钟内用户点击频率过高的情况进行了分析。

3.2.1 连续点击多次的分析

在日志分析时,往往会看到这样的情形:一个用户在一秒之内发生连续多次点击,对于一个自然人有目的的点击,一般是不可能出现这种情况,那么如何解释这种情况,这样的点击与一般的点击如何区别呢?我们分重复连续点击(连续点击同一个目标页面)与非重复连续点击(连续点击不同目标页面)两种情况来进行讨论。

3.2.1.1 重复连续点击

首先,连续点击不同次数的点击分布如表1所示,可以看出连续点击两次的点击数,相对于连续点击三次及三次以上的点击数异常的高,分别分析这些连续点击的特征得到表1的结果。

从表1看到,在连续点击中完全重复的比例很高,尤其是两次连续点击,比例高达26.29%。对于这些连续点击,我们认为产生的原因如下:

1)用户偶然的刷新造成的记录重复,在重复点击次数过多时,这种情况发生的可能性不大。

2)有一些站点本身设计有问题,用户在点击这些站点时,会产生等同于双击或多次点击的效果致使日志上留下了几次完全一样的记录,这种情况的可能性也不大。

表1 重复连续点击特征统计

3)最后一种,就是与其他连续点击一样,是程序点击而非人为点击的结果。

对于这种重复点击,如果是前两种情况,最好的处理方法是去重,只记点击一次,但如果是第三种情况,则最好完全忽略。

3.2.1.2 非重复连续点击

由上一节可知,连续点击两次的情况相对于连续点击三次、四次、五次以上的情况,出现的频率高很多,所以我们分连续点击两次和三次以上来讨论,对它们的特征进行统计,得出表2数据。

表2 非重复连续点击特征统计

从表2可以看出,连续点击的访问集中度较高,而无源地址比例和目的地址非根目录比例均较正常日志有所区别。总的来说,非重复连续点击较倾向于访问网站的首页,而不深入访问子网页,说明了这种点击可能蕴藏着提高某些网站点击率的目的。所以,对于非重复的连续点击建议滤去。

3.2.2 多次连续点击的分析

实验统计,在用户一天的点击记录中,未发生连续点击的用户数为193528,发生连续点击的用户分布数据如表3所示。

从表3可以看出,随着用户连续点击出现次数的增多,平均访问量和访问集中度数据逐渐偏离一天日志的相应数据,但是无源地址比例和目的地址非根目录比例却没有太明显的变化,因为上一节统计已经说明,对于连续点击本身这两项数据都会偏离,但是因为这里我们统计的是用户的所有访问记录,所以可能用户其他的点击记录冲淡了连续点击记录的效果。对于这些用户访问过的站点进行统计分析,发现他们访问频率高的站点,与所有用户一天访问的情况相比有一定出入。对于出现1~3次连续点击的用户,这种差别很小,可以忽略,但是对于出现26次以上连续点击的用户,在其访问频率最高的前十位站点中,几乎没有太热门的网站。

表3 多次连续点击的用户点击特征

综上所述,我们认为对于出现1~3次连续点击的用户应该是偶然的结果,并非用户的本意,可以不用处理;出现4~25次连续点击的用户,应该并非偶然,但基本还可以相信其除去连续点击外的其他点击;但对于出现26次以上连续点击的用户,可以视情况滤去其所有点击。

3.2.3 一分钟点击过多的分析

如果用户的点击背后蕴藏了某种目的的话,也并非一定用一秒连续点击这种明显异常的手法,因此我们将时间粒度增大。我们以一分钟来划分session,那么一天的点击日志共有21 525 733个session,这其中绝大多数session只有一次点击,一个session里最多出现了58次点击,对于大多数用户的大多数session来说,2次以内的点击数是比较常见的。一分钟点击不同次数的用户分布,统计这些点击的特征如表4。

表4 一分钟点击多次的点击特征

分析表4可知,一分钟点击4次以上的用户各项数据与正常值相比均有较大偏差,与一秒钟连续点击的用户数据特征较为近似。于是我们通过实验观察在一分钟点击超过4次的点击记录里到底有多少来自一秒钟连续点击,实验结果证实,几乎100%的点击都来自一秒钟连续点击,由此可见,一个正常用户进行正常的网页浏览时,在一分钟之内点击4个以上页面的概率很小。

3.3 同一IP多用户的分析

根据IP进行日志分析的结果如下,一天的日志访问IP有327 981个,其中约95.50%的IP只有一个用户使用,约3.17%的 IP有两个用户使用,约0.66%的IP有三个用户使用,只有约0.67%的用户有三个以上的用户使用。我们分别提取有2~5个用户,有6~20个用户和有20个以上用户的IP进行分析。在一天的日志中,约87.04%的点击来自于只有一个用户使用的IP。

表5 单IP多用户的点击特征分析

从表5可知,多个用户使用的IP对应日志的统计数据与一天日志的统计数据并无太大偏差,进一步统计这些点击访问较多的站点,与正常的日志统计结果差异也不大,这与我们的预想一致,因为多用户的IP应该有相当大的比例是正常的代理IP,而个别不正常的IP可能也不是针对相同的网站,所以偏差不会太明显。尽管如此,在访问集中度这一项上,单IP多用户的点击明显倾向于点击更加集中的站点,这说明其中隐藏着带有目的性的异常点击。

在本节的实验中,我们对单IP多用户的点击行为作了一些分析。综上,这种现象中的确包含着比例较高的异常点击,不同于连续点击,这种现象也包含着很多正常点击。本节主要使用了IP对应的用户数和IP的集中度来对点击进行分类,这两种分类方法对于识别单IP多用户中的异常点击有一定的参考意义。

3.4 同一用户多IP的分析

一个用户一天内通常只使用一个IP,但有一些用户可能使用两个以上的IP。这种情况可能的一个原因是某些局域网设置动态IP,那么用户在关机重新开机后,IP可能改变。还有一个原因就是用户有意为之,例如使用代理服务器恶意频繁更换IP的情况。一天内用户使用的IP数分布如表6所示,而抽取使用2个以上IP用户的所有点击,分析其特征如表7所示。

表6 用户一天使用的IP数分布

表7 单用户多IP点击特征分析

与单IP多用户的情况类似,单用户多IP的点击,访问集中度也并没有太明显的提高,访问的热门站点也并没有明显的异常,但是用户平均访问量却相对较低(这里以相同用户相同IP为一个用户),这可能是因为用户要多次换IP,必然不会用一个IP点击太多。当用户使用2个IP的时候,可以说各项数据都比较正常,但当用户使用3个和3个以上IP的时候,访问数据会有一些异常,这表明随着用户使用IP数的增长,异常点击的比例也在提高。

3.5 异常点击的时间分布

在一天里,用户在不同时间段的点击量呈现一个较稳定的分布,在文献[7]中曾提到,点击欺诈有可能使得某网站的点击量在某个时间段异常增高,那么我们分析的几种异常点击的时间分布是否有异常呢?

我们对各种异常点击的时间分布进行统计,发现与一天所有点击的时间分布并没有明显的差别。连续点击多次的点击是本文最明显的异常点击,图1显示了这种异常点击与所有点击的时间分布对比。我们认为,对于某一网站作弊的群体可能相对单一,所以他们的点击可能集中于某一时段,但是对于统计整个互联网访问情况的互联网访问日志而言,即便是异常的点击,因为针对不同的网站,异常点击的用户也较分散,点击时间也不会一致,所以其整体时间分布也就没有呈现太明显的异常现象。

图1 连续点击多次的异常点击与所有点击的时间分布对比

4 结论

本文利用了互联网访问日志中的数据,对用户点击记录中的三种特殊现象从几个方面进行了分析。从各个数据看,连续点击的不可靠性比较明显,但缺乏有效的数据表明出现连续点击用户的其他的点击也不可靠。如果是重复点击,可以滤去多余的点击,只留下一次,而非重复的点击则建议全部滤去。对于单IP多用户/单用户多IP的情况,在仅有这一项特征的情况下,建议不做处理,因为仅凭这一特征不能判断点击异常,如果需要处理则要针对异常的IP/用户进行进一步分析,以判断其是否异常,再做处理。

本文主要采用了用户访问集中度,用户平均访问量,无源地址比例和目的地址非根目录比例几项指标来分析日志,其中用户访问集中度和用户平均访问量比较好地反映了异常点击的特征,另外两项指标,异常点击与正常点击的表现差别并不明显。在衡量点击是否可靠方面,一个直接的衡量指标是看点击的目的地址是否为垃圾站点,但因为垃圾站点的识别本身非常困难,所以本文并未涉及。我们认为,今后可以对以上的几种特殊现象进行更深入的分析,可以探索它们之间叠加出现的情况,比如对于单IP多用户的点击,可以统计是否此时连续点击的比例也较高,是否这两种情况叠加出现,比单独一种情况出现时用户点击的异常特征更加明显。此外,目前的实验只是以一天为周期,然后平均十天的数据得到的结论,文献[8]以一个更长的时间段为周期,这可能成为未来工作的方向。

[1] 中国互联网络信息中心.第25次中国互联网络发展状况统计报告[OL].2010年 1月.在线资源位置:http://new s.sciencenet.cn/up load/new s/file/2010/1/2010115164254332.pd f.

[2] 余慧佳,刘奕群,张敏,等.基于大规模日志分析的网络搜索引擎用户行为研究[C]//第三届学生计算机语言学研讨会论文集,2006,202-207.

[3] Rongwei Cen,Yiqun Liu,M in Zhang,Liyun Ru,Shaoping M a.Study on the Click Context of W eb Search Users for Reliability Analysis[C]//The Fifth Asia Information Retrieval Symposium(A IRS),2009年.

[4] 刘奕群,岑荣伟,张敏,等.基于用户行为分析的搜索引擎自动性能评价[J].软件学报,2008,19(11):3023-3032.

[5] 陈磊,刘奕群,茹立云,等.基于用户日志挖掘的搜索引擎广告效果分析[J].中文信息学报,2008,22(6):92-97.

[6] 余慧佳,刘奕群,张敏,茹立云,等.基于目的分析的作弊页面分类[J].中文信息学报,2009,23(2):95-101.

[7] 网站分析在中国-从基础到前沿.那些虚无的网事-人工流量的八大怪现状[OL].2008年12月8日.网页地址 :h ttp://www.chinaw ebanalytics.cn/?p=242.

[8] 王继民,彭波.搜索引擎用户点击行为分析[J].情报学报,2006,25(2):154-162.

猜你喜欢
访问量多用户搜索引擎
安泰科多用户报告订阅单
安泰科多用户报告订阅单
安泰科多用户报告订阅单
世界表情符号日
安泰科多用户报告订阅单
高职院校图书馆电子资源中数据库的使用情况分析
如何做好搜索引擎优化(SEO)提高新闻网站访问量
如何做好搜索引擎优化(SEO)提高新闻网站访问量
一所大学有40人被确诊为抑郁症
网络搜索引擎亟待规范