机上无线局域网用户行为分析

2013-06-09 12:36顾兆军赵亿王双
中国民航大学学报 2013年3期
关键词:关键字日志页面

顾兆军,赵亿,王双

(中国民航大学计算机科学与技术学院,天津300300)

机上无线局域网用户行为分析

顾兆军,赵亿,王双

(中国民航大学计算机科学与技术学院,天津300300)

随着无线网络的普及,用户的上网行为分析已经成为各单位提高服务质量、增长收益的重要途径。概述了Web日志挖掘的相关概念、方法和步骤。针对机上无线局域网的用户访问行为,对用户访问日志进行预处理,由日志中的旅客座位信息所关联到的旅客基本信息来确定旅客类别,通过计算分析用户的访问兴趣度,最终得出不同类别旅客的访问兴趣分布。

Web日志挖掘;旅客分类;访问兴趣

目前,某航空公司推出了北京—成都的首架无线局域网航班,使乘客可在飞机上通过手提或掌上电脑进行网上活动。至今,此架航班已通过无线局域网向旅客提供各类娱乐、商务和社交活动。鉴于Web挖掘技术在诸如电子商务等领域的成功应用及带来的巨大收益,如何从机上旅客的大量上网日志数据中挖掘出有意义的用户访问模式,以提高旅客满意度、增加收益已经越来越重要。根据客户群体的划分,对向知音卡会员,尤其是金卡会员、白金卡会员提供个性化服务是提高收益的关键。针对该问题提出了基于高空旅客上网的Web挖掘应用方案。

随着Web挖掘技术的发展,根据挖掘对象的不同可将挖掘技术划分为三类,分别为:基于Web内容的挖掘、基于Web结构的挖掘和基于Web服务器日志文件的挖掘。Web内容挖掘是指对Web页面内容进行挖掘,从海量的Web内容、文档和数据信息中发现并抽取潜在而有价值的信息和知识;Web结构挖掘是从Web文档的链接结构信息挖掘有用模式,从中抽取有用知识;Web日志挖掘通常是从用户的Web浏览日志中发现用户群体的相似浏览行为和相似兴趣,以及某个特定用户的浏览习惯和兴趣爱好等,从而为用户提供个性化的信息服务,改进服务器的性能和结构。其中,Web服务器日志作为日志挖掘的主要数据来源,记录了大量用户的页面访问信息,体现了用户使用Web资源的行为特点,以及隐藏在行为背后的更深层次的动因和规律。本文将主要阐述Web日志挖掘的基本概念、步骤和过程,并以挖掘Web服务器日志信息为实例,讨论分析机上的用户构成和访问兴趣[1]。

1 Web日志挖掘

Web日志指存储于服务器端,明确记录了客户访问和交互信息的日志文件。通常,可供分析的文件包括服务器访问日志、错误日志、Cookie日志等。Web日志挖掘的目的主要是分析站点性能,理解客户意图,改进站点内容。常用的技术有序列模式分析、分类与聚类分析、路径分析等[2]。Web日志具体的挖掘过程由以下几个步骤组成:①数据收集处理过程是对服务器日志文件中的数据记录进行筛选,通过对日志数据进行数据清洗、用户识别、用户会话识别和路径补充等,来消除数据的不完整性、噪声和不一致性。②模式发现过程是利用相应的挖掘技术,如路径分析、关联规则、序列模式和聚类等对挖掘对象进行分析,产生相应的规则和发现模式。③模式分析过程是利用可视化技术,针对所产生的规则和相应的发现模式,将挖掘结果通过显示界面呈现给用户,同时分析并评估结果。

对机上旅客的上网行为分析,包含对Web日志记录进行挖掘,同时结合客户信息完成对客户群的划分。最终对机上使用无线局域网的用户行为进行分析,评估机载无线局域网的旅客使用情况,调研航空旅客上网需求,综合考虑投资与回报。

2 数据预处理

Web日志通常包含用户对网站的访问信息,但是由于不同的服务器对日志的记录不同,所以需要将原始数据整理成所需要的用户数据库。但由于各种原因,Web日志中存在很多不完整或者错误的记录数据,这些数据不但对后续的挖掘无用,还会增加处理的复杂性,产生严重的后果,所以需要对原始数据进行预处理,以消除噪声,保持数据的完整性,提高挖掘质量。预处理过程一般包括数据清理、用户识别、会话识别、路径补充、事务识别五个过程[2-3]。

2.1 数据清理

Web原始日志数据中包括用户IP地址、请求访问的URL页面、访问时间等属性。这些属性记录有些不完整,冗余甚至错误。数据清洗就是删除Web日志记录中不相关的数据,以得到适宜挖掘的可靠数据。通常,可以根据以下3个方面对日志数据进行清洗[4]:①URL扩展名:删除不能反映用户直接请求的记录。如gif、jpeg、GIF、JPEG、jpg、JPG等所对应的记录和一些如“count.cgi”的通用脚本。但是对于一些包含图片的Web站点,gif和jpeg文件后缀名不仅能直接反映用户的请求,还有助于流量分析,这时就保留。②动作:GET动作是用户请求页面的动作,删除客户请求方法(cs-method)中不是GET的记录。③状态码:删除sc-status中显示出错的记录,也就是清除协议状态为400-599的日志记录。如表1所示。

表1 数据净化后的Web日志Tab.1Results of Web log by data cleaning

2.2 用户识别

现有PNR(passenger name record)旅客订座记录,反映旅客的航班信息及旅客信息,如表2所示。其中一些字段用于本文用户的身份识别,如利用座位号PSR_VIR_SEAT信息与终端服务设备的网络地址关联,根据有关部门提供的客户终端网络地址、航班、座位号间关联档案,可分析并确定客户群体。

Web日志记录中,鉴于会有不同乘客通过不同机器访问不同的服务器,或同一乘客在同一机器上通过不同浏览器浏览站点等情况的发生。需要通过用户识别整理出不同的乘客,以用于机上无线网日志记录中座位号信息与基本信息的关联。通常采用以下方法进行识别:①登陆请求中的座位号信息不同视为不同用户;②IP地址不同视为不同用户;③IP地址相同但浏览器版本不同视为不同用户;③IP地址和浏览器版本相同,但访问页面序列网络拓扑不构成通路视为不同用户。如表3所示。

表2 旅客信息Tab.2Passenger information

表3 用户识别结果Tab.3Results of user identification

2.3 会话识别

用户识别后,需将每个用户的访问序列进行分解,得到相应会话,即挖掘出用户在一次会话访问期间从进入该网站到离开该网站的一系列访问活动。如表4所示。

表4 会话识别表Tab.4User session table

2.4 路径补充

代理服务器和用户端页面缓存技术的使用,会造成日志中的用户访问路径记录不完整,甚至最终导致挖掘结果不准确,不全面。因此,需要对用户访问路径的访问前后页进行判断,补全访问路径,确保日志记录的完整性。

2.5 事务识别

经过前面预处理步骤所得到的用户会话集合具备自然事务特征,但仍不够精确。因此,利用分割算法将其转化为更小的事务,即对用户的每一次访问操作序列集合进行语义分组,最终得到页面序列。

通过以上步骤进行预处理,得到需要的用户会话集,为之后的挖掘做准备。

3 用户分析

随着无线网络的普及,正确理解乘客对信息的需求和兴趣,针对不同乘客群体提供个性化服务,是提高旅客满意度的关键。分析乘客的网络活动行为是解决这一问题的重要途径之一。目前,对用户行为分析的研究方法主要有聚类算法、关联规则算法、路径算法、相似性算法等[5-6]。

经过研究发现,机上乘客访问网页时通常遵循如下规律:①用户一般从服务首页进入(即页面0),然后按照不同的路径深入访问;②每个页面包含关键字,该关键字包含了服务内容和主题;③用户在感兴趣的访问页面停留时间较长。

单例的访问情况可反映该乘客的访问特性,通过对一定数量的用户访问情况叠加可反映出这群体乘客的访问特性。根据这一论述,在已有的相关算法基础上,本文展开了对机上个体与群体乘客的访问兴趣的研究。

3.1 相关定义

定义1页面的关键字集合K。关键字ki是对某个页面的概括描述,一个页面可以包含一个或多个关键字。用户访问页面的兴趣和偏好可以通过该页面的关键字表征

定义2Web站点的模型G:一个Web站点的拓扑结构就是一副具有如下式的有向图

其中:P为Web页面的集合;H为页面之间的超链接集合;K为每个页面的关键字的集合。

定义3一个用户μ所访问关键字集合TKμ。用户访问集合是由该用户所访问的页面构成

而每个页面pi可以由一组关键字集合K表征,由此可得到简化的用户访问集合

定义4用户访问一个pn页面的关键字集合TKμ(pn)。如果pn是用户第n个访问的页面,那么通过pn页面的用户访问关键字集合为

定义5用户访问pn页面的关键字支持度supportμ(pn,ki):一个通过pn页面的用户访问关键字集合TKμ(pn)中,用户对某关键字ki的访问次数。

定义6一个通过pn页面的用户访问关键字支持度集合KSμ(pn):一个通过pn页面的用户访问关键字集合TKμ(pn)中,某一个用户所访问的关键字和访问该关键字的访问次数构成的集合,M为Web页面关键字的总数

定义7用户访问pn页面的关键字时长集合lengthμ(pn,kj):设定一个用户对一个页面的访问时长为lengthμ(pn),且该页面有f个关键字,k1,k2,…,kf,则该用户对关键字kj的访问时间长度为

在某个用户μ所访问关键字集合TKμ中,用户对一个关键字kj访问的总时长sumμ(pn,kj)为

定义8用户访问兴趣集合Iμ(pn)。在某个用户μ所访问关键字集合TKμ中,该用户所访问的关键字、访问该关键字的次数、访问该关键字总时长所构成的集合组成(假定整个站定的关键字总数为M个)

一个用户pn页面的兴趣集Iμ(pn),可反映出该用户对于页面各个关键字的兴趣分布情况

如果对样本内所有用户页面的兴趣集进行叠加,可以反映出样本用户对该页面所有关键字的兴趣分布(假定用户数目最大为N)

式(10)与式(11)所反映的用户兴趣分布对比,能够反映出个体与群体乘客在某页面或某站点的兴趣分布。

在分析初始阶段,根据初始化阶段获取到的旅客信息,将乘客群体按商务、休闲旅客进行分类,并将页面及对应关键字集合按照网站进行分类。基于上述定义及用户会话表,对网站的乘客访问兴趣进行进一步分析。

3.2 单个用户的访问兴趣分析

本文在实验室环境下模拟将某航空公司某架次航班某一固定座位号乘客视为单一乘客,在此,对该架次航班一周内的乘客上网日志进行预处理,根据访问数据,分析该航班单一乘客的访问兴趣。分析过程:①根据预处理后的用户会话表,分析、抽取得到单一乘客的访问的关键字集TKμ。②由用户访问关键集合,计算用户访问关键字支持度suppotrμ(pn,ki);分析并得到用户访问关键字支持度集合KSμ(pn)。③计算用户访问关键字的总时长sumμ(pn,kj)。③求得该用户访问兴趣集Iμ(pn),并根据式(10)计算用户兴趣。

分析表5~表7可以看出,该用户偏爱文学艺术类图书,在机上提供的所有网络服务中,对新闻的关注度最高,同时对机票预订、租车、酒店等一些商务活动也有涉及,初步推断该用户为商务旅客。核查该用户的座位信息,关联到其基本信息,显示得出该用户所在舱位为商务舱,由此验证了该方法的有效性。

表5 各书目的支持度Tab.5Support degree of books

表6 书目四类关键字的支持度Tab.6Support degree of four key words

表7 单一用户兴趣分布情况Tab.7Browsing interest of key words of one user

3.3 群体用户的访问兴趣分析

对单个用户页面访问兴趣的叠加,能够反映群体用户的兴趣分布。不同群体间的兴趣分布往往会呈现出不同的态势,结果的不同能够帮助信息提供者针对各类群体提供更为个性化的服务。根据座舱将旅客分为商务旅客和休闲旅客,分析计算一周内乘客的网页访问情况。统计分析得出的旅客兴趣分布结果记录在表8中。

表8 群体用户兴趣分布情况Tab.8Browsing interest of key words of users

从表8中可以看出,商务旅客和休闲旅客都最关注新闻。但是通过结果比较显示,休闲旅客更关注一些娱乐活动,如电影、音乐、图书等,而对于租车、酒店等一些商务活动,商务旅客则相对更为关注。有关单位可以根据这些结论,了解乘客访问的热点,及时调整信息内容,改进站点结构,为旅客提供更为全面的服务,提高效益。

4 结语

本文对使用机上无线局域网的用户进行Web日志挖掘,通过日志中的座位号信息关联到用户的基本信息,挖掘出不同分类旅客的访问内容、频度及兴趣分布等,进而为旅客提供个性化服务,达到提高旅客满意度的目的。本文对某架次航班一周内的上网日志信息进行挖掘,计算其关键字信息、支持度、访问时长、兴趣集等,最终得出商务旅客和休闲旅客的兴趣分布。该方法简单易行,能够反映旅客的浏览行为,具有一定的推广价值。

[1]HAN JIAWEI,MICHELINE KAMBER.Data Mining Concepts and Techniques[M].2nd ed.Beijing:China Machine Press,2008.

[2]罗隽,魏品帅,贺贵明.基于UAP-T的网络日志挖掘技术在电子商务中的应用[J].计算机应用,2003,23(5):55-57.

[3]赵晶晶.WEB日志挖掘在网站个性化服务中的应用研究[D].大连:大连海事大学,2009.

[4]郭晓磊.基于WEB日志挖掘的网络用户聚类研究[D].北京:北京邮电大学,2009.

[5]LIN HAIBIN,VLADO KESELJ.Combined mining of web server logs and web contents for classifying user navigation patterns and predicting users′futurerequests[J].Data&KnowledgeEngineering,2007,61(2):304-330.

[6]吴进,宋顺林,王迎春.基于频繁偏爱度的使用模式挖掘算法的研究[J].计算机应用,2006,26(10):2425-2429.

(责任编辑:杨媛媛)

Analysis of users′behavior on WLAN of aircraft

GU Zhao-jun,ZHAO Yi,WANG Shuang
(College of Computer Science and Techndogy,CAUC,Tianjin 300300,China)

With the popularity of wireless networks,the analysis of the users′online behavior has become into an important way for all units to improve service quality and increase the benefits of growth.An overview of Web log mining concepts,methods and steps are provided.And to the users′visiting behavior on WLAN of aircraft,we work on the data p-reprocessing.Combining the passengers′seatnumbers with users′basic information,and classifying the passengers into different types.Through calculating and analyzing the users′accessing interests,we finally make a conclusion of the interest distribution of different types.

Web log mining;passenger classification;browsing interest

F562

A

1674-5590(2013)03-0040-05

2012-06-15;

2012-09-08

中国民用航空局科技基金项目(MHRD201128);中国民航大学科研基金项目(04-CAUC-06E)

顾兆军(1966—),男,山东蓬莱人,教授,博士,研究方向为计算机网络与信息安全、搜索引擎、民航信息系统.

猜你喜欢
关键字日志页面
刷新生活的页面
履职尽责求实效 真抓实干勇作为——十个关键字,盘点江苏统战的2021
一名老党员的工作日志
答案
让Word同时拥有横向页和纵向页
扶贫日志
成功避开“关键字”
雅皮的心情日志
雅皮的心情日志
智能垃圾箱