关联规则在图书个性化推荐技术中的应用

2012-10-18 08:58杜炜威
河南广播电视大学学报 2012年4期
关键词:类图书日志页面

杜炜威,卫 恒

(河南经贸学院 电子工程系,河南 郑州 450008)

基于关联规则个性化推荐系统的工作原理是利用web日志,为每个用户群建立相应的事务数据库,并利用关联规则技术挖掘出用户访问图书之间的关联规则,根据该规则来建立用户兴趣模型。当用户再次访问站点时,推荐系统先对用户进行识别,得到用户所属的用户聚类,并根据兴趣模型向用户推荐一些他们可能感兴趣的尚未访问的图书。

一、基于关联规则个性化推荐的系统结构

利用用户在访问Web时的交互性,在用户和站点之间增加—个推荐过程是关联规则的中心思想,它根据用户的特点先找到匹配用户群,从而获得用户当前的访问模式,然后由关联规则库对所对应图书进行推荐,整个操作过程分为在线和离线两个部分。

1.在线推荐:系统根据用户访问特征首先找到匹配用户群并获得用户当前的访问模式,得到用户访问的前n-1个页面 p1,p2,p3,…,pi,构成规则的前项,然后由关联规则库对所对应的图书进行推荐。

2.离线部分:包括对原始数据的预处理、聚类、分类和关联规则挖掘算法。在线部分则通过推荐引擎在用户会话期间根据用户当前的浏览提供动态的个性化Web页面推荐,应用于个性化推荐的关联规则具有这样的形式:p1,p2,…,pi=>pc(i=l,2,…,n)。

我们可以这样理解:当站点的用户访问了p1,p2,…,pi图书后,该站点的推荐引擎为其推荐pc图书。

二、兴趣模型的构建

用户的兴趣描述就是用户的个性化信息,它的作用是为了准确描述用户的兴趣,那么我们需要给每个用户建立一个用户兴趣描述文件(useprofile)后再利用正确的关联规则。

挖掘算法可以挖掘出用户所访问页面之间的关联规则,并准确地表示用户兴趣。

假设 S 为用户挖掘到的所有规则,则 s=(r1,r2,…,rn),ri代表一条挖掘到的规则,每条规则又包括前项和后项,ri=(bi,ai),bi表示规则 ri的前项,ai表示规则 ri的后项。

定义1:用户兴趣模型描述为三元组组成的集合,即:

Ui={(b1,P1,c1),(b2,p2,c2),…,(bn,pn,cn)}

其中ui表示第i个用户,bi为该用户第i条规则的前项,pi={p1,p2,…,pn}为该用户规则集S中所有具有前项为bi的规则的后项页面所组成的页面集合,ci={c1,c2,…,cm},其中 ci为 Pi中 pi(pi=>Pi)页面的置信度。

定义2:c为被推荐页面的置信度,它可以确定若干个候选推荐页面的优先级。对于任一用于推荐的关联规则:P1,P2,…,pi=>pc(i=l,2,…n),所有推荐的后项 pc 按规则的置信度降序排列。

三、如何实现图书个性化信息推荐系统

首先是源数据的收集过程。以鹤壁职业技术学院图书网站2008年5月份第一个星期的日志为例进行分析,日志格式如下:

以上是IP为172.18.9.16的用户浏览了图书编号为sjs486的1~3页的内容。

有了源数据后,我们可以对用户浏览和下载的图书日志进行预处理。

根据IP地址和浏览内容对用户进行分类、聚类,发现IP地址为172.18.5.1~253的用户,浏览图书为医学类图书;172.18.6.1~251的用户,浏览图书为计算机类图书;172.18.7.1~253的用户,浏览图书为计算机类图书等。

然后我们为每类用户群建立数据库,在此以浏览计算机类图书用户为例,部分记录如表1。

表1 浏览事务数据

表2 部分图书编号与名称对照表

预处理后得到的数据集有2771条会话记录,共包含99个页面。我们把数据集的2/3作为训练集设定最小支持度为40%,进行挖掘以生成推荐的关联规则如下:

对于浏览计算机类图书用户,推荐的第一本书的顺序为:

S={英语(B)辅导;support=80%

三级网络技术教程;support=80%

高数习题集;support=60%;

C语言上机指导;support=40%}

对于浏览计算机类图书用户,推荐的第二本书的顺序为:

S={英语 (B)辅导=>高数习题集;support=40%;confidence=50%;

英语 (B)辅导=>三级网络技术教程;support=60%;confidence=75%;

高数习题集=>线性代数习题集;support=40%;confidence=67%

高数习题集=>英语(B)辅导;support=40%;confidence=67%

高数习题集=>三级网络技术教程;support=40%;confidence=67%}等,其他不再赘述。

四、在线推荐

总结具体推荐步骤如下:

第一步:识别用户所属用户群。

第二步:获得用户的访问模式,也就是获得用户访问的当前图书和前n-1本图书p1,p2,…,pi构成规则的前项。

第三步:在所有规则集中查找前项和用户的访问模式相匹配的,也就是{p1,p2,…,pi}={pa1,pa2,…,pa1}的规则pa1,pa2,…,pa1=>pc(k 条),规则的后项所对应的图书 pc就是在当前访问模式下所要推荐的图书。

第四步:把k条规则的后项所对应的图书按置信度降序排列,然后按照从大到小的顺序选取前m个图书进行推荐。

第五步:当前窗口下不但显示用户当前的访问的图书页面,还显示被推荐图书的书目及网址,点击即可链接到对应页面的URL,该URL对应的页面成为下一个窗口的当前页面。

[1]马文峰,高凤荣,王珊.论数字图书馆个性化信息推荐系统[J].现代图书情报技术,2003,2(9):58~59.

[2]张俊,黄水清.国内外数字图书馆个性化信息服务系统的功能与特征比较研究[J].情报理论与实践,2005,28(6):21~24.

[3]鲍静.关联规则在图书馆个性化服务中的应用[J].科教文汇,2007(9):221~222.

[4]许珂.关联挖掘在图书借阅数据库中的应用[J].福建电脑,2006,7(9):26~27.

[5]李卫华,卢雨民,梅红.浅谈数字图书馆个性化信息推荐系统[J].科技广场,2007,9(2):109~110.

[6]连瑞梅.电子商务中Web页面个性化推荐系统的架构[J].中国管理信息化,2007,9(9):8~586.

[7]何典,梁英.动态网页环境下的Web使用记录挖掘研究[J].微计算机信息,2006,2(8):55~56.

[8]邹丽霞,杨建强.基于关联规则挖掘的Web个性化推荐研究[J].内江科技,2007,28(10).

[9]李歌维.Web日志挖掘数据预处理与数字图书馆个性化服务[J].现代情报杂志,2007,5(8):90~91.

[10]金花,黄明,梁旭.基于Frame页面过滤的Web日志挖掘中的数据预处理方法[J].大连铁道学院学报,2006,7(2):80~81.

猜你喜欢
类图书日志页面
刷新生活的页面
一名老党员的工作日志
扶贫日志
新形势下教育类图书编辑如何全面提升编辑素质
游学日志
航天类图书的出版现状与选题策划研究
从一本书的出版到一门课程的建设:浅谈教育类图书编辑的作用
一种基于粗集和SVM的Web日志挖掘模型
新媒体环境下小说类图书的创意营销研究
网站结构在SEO中的研究与应用