基于文本挖掘技术的电子商务网站个性化推荐分析

2021-12-17 09:08张昊
电子制作 2021年22期
关键词:词条页面个性化

张昊

(湖北第二师范学院计算机学院,湖北武汉,430205)

Web文本挖掘主要是为了能够在Web页面内成功提取关键知识信息,个性化推荐就如同“信息找人”这一方式,想要提高个性化推荐的精准率,就要保证信息有效性这一重要基础,所以文本挖掘作为如今个性化推荐中的热门研究话题[1]。Web文本挖掘技术作为多样化的个性化推荐中分支,包括了建立特征表示,提取重要文档,进行聚类分析以及计算相似性。以往利用空间向量模型表示文本,最终的推荐结果准确度不高,并且关键文本的判断推理能力不强,无法有效优化个性化推荐集[2]。不仅如此用户在访问电商网站存在自身兴趣爱好改变的可能性,因此需要一种精准性更高的文本挖掘技术,来对用户的变化及时跟踪且及时响应。本文就此提出基于文本挖掘技术的电子商务网站个性化推荐技术,提高电商网站的推荐精准性。

1 基于Web文本挖掘推荐模型

自信息运动论在学术界提出后,就上升了“信息”概念至“全信息理论”,一定程度上代表获取信息资源,完成开发且加以利用的全过程[3]。在Web访问的过程中也作为产生信息的运动过程,用户在每一次访问过程中都会在Web服务器中留下信息,也就是挖掘对象与传统推荐模型相结合,加入Web文本挖掘、BM25F模型内,在电商网站平台构建个性化推荐模型(见图1)。

图1 基于Web挖掘的个性化推荐模型

根据上文建立此模型分为上、下两部分,上面主要为了对Web服务器数据结构进行分析,完成服务器日志预处理,成功提取事物集并运用模型计算文本表示与权重,通过聚类分析得到Web文本文档集。下面主要经Web数据预处理,对用户会话进行分析,对不同会话内不同Web页面中关键特征词条的权重。之后运用该模型中夹角余弦完成会话和Web文本文档集的相似性结果,计算得出个性化推荐集[4]。

2 文本词条获取

■2.1 挖掘服务器日志

挖掘文本数据作为提取访客的页面访问日志,提取相关页面的核心关键词,用于对用户网页访问行为兴趣的跟踪依据。

首先分析电商网站的页面结构,通常包括了菜单索引、商品详情、导航栏、服务说明等模块,其中关联个性化推荐的功能即商品信息展示[5]。由于如今提取关键词条技术仅仅能够获取文本内容,包括了商品详情,且为了可以更快捷的在平台网站中成功检索此商品,多数内容都要利用爬虫技术优化。

再者提取用户的交易事务,其中包含了过滤数据、识别用户和会话的步骤,数据过滤主要是为了对无关、错误数据进行清洗,通过清洗这些数据有助于减少后续形成个性化推荐的聚类分析负荷。用户识别文本就是利用cookie技术跟踪访客,有着极高的技术可行性,但是不足之处就是存在关闭浏览器cookie的可能性。假若发生此种情况运用SessionID技术,会在访客访问中产生动态化唯一标识,可是无法记录用户的重复性访问行为。会话识别主要用于区分用户的单一访问,用户登录电商网站后会自动获取单一会话,对会话行动进行跟踪假若30分钟以上并无任何活动就会自动断开。

■2.2 提取特征词条

文本挖掘的首要核心任务即在访问页面中提取文本特征词条,如访客在网站中产生的一系列页面访问A1,A2,A3,...,An,对n个网络页面内获取每页核心词条,能够实时掌握用户的不同行为偏好及具体变化情况。需要运用分词技术来获取特征词条,但是难处就在于最大化消除歧义,在中文语法内断句不同歧义就会有所不同[6]。为了对这一问题妥善解决,如今CRFs算法作为常规中文分词用法,基于条件随机域算法CRF基础上演变形成。此算法居于线性序列,在给定A参数 (λ1,λ2,λ3,...λn)的线性链CRFs对应序列X=x1,...xr中Y=y1,...,yr状态的条件概率公式如下:

公式(1)内XZ作为归一化因子,能够将全部状态序列概率与均作为二值的特征函数,相应的权重为[7]。

此模型算法能够较好的解决如今中文分词内可能遇到的相关问,那么解决此问题也为后续特征词条的提取打下良好基础。因为发生此词条的对应所在位不同,那么重要度也就有较大差别,所以需要对应重要度权重位进行划分。本文划分了网站一个页面包括标题、内容、meta描述标签以上3个域,权重分别对应0.5,0.3,0.2。所获取每个页面内的排名前六词条,用于表示当前页面,词条量过少则代表整体页面,如果过多就必然加大后续的聚类分析负荷。

■2.3 特征词条聚类分析

在提取对应特征词条后,转变完整交易事务为特征层词条为表示的词条组,多个交易事务会形成相关矩阵,对于单一页面特征词用T={t1,t2,t3...tn}表示,完整交易事务用Page={p1,p2,p3,...pm}表示,那么表示单一页面的特征词条权重公式如下[8]:

聚类分析算法主要是为了对于特征词条之间相似基础上,完成目标数据分类,最终成功凝聚接近相似数据。本文选用层次聚类分析寻找相似点高的用户群,以聚类分析结果为依据,可以相互推荐相似兴趣点的用户购买行为。对于最后的推荐排序问题,可以对比用户在电商平台的购买结果,以及购物车、收藏夹内的清单情况,假若存在重复可以进行清洗。之后依据用户的相似群内商品相似度作为排序依据,为了确保用户最终满意可以选择推荐数量直至恰当。

■2.4 匹配文档形成个性化推荐

使用Web文本挖掘技术跟踪网站服务器日志,对跟踪结果完成预处理,形成处理后的用户会话U={u1,u2,u3,...um},ui表示类似上节pci,具体的计算公式如下:

计算ui中,wu表示在web页面内pi所处目前用户会话U内的相应权重情况,通过计算页面中全部特征词条总权重,和页面集的全部特征词累计权重和的比值。

针对聚类分析中所在页面的交易事务权重表示公式如下:

对用户会话U、文本文档pc之间相似性结果进行计算,本文使用夹角余弦公式:

根据以上计算过程可以产生最终的推荐结果,所得每个页面推荐值主要包括两部分,分别是相似值和权重值。

3 实验分析

本文为了对比提出基于web文本挖掘技术的个性化推荐模型应用实效,选用某模型Java变成和Apache Tomcat6.0服务器,以及MySQL数据库,所开发的电商网站为实验平台,建立个性化推荐模型。将本文提出此模型对比传统TF*IDF方法,根据最终的个性化推荐结果精准率、召回率,证实本文提出此个性化推荐模型的应用效果。召回率作为推荐结果内包含相关文档所占整个集合的相关文档比例,精准率作为在个性化推荐结果文档的占比。

运用TF*IDF计算因为Web文本特征为特征词集合,分析特征词个数逐渐增加精准率和召回率比较,实验由3个特征次数逐渐增加18个对比精准率与召回率(见图2、图3)。

图2 精准率

图3 召回率

经对比分析两种模型精准率、召回率逐渐衰减,根据精准率相较本文建立个性化推荐模型下降率逐渐平缓,最终计算结果发现本文该模型较传统TF*IDF模型的计算结果明显优,精准率呈平缓下降趋势,可以很好的解决传统算法中个性化信息推荐滞后这一问题。在召回率方面随着词条量的逐渐增加,最终计算结果都呈明显下降趋势,但是本文提出该模型的结果始终更高。但是要注意的一点就是需要严格控制特征词条的数量选择,假若词语过多也会一定程度上降低最终结果的有效性。

4 结语

总而言之,本文提出基于Web文本挖掘技术的电商网站个性化推荐模型,在实验中发现通过挖掘服务器日志、提取特征词条,并对特征词条进行聚类分析,最后匹配文档形成个性化推荐结果以上过程。在实验中与TF*IDF相较本文提出的个性化推荐模型,能够有效解决传统算法中个性化信息推荐滞后的问题。但是本模型也存在一定不足之处,由于文中划分电商网页的3个“域”,所以对模型的计算复杂度进一步加剧,也要增强和解决服务器的日志过滤,都作为后续要解决的重要问题。

猜你喜欢
词条页面个性化
答案
让Word同时拥有横向页和纵向页
坚持个性化的写作
利用简单的公式快速分隔中英文词条
同桌宝贝
驱动器页面文件大小的总数为何总是07
校本课程开发的个性化问题探讨
呼唤雕塑家创作的个性化