基于社区划分的现代文学作品个性化推荐算法

2021-12-23 12:49卫欣玲
微型电脑应用 2021年12期
关键词:文学作品准则准确率

卫欣玲

(陕西交通职业技术学院 汽车工程学院,陕西 西安 710018)

0 引言

随着各种阅读软件的推出,现代文学作品走向了网络化时代,面对海量文学作品,读者在选择上耗费了大量的时间与精力[1]。在这一背景下,文学作品的推荐功能已经成为了阅读软件所必备的功能,一方面它可以高效地引导读者找到自己满意的文学作品,另一方面它可以增加读者的黏性,避免读者在内容选择上出现倦怠心理[2]。目前常见的推荐方式是在读者登录文学网站或App时进行喜好筛选与引导,网站可以根据读者的搜索、浏览记录进行数据分析和个性化内容的推荐服务[3]。读者的个性化推荐服务最初起源于Doubleclick公司,这个公司对读者定制推送个性化广告,亚马逊公司将这一系统与电商网站结合起来,通过对网站消费者的历史数据挖掘,进行网站商品的推送,并取得了良好的效果[4]。但目前的推荐系统尚且处在发展阶段,在产品种类和读者数据的日渐增长下,文学网站推荐系统的潜在问题开始显现,一是在新用户和新产品推荐时,存在冷启动问题;二是用户和产品的互动信息少,导致可分析数据稀疏;三是数据量急剧增加导致数据分析时间加长,推荐算法的实时性和准确性无法同时保证[5]。基于此,此次从现代文学作品入手,在对读者进行社区划分的基础上,结合多种智能算法,进行个性化推荐算法研究,希望在保证算法效率的同时,可以最大程度地提升文学作品推荐算法的准确性。

1 读者评论文本分析算法

1.1 加权信息增益算法

信息增益表示分类信息中含有特征项时的信息量与不含特征项时的信息量之差,特征项t的重要程度可以由信息增益的大小反映,在信息分类的过程中,需要对特征项的信息增益由大到小进行排序,并删除排序靠后的特征项,剩下的就是重要性高的特征项。然而在传统的信息增益算法中,没有考虑到特征项在类别中的分布,因此会出现对特征项误删和漏删的情况。这次研究提出在文本信息分类中采用加权信息增益算法(Degree Welghted Information Gain, DWIG),对特征项的类别内分布状况和类别间分布状况进行考虑,并以权重对特征项进行衡量,以此弥补传统信息增益算法的不足之处。

对于数量较多的类别文本,若特征项在这一类别的所有文本中均匀分布,则认为这个特征项在这一类文本的分类上有更大的贡献。因此,在这里以类内分散度表示特征项在类别内部的分布状况,其数学表达式如式(1)。

(1)

其中,Ci表示文本类别;t表示特征项;N表示文本数量。

对于类别较多的文本信息,若特征项在某一类文本信息中大量出现,而在其他类别文本中出现较少,则说明这一特征项在文本分类上的贡献较大。这里以类间集中度表示特征项在类间的分布情况,其数学表达式如式(2)。

(2)

针对传统信息增益算法的缺陷,在这里以类内分散度和类间集中度对特征项t的位置权重进行改进,改进后的位置权重如式(3)。

(3)

结合改进后特征项t的位置权重,在信息增益算法的改进上采用最大值的衡量方法,改进算法的数学表达式如式(4)。

CD(Cj,t)(H(C)-H(C|ti))

(4)

式中,Cj表示文本类别;H表示信息熵,即信息的期望值。

1.2 基于位置分布权重的特征选择算法

在文本信息的分类中,首先需要对原始数据进行分析并选择特征项,输出特征子集,然而拥有相同的特征项并不代表是同一个的信息数据。因此采用基于位置分布权重的TF-IDF算法(Term Frequency-Inverse Document Frequency-Distribution Weight, TF-IDF-DW)对文本信息数据进行区分。TF-IDF融合特征权重算法涉及到2个部分,其一是词频,即特征词在信息中的出现次数;其二是逆文档频率,即文本集中的特征项部署情况。特征词汇在文本信息中的词频越高,说明它的权重越大,词频以式(5)表示。

WeightTF(t)=TF(d,t)

(5)

对于文本信息而言,如果特征项t在大量的文本中出现,那么说明它的比重小,反之则比重大,逆文档频率的函数表达式如式(6)。

(6)

式中,n表示含有特征项t的文本信息数量;N表示文本信息总数量。在对文本信息进行词频和逆文档频率的处理后,可以减少无关词汇的比重,增加重要特征项的比重,提高特征项分类准确性,如式(7)。

(7)

虽然TF-IDF算法可以提高特征项对文本信息的区分效率,然而对于出现频率较少且分散均匀的词汇而言,这种算法的计算比重偏大,分类准确性减小。因此,在传统的TF-IDF算法基础上,这里提出以类间分散度对特征项逆文档频率进行平衡,将特征项在不同类别信息中的分散状态考虑到算法分析中。改进后的算法融进了权重值,其函数表达如式(8)。

(8)

2 个性化推荐算法

2.1 基于社区划分的推荐算法

传统的推荐算法以协同过滤推荐算法为主,目前广泛应用于各大电商网络系统中[6]。协同过滤推荐算法有2种类型,一种从推荐目标的角度出发,参考近邻的喜好,进行推荐商品的分析评分;另一种是从推荐商品的角度出发,参考推荐目标喜好,以特定算法对相似商品进行搜集和分析评分。在推荐算法中,近邻优良通过相似度的精确性来决定,相似度的精确性直接影响了最终结果的准确性和可信度。目前应用广泛的相似度计算方法有余弦相似度、斯皮尔曼相关系数、Pearson相关系数、谷本系数等[7]。

文学网站的读者都有各自的阅读偏好和习惯,但他们在一定程度上存在相似性,这使得阅读偏好和习惯相似度高的读者会形成一个社区。这里将采用BIRCH算法对读者进行社区识别,该算法的基本思想在于同属于一个社区的不同读者,对于同一类型的作品评价具有高度相似性。然而在实际分析中,读者社区的原始数据存在一些问题,如兴趣爱好数据稀疏、兴趣数据重叠、社区间数据量差异过大等。这种情况下,特征项的选择精确度和数据分析准确性会受到影响。

奇异值分解(SVD)是一种数据信息提取方法,从数学角度而言,奇异值分解可以通过矩阵实现。将数据集以一个大的矩阵的形式表示出来,并对这个矩阵进行不同形式的拆解,如多个矩阵相乘的形式,这就是奇异矩阵分解法。这种矩阵的特点在于,对角元素数值由大到小,而非对角元素的其他元素大多设置为0,这些对角元素就是奇异值。在科学研究中,需要确定R个重要特征进行利用,此外的其他奇异值默认为0。一般而言,对奇异值求取平均和,直到所有的和到达总值的90%,就可以确定R的值。在这次的研究中,将采用奇异值分解的方法对读者原始数据进行处理,并得到Um×d数据集、d×d、n×d,其中d≪n,d≪m,3个数据的关系如式(9)。

(9)

式中,d表示读者数据维度,m表示读者数量,n表示文学作品数量,S和V均为单位正交矩阵,表示线性映射。Um×d表示对原始数据进行奇异值分解后得到的数据集。基于这一数据集所表示的读者数据特征,对读者进行社区划分,最终的社区划分效果如图1所示。可以看出在SVD的处理下,每个社区的读者分布均衡。

图1 SVD处理后的社区划分效果

2.2 基于读者评分准则的推荐算法

为了提高文学网站推荐算法的精确度,这里主要考虑2个方面,一是推荐对象与产品的相似性计算;二是对于推荐产品的预测评分,其中预测评分需要考虑到近邻对象的影响。读者评分本身是带主观意识的一种评价,与个人评价准则、评价时的主观情绪都有关联,因此读者评分与个人喜好不具有绝对的关联性。此次研究引入读者评分准则,并计算出准则因子,结合相似度和预测评分进行推荐算法的改进,如式(10)。

(10)

式中,U={u1,u2,…,um}表示读者;I={i1,i2,…in}表示文学作品;Rm×n表示读者-文学作品的评分数据集;ru,i表示读者u对作品i的评分值。

这里通过肯定性评分和否定性评分两种评分方式来衡量读者对作品的看法,以此考虑到不同读者在同一文学作品评分准则上的差异度。其中肯定性和否定性评分以中位数区分,例如,评分为1-10分,则肯定性评分>5分,否定性评分≤5分,如式(11)。

(11)

相似度的计算方法有很多种,这里采用欧几里得公式,函数表达式如式(12)。

(12)

结合此次研究的内容,以rmin对相似度计算进行改进,改进计算式如式(13)。

(13)

式中,wp表示不同读者评分准则的影响权重;Iuv表示不同读者所共同评价的作品,rmin表示评分值的值差。

在对读者进行社区划分后,将同一社区的读者对于文学作品的评分分为2类,即肯定性评分和否定性评分,并以此判断读者所处的社区对于文学作品的评分态度倾向。在此基础上,加入相似读者的文档等级评分,并以α1、α2分别表示原始评分和文本评分的比重,如式(14)。

(14)

3 改进推荐算法性能分析

本次从2个方面对现代文学作品的个性化推荐服务进行了研究,一方面是作品的读者评论文本分析,另一方面是对读者进行社区划分的个性化推荐。实验原始数据来源于豆瓣网站中的现代文学作品数据库,其中包括了4 000名读者对8 000本现代文学作品的评分数据,以及20 000条评论文本,将数据以8∶2的方式分为训练集和测试集。评论文本分析算法的性能将从召回率、准确率和F值3个方面进行衡量,同时通过传统算法(IG+TF-IDF)和改进后的算法(DWIG+TF-IDF-DW)之间的比较来确定两种算法之间的优劣。传统算法和改进算法的准确率统计结果如图2所示。

图2 读者文本评论分析算法的准确率

观察图中可以看出,改进后的算法准确率明显高于传统算法。在特征子集维度1 000维时,改进算法的准确率为87.5%,传统算法的准确率为83.7%%;当特征子集维度达到2 500维时,两种算法的准确率趋于稳定,最终改进算法的准确率稳定在89.5%左右,而传统算法的准确率稳定在84.8%左右。读者文本评论分析算法的召回率结果,如图3所示。

图3 读者文本评论分析算法的召回率

在特征子集维度1 000维时,改进算法的召回率为87.3%,传统算法的召回率为83.6%;当特征子集维度达到2 000维时,2种算法的召回率趋于稳定,最终改进算法的召回率稳定在89.1%左右,优于传统算法的84.9%,读者文本评论分析算法的F值计算结果如图4所示。

图4 读者文本评论分析算法的F值

从图中可以看出,随着特征子集维度的增加,改进算法的F值从88.2%增加到89.3%,传统算法的F值从83.8%增加到84.7%。在特征子集维度达到2 000维时,两种算法的F值趋于稳定。整体来看,改进算法表现明显优于传统算法。基于上述读者评论文本的分析结果,这里以实验数据集对基于社区划分的推荐算法预测性能进行评价,并以绝对误差均值MAE反映预测结果的准确度。传统协同过滤算法、基于社区划分的推荐算法、社区划分和用户评分准则相结合的推荐算法等3种算法的绝对误差均值比较结果如图5所示。

图5 3种推荐算法的绝对误差均值MAE

从图5可以看出,近邻个数对推荐算法的性能有着明显影响,但随着近邻个数的增加,这种影响逐渐减弱,算法的预测准确度趋于稳定。另一方面,在近邻个数达到50个以上时,3种推荐算法的预测精度趋于稳定。其中,协同过滤推荐算法的MAE值为1.8,基于社区划分的推荐算法的MAE值为1.5,社区划分结合用户评分准则的推荐算法的MAE值为1.0。根据MAE值来看,社区划分结合用户评分准则的推荐算法预测准确度更高。在社区划分+用户评分准则的推荐算法的基础上,加入读者评论文本分析算法,2种推荐算法的绝对误差均值的统计结果如图6所示。

从图6的结果可以看出,在近邻个数达到40个以上时,2种推荐算法的预测性能趋于稳定。同时结合用户评分准则的推荐算法的MAE值为0.5,说明读者评论文本分析算法明显改善了特征项的权重分配合理性,改进后的算法准确度有了明显的提升。

图6 两种推荐算法的绝对误差均值MAE

4 总结

随着数据挖掘技术的进步,为了保证网站用户黏性,提升用户的阅读体验感,智能推荐算法随之产生。为了提高文学作品推荐算法的准确性,此次研究对读者评论文本分析算法进行了两方面的优化,一是基于类内和类间分布特征进行加权信息增益(DWIG),二是对特征项进行了位置分布权重优化(TF-IDF-DW)。此外,在基于社区划分的推荐算法研究中,引入了读者评分准则因子和文本等级评分优化。实验以豆瓣网站的文学作品原始数据作为实验数据集,对改进算法进行性能评价。研究结果显示,改进算法预测结果的准确率达到了89.5%,召回率为89.1%,F值为89.3%,改进算法的性能明显优于传统算法的性能。另外,传统协同过滤推荐算法的MAE值为1.8,结合用户评分准则、文本等级评分和评论文本分析的算法优化,最终的改进算法MAE值达到0.5,预测结果和实际结果的误差显著减小。因此,此次研究所提出的基于社区划分的推荐算法,对智能推荐系统的推荐精确度有着极大地提升,希望这次的研究结果能为智能推荐系统的应用升级提供参考。这次研究存在一些不足之处,如没有对评分准则因子深入研究,今后将对算法进行进一步的改进。

猜你喜欢
文学作品准则准确率
当文学作品扎堆影视化
为什么文学作品里总会出现“雨”
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
具非线性中立项的二阶延迟微分方程的Philos型准则
高速公路车牌识别标识站准确率验证法
商业精神在唐代文学作品中的体现
基于Canny振荡抑制准则的改进匹配滤波器
学学准则