基于改进的倾向得分估计的无偏推荐模型

2022-01-05 02:31骆锦潍刘杜钢潘微科

计算机应用 2021年12期

骆锦潍，刘杜钢，潘微科*，明仲

（1.大数据系统计算技术国家工程实验室（深圳大学），广东深圳 518060；2.人工智能与数字经济广东省实验室（深圳）（深圳大学），广东深圳 518060；3.深圳大学计算机与软件学院，广东深圳 518060）

（∗通信作者电子邮箱panweike@szu.edu.cn）

0 引言

推荐系统作为大数据时代的产物，旨在为用户推荐其感兴趣或喜欢的物品。推荐系统所使用的数据通常来自用户与物品的历史交互行为，包括显式反馈和隐式反馈两种形式。显式反馈通常是指能够充分展示用户对物品偏好程度的反馈（如评分）；而隐式反馈则通常指点击、浏览等不能充分表示用户偏好的反馈［1］。相比收集过程困难的显式反馈，隐式反馈广泛存在于用户与系统的行为日志中，收集成本低廉，因此基于隐式反馈的推荐算法研究更符合现实场景［2］。

另一方面，推荐系统遭受着各种偏置问题，例如曝光偏置（exposure bias）、位置偏置（position bias）和选择偏置（selection bias）等［3］。其中，曝光偏置是指推荐系统会给予不同的物品不同的曝光概率从而导致数据的采集存在偏置。例如：某不满足用户偏好的物品由于得到系统高频的曝光而被用户点击，进而导致系统增加推荐该物品的次数。如果不对数据偏置进行处理，推荐系统难以捕捉用户的真实偏好，有损推荐的多样性和公平性。相比传统推荐模型，无偏推荐模型的关注点在于如何从有偏的历史交互记录中挖掘用户无偏的真实偏好信息，因此近年来受到学术界和工业界愈来愈多的关注［4-5］。

其中，基于倾向得分估计（propensity socre estimation）的无偏推荐模型能够有效缓解曝光偏置，但这类模型的纠偏程度和性能依赖于倾向得分估计的准确度［6］。目前关于显式反馈数据的倾向得分估计的研究已比较充分，而对于推荐系统中更常用的隐式反馈数据倾向得分估计的研究还非常少，这将限制基于倾向得分估计的推荐模型的纠偏能力和推荐性能。对于推荐系统中隐式反馈数据中的曝光偏置，先前的方法只通过从稀疏数据中获取物品的流行度信息来估计倾向得分，这导致倾向得分估计不够精确，进而会对模型的性能和无偏性质带来损害。为了克服现有方法在倾向得分估计上的不足，本文同时挖掘隐式反馈数据中用户层面和物品层面的信息，并通过用户流行度偏好和物品流行度配对的思想将两者融合起来，最终得到配对倾向得分估计（Match Propensity Estimator，MPE）方法。

本文的主要工作包括：

1）提出一种同时利用物品层面与用户层面信息的MPE方法。该方法在无辅助数据集的情况下，以用户的流行度偏好作为切入点，融合用户层面和物品层面的信息，实现了对倾向得分更精确的估计。

2）将所提出的MPE 方法与传统推荐模型和前沿无偏推荐模型进行结合，并在无偏推荐领域的公开数据集上开展了一系列实验。实验结果表明MPE 方法能够有效缓解隐式反馈数据中的曝光偏置，进而让模型在各项推荐指标上优于相关工作。

3）得益于MPE 对曝光偏置问题的解决，可以使模型从有偏数据中更好地捕捉用户无偏的真实偏好，进而提升模型在长尾物品上的推荐性能。

1 相关工作

1.1 传统推荐模型

在推荐系统算法的研究中，基于协同过滤的算法被广泛接受和应用［7］。协同过滤的思想是通过寻找和利用不同用户之间或（和）不同物品之间的相似性来协同地预测用户对物品的喜好程度。在协同过滤的研究中，因为其简单且高效的特点，潜在因素模型（latent factor model）一直是推荐系统算法研究的热点［8］。潜在特征模型通过训练学习用户和物品的潜在特征向量，并利用这些潜在特征向量来计算用户偏好，进而实现推荐。

基于隐式反馈的推荐算法面临着两大难题，即正未标记问题（positive-unlabeled problem）和非随机缺失（Missing-Not-At-Random，MNAR）问题。正未标记问题是指推荐系统所收集的隐式反馈只包括正反馈（如点击、收藏、购买），而未观测样本可能包含负反馈和潜在的正反馈［9］。这意味着一个物品没有得到点击可能是由于用户不喜欢，也可能是因为用户没有观测到该物品而无法点击。非随机缺失问题则是由于数据偏置所导致的［10-11］，例如，推荐系统通常会倾向于推荐热门的物品，这会导致在长尾物品上的数据缺失程度比热门物品上的严重得多。如果推荐模型不对数据偏置进行处理，将使得原本的流行物品获得更多的曝光机会，而长尾物品则难以被用户所观测到，即马太效应。

隐式反馈通常对应于top-K排序问题，而成对偏好假设更为接近排序问题的设定，因此有学者提出了基于成对损失函数的贝叶斯个性化排序（Bayesian Personalized Ranking，BPR）模型［12］，其核心思想为：相比未点击的物品，用户可能更喜欢点击的物品，模型通过极大似然估计来最大化正负样本（即点击与未点击样本）之间的差异。BPR 模型在排序任务上能取得较好的效果，且先前的工作通常都将其作为一个重要的基线模型。

作为另外一个重要的分支，权重矩阵分解（Weighted Matrix Factorization，WMF）［13］基于一个启发式的想法：在隐式反馈的设定下，由于正未标记问题的存在，无法将未观测样本完全置信地作为负样本。因此，相比未观测样本，应给予正样本更高的权重。在后续的工作中，有学者认为WMF对未观测样本赋予一样的权重是不合理的，并首次提出了基于物品流行度来为未观测样本进行加权的快速矩阵分解（Fast Matrix Factorization，FMF）方法［14］。FMF 同样基于一个启发式的想法：用户没有点击一个流行物品则表示该用户很可能不喜欢该物品。

在传统推荐模型的研究中，先前的工作主要基于启发式的想法来设计新的模型，以便更好地符合隐式反馈的设定；另一方面，数据偏置的问题没有得到充分的重视和研究。

1.2 无偏推荐模型

在现有文献中，无偏推荐算法的研究方向主要分为以下两种：1）利用少量无偏权威数据（gold-standard data）的方法；2）基于逆倾向得分（Inverse Propensity Score，IPS）的方法。

利用少量无偏权威数据的方法旨在利用由均匀策略收集得到的小规模的无偏数据集去帮助在大规模的有偏数据集上构建无偏的推荐算法［15］。均匀策略是指不使用部署的推荐策略进行物品的推送，而是随机地从候选集中选择物品，且对它们进行随机排序以进行展示。均匀策略尽可能地屏蔽了系统层面上偏置的来源，这意味着在均匀策略下收集到的观测数据可以被认为是一个权威的无偏数据。文献［15］中，作者分别对有偏数据和无偏数据进行建模，并且利用一个参数对齐项来将无偏知识进行迁移。随后，有研究人员提出了一个基于无偏数据和知识蒸馏的反事实推荐框架［16］，其中无偏数据分别在四个不同的蒸馏模块中被更充分地利用。但是这个方向的一个难处在于无偏数据的收集需要高昂的代价，尤其当其在真实产品的线上流量中部署时。

基于IPS 的方法旨在利用倾向得分来将有偏数据分布平衡为无偏数据分布，从而解决偏置问题。倾向得分（propensity score）的概念于1983 年首次提出［17］。文献［6］中，作者首次将IPS 应用在推荐算法中，提出了矩阵分解的IPS 版本MF-IPS，同时也提出了显式反馈设定下的倾向得分估计方法（naive Bayes 等）。文献［18］中，字节跳动公司在搜索系统领域首次提出了基于成对损失函数的无偏置排序算法，缓解了在搜索系统领域中位置偏置的问题。由于IPS 具有简洁、可离线计算和高效的特点，当前大部分旨在解决偏置问题的工作都遵循这个思路。

除了上述两个方向，有研究者尝试在评分预测问题上同时使用无偏数据和倾向得分来缓解数据偏置［19］。

文献［20］的作者将IPS 框架首次应用到基于隐式反馈的推荐算法中，提出了相关性矩阵分解（Relevance Matrix Factorization，RMF）模型，并从理论上证明了该模型具有无偏的性质。

2 推荐模型

本章将给出符号描述与相关定义，并介绍本文所使用的传统推荐模型FMF和前沿的无偏推荐模型RMF。

2.1 符号系统描述

假设有用户全集U={1，2，…，n}和物品集合I={1，2，…，m}；Yu，i∈{0，1}则表示用户u对物品i的点击反馈，包括点击（1）和未点击（0）；D为训练数据，其中包括观测到的点击样本和随机采样的未观测样本。在本文中，推荐系统的目标是根据D中不同用户的历史交互记录，挖掘用户的真实偏好，并最终给用户生成先前未交互过且符合用户偏好的物品列表。

本文所涉及的模型均属于潜在特征模型，该类模型将反馈矩阵分解或映射为潜在特征空间中的用户特征矩阵和物品特征矩阵。通过优化预设的损失函数获得最佳的用户特征向量和物品特征向量后，便可以通过向量的内积来计算用户在原有隐式反馈矩阵中的缺失值。最终按照预测值进行降序排序后，选择前K个物品推荐给用户。

2.2 快速矩阵分解模型

快速矩阵分解（FMF）模型［14］的损失函数为：

其中：w≥1 是一个超参数，表示点击数据相比未点击数据的置信度，在没有先验知识的情况下，该方法对所有点击数据设置相同的权重；ci为物品i的流行度；Uu⋅和Vi⋅则表示用户u和物品i的潜在特征向量；λ为正则化项上的参数，用于防止模型过拟合；分别表示一个样本(u，i)的正损失函数（标签为1）和负损失函数（标签为0），其中损失函数可以是交叉熵或平方损失等。为了公平起见，在本文的所有实验中都采用平方损失（square loss）：

2.3 相关性矩阵分解模型

相关性矩阵分解（RMF）从理想损失函数出发，通过IPS框架得到RMF模型［20］的损失函数如下：

其中：θu，i为IPS 框架下的倾向得分，在RMF 模型中也可以解释为样本(u，i)的曝光概率。RMF 采用潜在特征模型，预测规则同式（3）。本文略去RMF 的具体推导过程，但从其损失函数可以看出在正样本部分（点击数据），RMF 给每个样本(u，i)赋予一个个性化的权重，代表不同曝光概率的正样本相关性不同，即RMF 通过逆倾向得分在一定程度上恢复由曝光偏置导致的分布漂移。在已知真实的倾向得分的理想情况下，RMF可以有效缓解曝光偏置。

3 倾向得分估计

与传统推荐算法相比，基于IPS 的推荐模型能较好地解决数据的偏置问题，但是其性能严重依赖于倾向得分估计的准确性，即倾向得分的估计准确性直接影响IPS 模型的纠偏能力，只有在已知真实的倾向得分的理想情况下，IPS 模型才能被认为具有真正的无偏性质。然而在现实中，只能通过倾向得分估计方法对倾向得分进行估计，其中倾向得分估计值越准确，则IPS 模型越接近于无偏模型，从而具有更好的性能。对于推荐系统中常见的隐式反馈数据，现有工作在倾向得分估计的准确性上亟待改进。本章将首先分析现有倾向得分估计方法的缺陷，随后，提出一个新的配对倾向得分估计（MPE）方法来克服这些缺陷，从而进一步提升基于IPS 的推荐模型的性能。

3.1 流行度倾向得分估计方法

在RMF［20］中，作者采用流行度敏感（popularity-aware）的倾向得分估计方法，即通过计算物品流行度来估计曝光率。其估计方法如下所示：其中：τ≤1 为平滑项，U为用户全集，I为物品全集。式（5）旨在通过计算物品i的相对点击概率来估计物品流行度，从而确定倾向得分的具体数值。

流行度倾向得分估计方法可以解释为对于所有用户，推荐系统都“一视同仁”地按照物品的流行度高低进行推荐。这与推荐系统旨在实现个性化推荐的目标不一致。换言之，推荐系统应该学习不同用户的不同偏好，从而对不同的用户采用不同的推荐策略。另一方面，只考虑物品层面的信息来估计倾向得分可能是不充分和不准确的。正如前面所述，倾向得分的估计精度会直接影响模型的纠偏能力并最终影响推荐效果，因此有必要引入更多信息来提升倾向得分估计的准确性。

传统的推荐模型FMF 虽然没有使用IPS 框架，但其在未观测数据部分的加权处理在一定程度上也可以被解释为倾向得分。为了实验的统一，本文同样采用式（5）来计算FMF 模型在损失函数式（1）中的ci，即物品i的流行度。

3.2 配对倾向得分估计方法

在没有辅助数据集的情况下，估计倾向得分的难点在于如何从稀疏的隐式反馈数据中挖掘用户层面的信息和物品层面的流行度信息，并将它们进行结合，以更好地建模历史推荐系统的曝光率。

在流行度偏置的研究中，研究人员已经观察到不同用户对待“流行物品”的态度是不一样的。文献［21］的作者将用户划分为热门导向型（blockbusters-focused）、追求多样型（diverse）和猎奇型（niche），通过实证研究验证了不同用户对流行度的偏好程度是不同的。基于这个结论，本文创新性地以用户的“流行度偏好”作为切入点来挖掘用户层面的信息，进而提出MPE方法：

其中：pi表示物品i的流行度，由式（7）计算；Pu表示从历史数据中估计的用户u的“流行度偏好”，数值越高表示该用户的流行度偏好程度越高。本文首先提取用户u的历史点击物品集合Iu，然后计算所有物品流行度pi的均值，如式（8）所示；α∈(0，1]为阈值参数，代表样本(u，i)在推荐系统中能获得的最大曝光率。MPE方法的思想是历史推荐系统可以捕捉到用户个性化的“流行度偏好”，当物品i的流行度与用户u的“流行度偏好”越匹配时，样本(u，i)在历史推荐系统中就会获得越高的曝光率。注意，当两者完全匹配(|Pu-pi|=0)时，曝光率θu，i为阈值α。

进一步可以发现，式（5）的流行度倾向得分估计方法实际上是本文MPE 方法的一个特例，即当α=1，Pu=1 时，θu，i=1-||1-pi=pi，MPE 退化为流行度倾向得分估计方法。从这个视角可以看出，流行度倾向得分实际上是将所有用户看作极端的热门导向型用户，而这显然是对用户群体做出的一个过于简化的假设。挖掘并结合用户流行度偏好信息的MPE方法可以很好地解决这个问题。

为了验证本文MPE 方法的有效性，本文分别将MPE 与原始的FMF 模型［14］和RMF 模型［20］进行结合，并将它们称作FMF-MPE 模型和RMF-MPE 模型，其中RMF-MPE 模型的训练算法如下：

算法1 RMF-MPE模型训练算法。

输入观测数据点击矩阵Y∈{0，1}n×m，学习率μ，潜在特征维度d，正则化参数λ，倾向得分的最小阈值M，迭代次数T；

输出训练好的模型参数：用户潜在特征矩阵U∈Rn×d，物品潜在特征矩阵V∈Rm×d。

RMF-MPE模型的算法流程主要分为两部分：

1）倾向得分的估计。输入观测数据点击矩阵Y∈{0，1}n×m，通过MPE 估计每个(u，i)样本的倾向得分并保存。值得注意的是，本文通过预先设置的阈值M来限制倾向得分的最小值（算法1第3）步）。先前的研究已经表明这种处理有助于减少IPS模型的方差［20］。

2）模型的损失函数的优化。在每一次迭代中，根据模型具体的损失函数求取梯度，然后通过梯度下降的方式来更新模型参数，即用户潜在特征矩阵U∈Rn×d和物品潜在特征矩阵V∈Rm×d。

4 实验与结果

4.1 数据集

本文采用在现有工作中最常用的Yahoo！R3数据集作为实验数据集。需要说明的是，本文仅选用Yahoo！R3 数据集作为实验数据集是因为它是目前仅有的一个较大的，且提供在均匀策略下收集到的测试集的公开的推荐系统数据集。Yahoo！R3 数据集是雅虎公司在音乐服务推荐中收集的显式反馈评分数据。Yahoo！R3 数据包括15 400 位用户和1 000首歌曲。训练集中有超过300 000 条在正常交互场景下收集的用户对音乐的评分记录，其中每个用户至少有10 条评分记录。Yahoo！R3 数据集还提供了一个使用均匀策略收集到的测试集：系统为5 400 位用户中的每个用户随机选取10 首音乐作品，并要求该用户对这些音乐作品给予反馈。因此，Yahoo！R3 的测试集可以被认为是完全随机缺失的（missing at complete random），即具有无偏性质。

需要说明的是，不同于传统推荐算法的评估，无偏置推荐算法的评估需要在具有无偏性质的测试集上才能验证推荐模型的无偏性质与真正性能［22］。因此，本文采用Yahoo！R3 数据集而不是其他常见的推荐数据集，例如MovieLens数据集。

本文采用与文献［20］一致的数据集处理方式：将数据集里的评分记录数据转化为隐式反馈数据，即将评分记录ru，i≥4 的样本当作点击数据（Yu，i=1），将其他样本作为未观测数据（Yu，i=0）。由于Yahoo！R3已划分好训练集和均匀策略收集的测试集，本文在训练集中随机选取10%的样本作为验证集，并在验证集上对模型参数进行调优。最后，在权威的随机测试集上进行效果评估。

4.2 评估指标

本文采用三种常用的排序评估指标，分别是折损累计增益（Discounted Cumulative Gain，DCG）、召回率（Recall）和平均精确率（Mean Average Precision，MAP）。将推荐列表的长度记为K，则三个评估指标可以表示为DCG@K、Recall@K和MAP@K，用于评估推荐算法在排序前K个位置的表现。令推荐算法为用户u产生的长度为k的推荐列表为Ire@ku，实验测试集中用户u喜欢的物品集合为Iteu，测试集中的用户集合为Ute。

DCG 是评估排序任务的一个综合性指标，计算公式如式（9），其中：l表示用户u的推荐列表中的位置，δ(i(l)∈Iteu)表示推荐列表中第l个物品是否在测试集中用户u的喜欢物品中。DCG越大表示算法在排序推荐中的准确性越高。

召回率计算推荐列表前K个位置包含的测试集中用户喜欢的物品个数占测试集中用户喜欢的物品总个数的比例，计算公式如式（10）。算法的召回率越大表示算法能够准确地覆盖更多的未知正样本。

4.3 对比模型

如前所述，本文专注于解决推荐系统中隐式反馈数据的曝光偏置问题。在基于隐式反馈的传统推荐方法中，贝叶斯个性化排序（BPR）［12］是一个有代表性的经典算法，本文将其作为一个基线模型。FMF［14］和RMF［20］是与本文方法最接近的两个主流算法，在本文中被视为两个重要的基线模型。其中，RMF 是前沿且具有代表性的基于隐式反馈的无偏推荐算法。因此，实验部分包含BPR、FMF、RMF、FMF-MPE 和RMFMPE 五个推荐模型，其中FMF-MPE 和RMF-MPE 是结合本文MPE方法的模型。

4.4 参数调节

对于FMF模型和FMF-MPE模型，本文统一地设置正样本权重为1 以确保对比的公平性。流行度倾向得分估计方法和MPE 方法中的τ值根据文献［20］将其设置为τ=0.5，倾向得分的最小阈值统一地设置为M=0.01。MPE 方法中的α在｛0.6，0.7，…，1｝范围内进行选择。本文所有模型算法的潜在特征的特征维度d在｛20，30，…，200｝范围内进行选择，正则化参数λ在｛0.000 01，0.000 1，…，0.01｝范围内选择，迭代次数T统一设置为300。五个模型的最佳参数如下所示：

BPR：d=30，λ=0.000 1。

FMF：w=1，d=200。

FMF-MPE：w=1，d=200，λ=0.000 01，α=0.8。

RMF：d=200，λ=0.000 01。

RMF-MPE：d=200，λ=0.000 01，α=0.8。

4.5 实验结果及分析

实验一：物品全集上的实验。

上述五个模型算法在Yahoo！R3数据集上的实验结果如表1所示。

表1 五个模型在Yahoo！R3数据集上的推荐性能Tab.1 Recommendation performance of five models on Yahoo！R3 dataset

通过对表1的实验结果进行分析，可以得出以下结论：

1）FMF 的表现与BPR 相近，总体上略微逊色于BPR。基于IPS 的RMF 模型表现显著优于FMF 和BPR，这得益于IPS模型可以有效地缓解数据的偏置问题，从而使RMF 模型可以学习到更为无偏的潜在特征。

2）结合本文MPE方法的RMF-MPE的表现相比RMF有显著的提升（DCG@5相比RMF提升了5.35%），是在各项评估指标中表现最佳的模型。这表明相较于流行度倾向得分估计方法，MPE能在相同的数据中挖掘出更多的有用信息，即用户层面的流行度偏好信息，最终实现对曝光率更精确的建模。由于IPS 框架模型的效果与倾向得分估计精确度直接相关，RMF-MPE 的实验结果验证了本文MPE 方法实现了更加精确的倾向得分估计，进而提升了推荐模型的无偏程度和推荐性能。

3）结合本文MPE 方法的FMF-MPE 模型相比FMF 模型在所有指标上也都有显著地提升，综合性能接近RMF 模型。值得注意的是，FMF 不是基于IPS 框架的模型，其效果的提升也验证了MPE 对历史推荐系统在曝光率建模上的有效性，并且说明MPE具有较好的通用性。

实验二：长尾物品上的实验。

将Yahoo！R3数据集中的物品按照点击数从大到小进行排序，并以物品排序为横坐标，点击次数为纵坐标进行统计，得到长尾分布如图1所示。

图1 Yahoo！R3数据集中物品的点击次数分布Fig.1 Distribution of number of clicks on items in Yahoo！R3 dataset

在推荐系统的场景下，长尾物品的有效推荐也是一个非常重要的研究问题。推荐系统往往能够在流行度高的“短头”（short-head）部分取得很好的推荐效果，而在“长尾”（long-tail）部分的推荐效果往往不尽人意［23-24］。处理长尾部分中零散的、个性化的需求问题能够创造比短头部分还要大的利润。由于曝光偏置可能是导致长尾效应的一个重要因素，解决曝光偏置可望提升推荐模型在长尾物品上的推荐效果。

因此，本文对上述五种模型算法在长尾物品上的推荐效果进行进一步的实验。将点击数排名前10%的物品标记为Yahoo！R3 的短头物品，其余为长尾物品。在保持所有实验的模型参数、训练过程不变的基础上，仅在测试集中的长尾物品（点击次数＜250 的物品）子集上进行推荐效果评估。实验结果如图2所示。

图2 五个模型在Yahoo！R3数据集中长尾物品上的推荐效果Fig.2 Recommendation performance of five models on long-tail items in Yahoo！R3 dataset

通过对图2的实验结果进行分析，可以得出以下结论：

1）从DCG 和MAP评估指标来看，五个模型在长尾物品上的实验结果相比在物品全集上的实验结果有较大的差距，而在召回率上呈现出不一样的趋势。这可能是因为在将测试集缩小为原来的长尾物品子集后，长尾物品实验中的待召回物品数目减少而导致召回率提升（评估指标的局限性）。五个模型在长尾部分的推荐效果表现均逊色于它们在物品全集上的表现，这验证了推荐系统中长尾难题的存在，也符合经验上的认知。

2）BPR、FMF、FMF-MPE、RMF和RMF-MPE在长尾物品上的推荐性能依次提升，且FMF 在长尾物品上的表现优于BPR（物品全集上呈现相反的趋势）。可以看出，基于IPS 的RMF和RMF-MPE相比传统推荐模型，在长尾物品推荐上的性能有显著的提升，这得益于倾向得分对数据偏置问题的有效解决。从式（4）可以看到，RMF 为观测数据中的长尾物品样本（即曝光率小的点击样本）赋予了更高的权重。这表示在训练过程中模型根据倾向得分适应性地提高了长尾物品的权重，即系统更加信任从这些长尾物品样本中所学习到的个性化偏好信息，这也是符合直觉的一个结果。

3）我们认为RMF-MPE 相比RMF 在长尾物品上的提升来自MPE 对倾向得分估计精度的提高，使得模型捕捉到用户更具适应性的无偏偏好。RMF 与RMF-MPE 都是基于逆倾向得分的模型，因此整体来说都会提升长尾物品在损失函数中的权重（长尾物品的曝光率低）；而MPE 根据用户的流行度偏好将用户分类，融合用户侧和物品侧的信息来估计倾向得分，使得同一物品对不同用户有不同的倾向得分值，这在一定程度上增强了模型的表达能力，从而提升长尾物品上的性能。这说明数据纠偏对于提升长尾物品上的推荐性能是至关重要的，也值得今后在这方向上进行更深入的研究。

5 结语

本文针对现有的基于隐式反馈的无偏推荐算法在倾向得分估计上的缺陷，在分析先前工作不足的基础上，引入用户的流行度偏好，并通过配对用户流行度偏好和物品流行度，提出了配对倾向得分估计（MPE）方法，并在公开数据集上通过实验验证了MPE 的有效性和通用性。在未来希望能够进一步研究以下几点：1）由于推荐系统的迭代，不同时间点的倾向得分是变化的，在未来的研究中可以探讨如何有效地利用时序信息；2）基于隐式反馈的倾向得分的估计精度还有进一步提升的空间，我们将研究如何构建更加通用和更加精确的倾向得分估计方法；3）无偏置推荐算法在评估时受限于无偏置测试集的收集，在未来的研究中可以探讨传统推荐算法的评估和无偏置推荐算法的评估的互补性。