高校图书馆文献推荐应用系统研究

2020-08-20 08:02李明

中阿科技论坛（中英阿文） 2020年7期

李明

摘要：在学术界中，学者若要撰写一篇文章时，皆需要搜寻并参考许多与其研究领域相关的文献，作为进行该研究的知识与理论基础，在高校图书馆文献搜寻时，若可以结合推荐系统中不同的推荐方法，就能够节省学者寻找符合预期的文献，而学者在这些文献搜寻平台是利用关键词寻找相关论文，也就是用自己研究领域的相关字词，例如：推荐系统、协同过滤…等等，文献搜寻平台会找出所有在论文题目及内文中，提及该关键字的文献，呈现给学者所参考。

关键词：高校图书馆;文献推荐;系统

1 引言

目前搜寻论文的平台以關键词寻找相关文献的方法，单纯以论文题目与内文中找出符合学者所输入的关键词为主，但是同一领域所探索的方向并不一定相同，例如：推荐系统所应用的方向非常广泛，倘若要学者输入较精确的关键词去找到符合期望的参考论文[1]，是相当困难的一件事。除此之外，即使以关键词搜寻论文的方式能够找到合适的参考文献，这样的方式都需要经由人工阅读筛出看起来符合的文章[2]，不但耗时又费力，因此，本研究将采用推荐系统的方法来改善寻找相关文献的方式。

2 推荐系统

2.1 非个人化推荐

非个人化推荐是将其他所有用户对于产品的评价取平均值，而后将这些平均值排序后依依推荐给使用者，因此这类的推荐方法会给每位使用者有相同的推荐，类似“畅销产品”的概念[3]，将较受喜爱的前几项产品推荐给消费者。

2.2 内容过滤

内容过滤的推荐系统是根据用户历史消费纪录或过去喜爱的产品来学习，系统会推荐与历史数据相似的产品给用户。例如，使用者过去看过属于喜剧的电影，那么推荐系统就会推荐其他同样属于喜剧的电影给使用者[4]。

2.3 协同过滤

协同过滤是根据与使用者有相似兴趣的其他使用者，将其他使用者过去的喜好推荐给该使用者。两者的相似性则是由每位用户过去对项目的评分，来计算使用者间的相似度。而协同过滤又分为以使用者为基础的协同过滤与以项目为基础的协同过滤。

2.4 混合式推荐系统

所谓混合式推荐法是指将上述两种方法（内容过滤和协同过滤）结合的技术[5]，透过内容过滤的优点补齐协同过滤的缺点;反之，透过协同过滤的优点补齐内容过滤的缺点，例如，协同过滤法会受新项目的限制，在所有使用者皆未对新项目评分的情况下，协同过滤法就无法对使用者进行推荐;但由于内容过滤是针对项目的描述（特征）进行推荐[5]，而项目的描述则是容易取得的，因此内容过滤并不会受新项目的限制。

而推荐系统除了推荐的方法之外，用户对项目的评分数据也分为隐式资料（Implicit Data）与显式资料（Explicit Data）[6]，显式数据指的是用户能明确对项目的喜好评分，例如1到5分的衡量尺度;隐式资料则是指用户的浏览纪录、消费历史纪录等无法明确表明用户的喜好程度的资料。而本研究无法明确得知学者对每篇文献的评分，也就是学者对文献符合其研究的程度如何，因此，采取搜集隐式数据的方式，将学者参考文献的次数当作使用者对项目的评分。

3 协同过滤

协同过滤主要的技术分为两种，“以使用者为基础的协同过滤”与“以项目为基础的协同过滤”，这部分会在以下两小节做进一步的探讨。

3.1 以使用者为基础的协同过滤

以使用者为基础的协同过滤（User-based Collaborative Filtering），最早由 Schaferet（1999）提出，指的是依据使用者之间的喜好相似程度进行推荐[7]，例如以某消费者与其他消费者在电子商务网站上购买商品的关联性来推荐其可能会喜欢的商品。

其算法是利用所有 User 和 Item 的数据库去预测 User 对 Item 的评分，最常用的技术是最近邻居法，找出与用户对相似的项目进行评分且皆为类似评分者，即为该使用者的邻居，接着透过邻居所评分的其他项目对该用户对这些项目进行预测，且利用 Top-N 的推荐法推荐较感兴趣的前 N 名项目。

3.2 以项目为基础的协同过滤

以项目为基础的协同过滤（Item-based Collaborative Filtering），最早由Schafer等人（1999）提出，指的是依据用户感兴趣的项目进行推荐[8]，例如某消费者将一些商品放置购物车中，推荐系统将会推荐与这些商品相似的其他商品给消费者，进而扩大消费者的购买商品数量。其算法是计算两个项目间的相似性，找到与目标项目相似的其余项目，首先，必须从不同用户对项目的评分矩阵（m x n）中找出同时有被用户评分过的项目 i 与项目 j ，进而去计算两者间的相似性，例如Cosine similarity，接着透过加权的方式，对与目标项目相似的其他项目进行排序，进而预测用户对这些项目的评分，且利用 Top-N 的推荐法推荐较感兴趣的前 N 名项目。

4 运算框架

Apache Spark 是一个丛集式运算框架，是由MapReduce演变而来，提供数据串流的处理，支持与MapReduce相似的特性，包含可扩展性及容错性[9]，除此之外，Spark 在执行速度上比 Hadoop 快 10 倍，而 Spark 的核心是弹性分布式数据集（Resilient Distributed Dataset， RDD），用户可以从内存中存取档案的地方（例如数据库）产生 RDD，进行类似MapReduce的平行运算，例如数据的转换与处理，而 RDD 有相当高的容错性，若其中一部分的 RDD 遗失了，也能有足够的信息，再从其他 RDD 中重新转换产生一个 RDD，而这些 RDD 只能读取不能修改[10]。

RDD 主要的平行运算分为两种，转换（Transformation）与行动（Action）的操作，转换的操作是对已存在的 RDD 进行转换，例如 map、filter、join 等，这些转换会产生新的 RDD，而转换的运作为 lazy load 机制，在转换的动作不会立刻执行，直到行动操作时才会真正被执行，例如 reduce、collect、count 等。Lazy load 机制为Spark 在处理数据上的核心，该机制考虑到内存的存取空间，倘若每次转换后所得到的 RDD 都马上执行并储存于内存，等到行动操作时才来使用，会占用许多的储存空间，因此，此机制能解决大量的数据在数据处理及转换后，需要庞大的储存空间的问题，如此，不必每次转换都占用一些的储存空间，可以等到进行Action（行动）操作时，再选择需要被执行的转换动作。

5 推荐系统效能评估

推荐系统注重于其推荐的项目是否符合使用者的期望，预测的评分是否准确，而判断推荐系统的效果好坏与否，预测的精确度是否达到预期，常用的评估方法为MAE（Maximum Average Error，最大平均误差）和 RMSE（Root Mean Square Error，均方根误差），此两种计算方法，為计算推荐系统预测的评分与使用者实际的评分之误差平均值，MAE的优点在于它的统计方法较其他方法简单且容易理解，在比较两个不同系统时，也能透过计算 MAE 进行比较系统效能，而 RMSE 虽然在计算上也相对简单，但由于它的计算方法为误差平方后再相加，若另一个系统的资料量相对较大，那么其误差就会相对较大，因此 RMSE 的评估方法仅适用于衡量同一系统上。

在公式 2 与公式 3 中，N表示推荐系统中所有使用者的评分数量，表示系统预测的评分，表示使用者实际的评分，而在推荐系统的效能评估上，MAE与RMSE愈低愈好，表示其预测的评分与使用者实际的评分差异较低，而过去也有许多学者利用这两种评估方法来衡量推荐系统的效能。

另一种推荐系统的评估方法为分类衡量指标，假如某一个文献只有一位学者参考且次数偏高，那么系统只会依据该学者对此文献的评分，进而去预测其他学者对此文献的评分，如此，所有学者的评分将会是同样的，又因为其他学者并没有对此文献评分，在MAE与RMSE的评估上会被忽略，因此本研究需要利用另一个衡量指标，进一步探究系统的推荐效果，此方法为Precision和Recall，在进行Precision和Recall的计算前，需先进行使用者评分资料的分类，将使用者评分的项目分为喜欢（Like）与不喜欢（Dislike），而经由推荐系统推荐的项目则分为推荐（Selected）与不推荐（Not Selected），以商品为例，假设使用者给予商品的评分为1分-5分，若评分为4分-5分视为使用者喜爱此商品（Relevant），而评分为1分-3分则视为使用者不喜欢此商品（Irrelevant）。

6 总结

推荐系统对于用户，可以大幅缩短他们浏览大量信息的时间并能快速地挑选适合自己的产品;对于服务提供商，导入推荐系统能够帮助他们的顾客实时找到感兴趣的产品，如此一来就会有更多消费者愿意在该服务平台上购买产品，而成为了忠诚的顾客。

推荐系统首先收集用户的信息，包含喜好及购买过的产品等，接着系统会自主学习并建立模型，最后预测用户可能会感兴趣的产品并推荐，而系统则会收集用户选取的数据并回到第一阶段反复执行。

参考文献：

[1]孟德泉.我国高校图书馆WAP网站导读服务现状研究[J].情报科学，2014（10）：70-74.

[2]孙雨生，仇蓉蓉.国内数字图书馆个性化服务研究主题演化分析[J].情报理论与实践，2014（08）：41-47.

[3]靖培栋，赵丽春.下一代图书馆目录在我国的发展分析[J].图书情报工作，2014（14）：127-131.

[4]张淼.基于网站建设的高校图书馆阅读推广问题及策略[J].图书馆工作与研究，2014（05）：45-49.

[5]胡吉明，张蔓蒂.基于知识社区的高校数字图书馆服务拓展[J].图书情报知识，2014（03）：117-123.

[6]高冉，李晓娟，雷菊霞.高校图书馆阅读指导有效路径探讨——以北京师范大学为例[J].图书馆理论与实践，2014（04）：32-33.

[7]林晓华.基于读者决策采购的文献资源建设模式研究[J].图书馆工作与研究，2014（04）：43-46.

[8]贾朝霞，李力文.基于读者决策采购理念的高校图书馆中文图书采访模式探析[J].图书馆工作与研究，2014（04）：57-60.

[9]邓佳，詹华清.我国高校图书馆在线信息素养教育资源调查及建设策略[J].图书情报工作，2014（06）：96-100.

[10]王征，谢奉君.基于多源信息融合的高校图书馆推荐系统[J].情报理论与实践，2014（02）：93-97.