基于改进K-Means算法的图书馆读者阅读需求实证研究

2020-07-14 09:25孙卫忠张楠李亚函
新世纪图书馆 2020年5期
关键词:实证研究图书馆

孙卫忠 张楠 李亚函

摘 要 论文对图书馆读者的需求偏好进行数据挖掘,能够为图书馆开展个性化主动服务提供有效参考。由于传统K-Means算法存在对初始中心敏感的问题,文章从数据内部分布特征出发,提出改进K-Means的算法,对图书馆读者阅读需求进行了实证研究。结果显示,读者的阅读需求存在差异性,从而针对读者阅读需求提出提升高校图书馆个性化服务的对策建议。

关键词 图书馆  读者阅读需求  改进K-Means算法  实证研究

分类号 G252

DOI 10.16810/j.cnki.1672-514X.2020.05.011

Abstract Data mining of library readers demand preferences can provide an effective reference for libraries to carry out personalized and active services and rationally allocate collection resources. Because the traditional K-Means algorithm is sensitive to the initial center, this paper proposes an improved K-Means algorithm based on the internal distribution of data, and makes an empirical study on the reading needs of library readers. The results show that there are differences in the reading needs of readers, so the countermeasures and suggestions to improve the personalized service of university library are put forward.

.Keywords Library. Readers reading needs. Improved K-Means algorithm. Empirical research.

0 引言

大數据时代,随着信息技术的迅猛发展,高校图书馆的服务模式正由“以资源建设为中心”向“以读者服务为中心”进行转变,个性化主动服务得到发展[1]。个性化服务要求图书馆能够依据用户的信息行为特征和兴趣爱好等,提供以读者需求为导向的图书服务和知识服务[2]。因此,跟踪读者的兴趣和阅读行为成为图书馆开展个性化服务的重要前提。而在高校图书馆管理系统中,存储着大量的读者借阅行为数据,这些数据中蕴含着读者的借阅特征和需求偏好,对图书馆个性化主动服务的开展具有重要指导价值。面对大量且繁杂的数据信息,如何从中提取有价值且便于图书馆满足读者阅读个性化需求的信息是目前最迫切需要解决的问题。聚类分析作为数据挖掘的一项重要技术,能够发现蕴含于海量数据中的隐藏模式和有价值信息。因此,本文基于聚类算法对高校图书馆读者的借阅行为进行数据挖掘,可以为图书馆个性化服务的开展提供有益参考。

1 文献综述

读者阅读需求问题一直以来都被专家学者视为研究重点,学界也很早就认识到研究读者阅读需求的重要性[3]。著名图书馆学家阮冈纳赞所提出的“图书馆学五定律”便是对图书馆读者需求重要性的典型诠释。随着图书馆外部环境的深刻变革,以读者为中心、以需求为导向的服务理念逐渐成为图书馆界共识,并在相关研究领域发挥着引领作用[4]。

国外学者Schulman(1998年)[5]指出,图书馆读者数据增量迅速、总量巨大,若单纯依靠人工分析具有很大难度,因此需要借助数据挖掘,技术建构决策支持库系统等来对读者阅读行为开展分析,从而依据读者借阅特点来确定图书馆的发展方向和政策制定。加州大学Michael Coope(2001年)[6]利用时间序列、聚类等方法设计了相关模型,对加州大学数字图书馆的流通数据进行挖掘分析,发现不同读者在查询时间、次数等方面特点,从中分析出读者阅读兴趣,预测读者行为。Papatheodorou(2003年) 等人[7]运用CLIQUE聚类算法分析了图书馆数字化数据,找出读者共同的兴趣后,将读者划分到不同群组中构建读者群,提供个性化服务。Kovacevic(2010年) 等人[8]通过对用户基本信息和搜索历史数据进行分析挖掘,实现数字图书馆推荐服务。

随着信息技术的发展和大数据时代的来临,数据挖掘在图书馆个性化服务中发挥着愈加重要的作用。国内学者李文阔(2012年)[9]对数据挖掘在数字图书馆资源建设、读者分析、个性化服务等方面的研究和应用进行了述评,提出数据挖掘技术在图书馆应用中的重要性。吴志强(2011年)[10]、赵彦辉(2012年)[11]分别基于K-Means算法,以读者的历史借阅行为记录数据作为研究对象进行了实践探索,对读者借阅活跃度或兴趣特征等进行群体划分,获取读者差异化的阅读需求。王伟(2012年)[12]利用聚类、关联等数据挖掘技术构建了图书馆用户行为模型,并进行了理论探讨,指出通过这些模型可以有效地提高图书馆面向用户的个性化服务水平。马芳(2014年)[13]也认为采用数据挖掘技术中的聚类算法,对图书馆中的流通数据进行聚类分析,将读者划分为不同阅读兴趣的群体,分析不同读者群的信息需求,对提高图书馆的服务质量非常有益。

随着相关研究的不断深入,国内外学者针对K-Means存在的缺陷也提出了不同的改进方案。Arthur和Vassilvitskii(2007年)[14]设计了K-Means++算法,Tzortzis和Likas (2011年)[15]提出了MinMax K-Means算法,但是单纯以最远距离为原则容易使算法初始聚类中心相互分隔,选到离群点[16]。宋楚平(2014年)[17]、陈小雪(2018年)[18]分别结合萤火虫算法、遗传算法等智能算法的全局最优收敛特性对K-Means进行了改进,取得了理想的聚类效果,不过在实践中这些方法还没有被广泛接受[19]。何云斌(2016年)[20]、蒋丽(2018年)[21]等人则提出了结合密度与距离因素的改进方案,选出有代表性的初始中心点。但这些算法在度量点密度时,笼统地采用某一邻域范围内样本点的数量统计,并不能很好地体现数据分布的疏密程度。而且在确定邻域范围时,需要确定相应的参数,这些都不同程度地依赖于算法执行者的领域知识或相关经验,缺乏客观性。

通过文献梳理可以看出,目前对图书馆读者借阅行为数据的数据挖掘,大多停留在理论探讨阶段,实践操作不足,缺乏相关数据特征下算法的具体应用,所得结果的精确性和实用性有待提升。本文在前人研究的基础上,结合图书馆读者借阅数据的特点,从数据内部分布特征出发,提出改进的K-Means算法,并运用该算法对图书馆读者需求进行实证研究,挖掘读者需求偏好,为高校图书馆个性化服务的开展提供依据。

2 传统K均值聚类方法局限及改进设想

2.1 传统K-Means聚类方法局限性

传统K-Means聚类方法的核心思想是基于相似度函数把给定的数据集划分为k个类簇,经过不断地迭代使得聚类的目标函数值,即每个类别中的对象到其所属簇中心的平方误差和(sum of the squared error, SSE) 最小。

虽然K-Means算法由于简单高效等优势而备受关注,但其仍存在一定的局限性。

(1) 聚类结果过度依赖于初始值的选取,聚类结果准确性和稳定性欠佳。K-Means算法在运行前需要预先指定初始聚类中心,而传统K-Means算法的初始中心是从数据集中随机产生的,从不同的初始聚类中心出发迭代后可能会得到不同的结果。随机选取初始中心,不仅会使聚类结果不稳定,进而增加用户负担,还会造成算法过早收敛于局部最优,使得聚类质量欠佳,如图1所示。

如果选出的初始中心比较接近实際,则所得结果较为真实准确,如图1(a)所示;若随机选取初始中心,则会出现如图1(b)所示的选到边缘点的情况,聚类结果就会出现较大误差。

(2)算法对离群点非常敏感,聚类结果存在较大误差。从K-Means算法步骤可以看出,K-Means算法在一次迭代完成后,需要重新计算聚类中心,噪声点和孤立点的存在势必会对数据平均值产生极大的影响,从而造成更新后的类簇中心偏离数据密集区,使最终的聚类结果存在较大的误差。

2.2 改进K-Means算法

针对以上问题,本文提出了一种基于自然最近邻密度和最大最小距离原则优化选取初始聚类中心的改进K-Means算法,该算法从数据内部分布特征出发,能够自适应地确定数据密度,避免人为参数设置问题,客观真实的反应数据分布特征,找到较高质量的初始中心,以解决传统算法随机选取初始中心点不具有代表性的缺点,同时可摒除离群点对聚类结果的影响,以期能够在对图书馆读者聚类分群时,提升分析结果的准确性和有效性。改进算法流程如下。

Step1:对于数据集按照自然最近邻搜索算法找出每个样本点的自然最近邻,确定各点的密度函数,公式为:

其中,nb(i)表示数据样本点在其余样本对象的r邻域中出现的次数,即样本i的自然最近邻居数,表示各点的自然最近邻集合,则为点xi、yj间的欧式距离。

Step2:删去满足条件的稀疏样本点,得到密集样本点集合。

Step3:选取中密度最大者即的x作为第一个初始聚类中心点c1;以上文所述最远距离为标准,寻找第二个中心点c2;以此类推,直到得到k个初始聚类中心。

Step4:计算数据集属性权重(其中),相应的相似度判别函数改为,其中,i=1,2,…,m,h=1,2,…,k。

Step5:计算中所有样本点与step3中所得k个初始聚类中心的加权欧式距离wdist(x,c),其中,将每个点指派到最近的中心,形成k个类簇,每个类簇以其聚类中心表示。

Step6:根据Step5的聚类结果重新计算聚类中心,其中表示聚类中的样本总个数。

Step7:将Step6中结果作为输入重复Step5,直到聚类簇中心不再发生改变或者聚类达到最大迭代次数。

Step8:输出k个类簇。

为检验改进后K-Means算法的聚类性能,釆用UCI(University of California,Irvine)提供的机器学习数据库中的两个常用数据集Iris和Wine作为标准测试数据集来对算法进行测试。实验系统为windows8.1,采用Python2.7在PyCharm编程环境下进行试验。主要性能评价指标有:对初始聚类中心选取的合理性、聚类准确率和迭代次数。

为了验证算法选取的初始值的合理性,实验采用选定初始中心第一次聚类后的目标函数值J1对算法进行判定;若目标值J1越小,说明选定的初始值越接近真实的聚类中心,即选定的初始值越合理。另外,若同时算法的结果准确率越高、迭代次数越少,则证明改进后算法性也能更高效。

分别将本文算法与传统算法及David和Sergei(2007年)提出的基于最大距离原则选取初始值的K-Means++进行对比实验,算法的聚类性能对比结果如表1所示。为了便于描述,本文算法记作TNKM。

从表1数据可知,本文算法的J1值要明显低于传统算法和K-Means++算法,说明经本文改进后的算法,在选取初始中心上是更为合理的。同时,本文方法得到的聚类结果准确率更高,算法的迭代次数也明显减少,由此证明本文优化选取初始聚类中心的方法能够提高算法聚类性能。此外,根据图2、图3中折线的波动情况,说明本文算法相对来说更为稳定。

3 实证分析

3.1 数据来源

读者借阅量是读者对阅读喜爱程度的重要体现,而读者所借阅的图书类型是读者阅读趋向和兴趣爱好的体现,因此本文选取河北工业大学图书馆2017年的读者历史借阅行为数据,共计121 144条,从中整理出读者的借阅量和借阅类型,利用聚类算法进行实证分析。

3.2 数据预处理

在进行数据挖掘时,确保待分析数据的质量对挖掘结果起着决定性的作用,缺失的数据或不正确、不一致的数据都可能会导致分析结果产生错误或较大误差,因此首先对数据进行预处理是十分必要的。数据预处理包括数据的清理、转换、规约和集成等过程,它是数据挖掘过程中最耗费时间和精力的部分,其工作量几乎占到全过程的60%甚至更高[22]。由于图书馆原始借阅数据中往往含有噪声、冗余和不完整信息,同时数据格式也需要根据不同挖掘目的进行处理,因此我们首先需要对采集到的数据进行预处理。

根据不同的分析目的,对数据做出不同处理。数据的清洗、合并等主要预处理过程,通过调用python中第三方库pandas来实现,首先将excel文件数据转为Dataframe,之后调用pandas的相关方法实现相应的处理要求。

3.3 聚类分析框架

基于上述改进K-Means算法构建图书馆读者需求聚类分析框架,如图4所示。

3.4 实证分析结果

3.4.1 读者借阅喜好程度聚类分析

通过聚类分析,根据读者借阅图书的积极性可以将读者分为不同层次,帮助图书馆定位读者群体在阅读需求上的差异性,制定个性化的服务策略。应用改进K-Means算法对读者借阅喜好程度进行聚类分析,得到结果如表2和图5所示。

群组一:借阅量少,借阅类型少,借阅时长一般,属于惰性用户。该类用户占所有分析用户的78.00%,该群体借阅记录数和借阅类型数均不高,借阅时长一般。特征:读书时间较少,主要花时间关注个别图书,对其他书目发掘度较低,对图书馆利用不充分。

群组二:借阅量和借阅时长均较高,借阅类型也多,兴趣广泛,属于活跃用户,约占所有分析用户的2.38%。该群体借阅量高,借阅种类较多,借阅时长也很高。特征:该类用户热爱读书,且有比较钟爱的图书类型,但也喜好去发现新书目,涉猎广泛。

群组三:借阅量、借阅类型和借阅时长都在群组一与群组二之间,爱好广泛,约占所有分析用户的32.46%。该群体用户各属性值处于中等位置,属于一般用户。特征:爱好广泛,借阅量一般。

3.4.2 读者兴趣聚类分析

以读者借阅图书类别为属性对读者聚类,得到读者阅读兴趣“同好”群,输入改进的K-Means算法模型,进行挖掘分析。本文以中图分类号为I的文学类图书借阅记录为例进行实例分析。

(1) 确定值。

在利用K-Means算法进行聚类时,k值的确定有时可根据具体应用目的进行确定,如根据衣服尺寸相关数据聚类时,k通常取3,对应衣服S、M、L三个尺寸。而此时我们在对读者兴趣聚类时,并不明确在这些数据中隐藏着多少兴趣类别,所以通过分析聚类结果的相关指标来确定值。绘制不同值下,其轮廓系数(SH)与目标函数值(SSE)走势图,如图6所示。

在得到读者的兴趣群体划分结果之后,则可以通过分析兴趣群中“同好”用户的借阅记录数据,作为下一步开展推荐工作的部分参考依据,如针对某一喜欢日本文学的目标用户14在兴趣群2中找出与其最为相似的几个用户,并将这些用户的相关借阅推荐给该用户。

3.4.3 图书借阅量聚类分析

按读者的借阅情况对图书进行聚类,可以细分图书需求层次,发掘读者偏爱的书目类别,揭示读者的阅读趋向。按照改进的K-Means聚类模型,取k=3,即将图书分为高、中、低三个不同需求层次。聚类结果如表5、表6所示。

群组一:高频被借阅图书。借阅次数多,借阅时间长,续借次数高,使用价值很高。

该群组包括6个图书类别,占所有被借阅图书的0.36%。该群组图书满足了读者14.10%的需求,其在三个方面都保持在较高的水平,借阅时间较长说明用户借阅之后使用的时间很长,利用的比较充分,加上较高的借阅次数和续借次数,表明用户对该群组的图书是极为依赖的。因此,应尤其注意该群组中相关图书的维护与建设。

群组二:中频被借阅图书。借阅次数、借阅时间长和续借次数居中,使用价值高。

该群组包括51个图书类别,占所有被借阅图书的3.11%。该群组中的51类图书构成了将近6成的需求,属于普遍流行性图书。因此可参考二八法則,保持与提升群组一、二类图书的建设,这可帮助图书馆达到满足绝大多数读者需求的目的。

群组三:低频被借阅图书。借阅次数、借阅时间长和续借次数均比较偏低,使用价值低。

该群组包括1584个图书类别,却仅满足了不足三成的需求。该群体中读者借阅记录不多,却涵盖了千种图书小类,因此应考虑适度减少配置。

从表6可以看出,读者的借阅倾向集中于TP312(程序语言、算法语言)、TQ02(化工过程)、H319.4(英语读物)、I267(现代散文)、TH122(机械设计)、TM1(电工基础理论)、TN911.73(图像信号处理)、O61和O62(无机化学和有机化学)、TP273(自动控制系统)等等。其中,计算机技术和自动化技术类、数学类、机械设计类、化学化工类、电工类等需求比较大,这在实际上也与河北工业大学作为理工类院校的性质及其优势专业相一致。

4 针对读者阅读需求提升高校图书馆个性化服务的对策建议

4.1 根据读者群活跃度,制定个性化服务政策

通过读者借阅喜好程度聚类分析结果可知,不同读者群的活跃度呈现出明显差别,随着借阅量的增加,每一类包含的读者数随之减少,可见大部分读者对图书馆的利用率并不高,且活跃读者和惰性读者的年均借阅量差异相当大,因此“因人而异”制定个性化服务政策很有必要。例如,针对借书量较高的读者,可以基于其丰富的借阅数据获取其阅读兴趣,提供进一步的个性化图书推荐服务;同时,也可以考虑放宽最大借书册数和归还日期等限制,提供更为人性化的服务。而对于中低频率阅读者应制定相关服务方案,适时开展引导式阅读推广活动,培养其阅读习惯、增强其阅读粘性。

4.2 把握读者的借阅趋向,优化馆藏资源建设

从读者兴趣聚类分析可知,对具有相同阅读兴趣的读者进行分群划分,实现“同好”归类,可以让图书馆准确把握读者的兴趣需求,这有助于图书馆为不同读者兴趣群提供个性化的信息推送服务。从图书借阅量的聚类分析结果上来看,高、低频被借阅图书的平均借阅量差距相当悬殊。高、中频使用层次图书体现着读者的借阅热点和主要倾向,对此类图书图书馆应该加强其资源建设,可以通过调整高中频被借阅图书复本量来满足读者需求。低频借阅层次图书,资源总量大但需求却比较小,因此图书馆应该采取措施进行推广,如定期邀请嘉宾分享阅读体会、举办读书会等活动,提高其利用率,并且适当缩减低频图书的采购规模,动态调整馆藏结构和布局,以满足读者的阅读需求。

4.3 加强馆员素质建设,为个性化服务提供保障

馆员作为图书馆服务的创造者和实践者,其综合素质对图书馆个性化服务的开展起着关键作用。一方面,在信息时代的大背景下,图书馆要积极引进人工智能、计算机等科技人才,为图书馆个性化服务提供稳定的人力资源支持和技术支撑。另一方面,图书馆还应该建立行之有效的馆员培训机制,加强馆员素质建设,保证馆内拥有一批具有较强实验能力、操作能力、良好创造性及与读者沟通能力的人员,为图书馆个性化服务提供保障。

参考文献:

陈祖琴.基于语义路径的个性化知识服务[J].图书情报工作,2011,55(15):106-109.

曹树金,罗春荣,马利霞.论图书馆个性化服务的几个基本问题[J].大学图书馆学报,2005(6):33-39.

王春晓. 以需求为导向的用户信息行为研究[D].长春: 东北师范大学,2012:23-28

李贺,毛刚,李琳.我国图书馆用户需求研究综述[J]. 图书馆学研究, 2013(10): 5-15.

SCHULMAN S. Data mining: life after report generators libraries use decision-support techniqueto chart a future course[J].Information Today, 1998,15(3):52.

MICHJAEL C. Usage pattern of a web based library catalog[J].Journal of the American Society for Information Science & Technology, 2001,52(2):137-148.

PAPATHEODOROU C, KAPIDAKIS S, SFAKAKIS M, et al. Mining user communities in digital libraries[J]. Information Technology and Libraries, 2003,22(4): 152-157.

KOVACEVIC A, DEVEDZIC V, POCAJT V. Using data mining to improve digital library services[J]. Electronic Library, 2010,28(6):829-843.

李文阔,李永先.数据挖掘在数字图书馆中的应用研究综述[J].新世纪图书馆,2012(2):30-33.

吴志强.基于聚类分析的读者阅读倾向研究[J].图书情报工作,2011,55(15):82-84,135.

赵彦辉.基于流通数据挖掘的读者阅读兴趣本体模型构建[J].图书情报工作,2012,56(3):121-124.

王伟.基于数据挖掘的图书馆用户行为分析与偏好研究[J].情报科學,2012,30(3):391-394,418.

马芳.SOM聚类技术在读者行为分析中的应用[J].数字图书馆论坛,2014(6): 63-67.

ARTHUR D, VASSILVITSKII S. K-means++: the advantages of careful seeding[J]. Proc of 18th annual ACM-SIAM symposium on Discrete algorithms.New Orleans.2007(1):1027-1035.

TZORTZIS G,LIKAS A. The minmax k-meansclustering algorithm[J].Pattern Recognition,2011,44(4):866-876.

杨贤,王丰华,段若晨,等.基于优化K-Means的变压器绕组机械状态检测[J].高电压技术,2018,44(6):2027-2032.

宋楚平,李少芹.一种K-Means改进算法在图书馆主题挖掘中的应用研究[J].情报理论与实践, 2014,37(11):120-123.

陈小雪,尉永清,任敏,等.基于萤火虫优化的加权K-means算法[J].计算机应用研究,2018,35(2):466-470.

周本金,陶以政,纪斌,等.最小化误差平方和K-Means

初始聚类中心优化方法[J].计算机工程与应用,2018,54(15):48-52.

何云斌,刘雪娇,王知强,等.基于全局中心的高密度不唯一的K-means算法研究[J].计算机工程与应用,2016,52(1):48-54.

蒋丽,薛善良.优化初始聚类中心及确定K值的K-means算法[J].计算机与数字工程, 2018,46(1):21-24,113.

周炜奔,石跃祥.基于密度的K-Means聚类中心选取的优化算法[J].计算机应用研究,2012,29(5):1726-1728.

猜你喜欢
实证研究图书馆
图书馆
气味图书馆
欢迎到图书馆做客
中国在新农村建设中金融支持的实证研究
简述翻译研究中实证研究法的应用
玉雕专业学生专业认同的实证研究
温州小微企业融资环境及能力分析
认知语言视角下英语词汇多义习得的实证研究
实证分析会计信息对股价的影响
去图书馆