基于大数据聚类的读者借阅特征对比研究

2021-07-14 19:42郑云涛沈晶晶徐真真李萍
锦绣·下旬刊 2021年7期
关键词:聚类分析

郑云涛 沈晶晶 徐真真 李萍

摘要:随着信息时代的到来和数字化图书馆的兴起,大学生通过手机和互联网获取大量电子资源,导致了纸质图书借阅规模持续下降。为更好地服务读者,满足读者需求,需对读者借阅行为进行信息挖掘。本文采用了52万余条纸质图书有效借阅记录,应用SPSS软件对15205名毕业生做降维因子分析,萃取了8个综合决策因素,并创造性的依据萃取因素做聚类分析。聚类分析和卡方分析综合结果表明,读者群体有专业学习、休闲娱乐、语言文字、毕业去向、兴趣爱好、历史地理和思政教育等多种需求。借阅行为不仅受专业、年级、性别和入学年份等外在特征影响,还受活跃度、毕业去向优良度、借阅目的和借阅连续性等内在特征影响,但不受校园文化和外部偶发因素的显著影响。

关键词:SPSS;聚类分析;内在特征;外在特征;读者群体;

一、数据采集、预处理及分析工具

从学校图书馆的图腾管理系统数据库导出近五届毕业生读者信息和图书借阅记录,为保护读者隐私和学校图书馆管理系统的知识产权,读者信息表选取的关键字段仅为读者号、性别、专业、入学年份和学院,图书借阅记录选取的关键字段仅为题名、馆藏号、索书号、借书日期。筛选出东湖校区四年制本科应届毕业生借阅记录(不含独立学院、专升本、退学、转学、休学、延长学制和五年制的学生),最终得到15205名毕业生的529975条有效借阅记录。

数据预处理是整个聚类挖掘中最为基础的环节,数据预处理的质量直接决定着聚类分析的效果。本文使用了学院、学科、专业、年级、入学年份等读者自身在借书时所具有的外在特征以及数据离散化处理得到的专业聚类、借阅目、借阅连续性和活跃度等等预定义特征,整合借阅记录和读者信息得到了43547条读者借阅信息。其后,为保证A-Z类借阅量的连续性,根据箱型图和PP图对借阅量进行异常值检测、判定,并进行初步修正。为能实现更多SPSS分析,使用LN函数再次修正借阅量使其收敛于正态分布或近正态分布。后期实践结果证实了上述预处理的有效性。

本文使用软件SPSS 22.0,进行了相关性分析和卡方分析多种分析以对比各类特征对读者借阅图书的分类效果。

二、聚类分析

读者借阅行为分析有抽样调查和大数据分析两类,已有的读者借阅行为研究表明,少量数据的抽样调查研究结果往往受偶然因素影响,具有更多地不确定性;大量数据的抽样调查和大数据统计分析结果往往更加具有确定性。在研究中还发现,仅对图书大类做借阅统计容易割裂读者借阅行为需求,而读者借阅具往往有复杂性和多样性,聚类分析则能更好地体现读者的借阅需求特征。

以读者借阅历史数据为基础,利用聚类分析的方法对读者群体进行细分,基于不同属性依据进行聚类可以分别获得基于不同角度的读者类型群体。以借阅频次为属性依据进行聚类,可以获得不同活跃度的读者群体;以读者借阅图书类型作为属性依据,聚类结果能够清晰地揭示读者群体的需求结构。

本文创新性地采用了8个降维的萃取因素聚类,既体现了读者需求又体现了活跃度;而且降维萃取因素更侧重读者内在需求,并根据权重选择了最为重要的内在需求因素作为聚类的考虑范畴,优化了读者分类。结果表明,读者借阅借阅图书考量的因素往往超过一个,是多因素综合考量的结果。对于聚类得到的8个读者类簇,计算每个类簇中读者借阅22个大类图书的生均借阅量,做雷达图,结合主要借阅特征做汇总表。

各群读者借阅图书大类生均借阅量雷达图结果显示,图形均不是圆形或近圆形,表示借阅范围相对狭窄,并且8个读者群体在借阅图书的种类和数量上体现了显著差异。文学类图书几乎在所有读者中受欢迎;在文学和出国型读者群体最受欢迎,而在工学型读者群体受欢迎程度最低。这表明了读者群体的图书大类需求不同。

三、读者特征分析

(一)读者的内在特征

1.活跃度

根据读者群体特征结合分群实际应用效果发现,农学型和管理学型的读者生均借阅量一般,与其专业实验实践多特点有关;一方面实验实践相关的教辅材料不归属图书馆馆藏范围,另一方面也意味著高质量的通用全国的实验实践教辅材料匮乏,故大多采用具有地方特色的实验实践教辅材料,因此将其归类为活跃读者群体更适合。因此,活跃度分为活跃和不活跃两类读者群体即可。统计结果表明,活跃读者群体生均借阅量在10-65区间内,读者占比47.98%;而不活跃读者群体的生均借阅量在1-9区间内,读者占比高达52.02%。活跃读者群体在22个大类生均借阅量上均显著高于不活跃群体。

2. 借阅连续性

读者借阅频次有高有低,将每个学期都借阅图书的读者认定为连续借阅读者,其他的则为非连续借阅读者。统计结果显示,5646名连续借阅读者在大学四年共借阅了358228册图书,生均借阅63.4册图书;而9559名非连续借阅读者则借阅了171747册图书,生均借阅18册图书。两者借阅量比接近7:2,体现了借阅量的巨大差异。统计结果还发现,沉默型读者群体中不连续借阅读者高达68.7%,以不连续借阅为主;其余类型读者群体中不连续借阅读者仅介于34.8%-40.8%之间,以连续借阅读者为主。说明活跃读者不仅借阅量高,借阅频次同样高于不活跃读者。

3.借阅目的

从图书题名分析,发现读者需求多种多样。为了考研借阅O类图书,为了考取公务员借阅D类图书,为了出国深造借阅H类图书,提高四六级考试成绩借阅H类图书,为了增强体能训练借阅G类图书,为了外出旅行借阅K类,为了提高素质修养借阅K类人物传记,为了提高植物养护技能借阅Q类,为了身体保健借阅R类等等。

根据聚类特征,结合本馆借阅实际,发现本馆读者借阅量排名靠前的七种借阅需求分别是专业学习(C类、F类、J类、P类、Q类、S类、T类和X类)、休闲娱乐(I类)、毕业去向(D类、N类和O类)、思政教育(A类和B类)、语言文字(H类)、兴趣爱好(E类、G类、R类、U类、V类和Z类)和历史地理(K类)。

读者在图书借阅时综合考量了7种借阅需求,而不仅仅考量一种需求,故各类图书均有借阅。每个类簇中主要需求图书借阅量显著高于其他6个需求借阅量,主要需求借阅比例由高到低依次为专业学习、休闲娱乐、语言文字、毕业去向、兴趣爱好、历史地理和思政教育,比例从71.52%降至46.37%,读者占比依次为40.17%、28.20%、13.64%、7.94%、2.19%、3.75%和4.12%,其中专业学习、休闲娱乐和语言文字3个人数最多的群体占读者群体总数的82%。这说明读者需求的复杂性和多样性。

4.毕业去向优良度

出国、考研、司法考试和考取公务员等毕业去向在读者群体划分上显示了显著的影响效果,因此本文考虑按照毕业去向考量读者群体划分。研究表明,借阅量越高,学习成绩越好。因此,综合考量借阅量和毕业去向优良度,分为三类读者群体,出国、考公、司法考试和考研读者均属于成绩好、学有余力的读者,归纳为优质毕业去向读者群体,占读者总数的19.35%,生均借阅量23.5本,其中I类和H类图书生均借阅量最多;沉默型读者借阅量最低,成绩偏低,归纳为一般毕业去向读者群体,占读者总数的52.02%,生均借阅量仅4.3本;其余读者归纳为良好毕业去向读者群体,占读者总数的28.63%,生均借阅量20.5本。

(二)读者的外在特征

1.专业

我校本科招生专业涵盖经、法、文、理、工、农、管、艺八大学科门类的66个专业和13个方向。生均借阅量均值T检验结果表明部分专业之间差异不明显,如园艺和园艺(观赏园艺)、国际经济与贸易和工商管理、艺术设计(服装艺术设计)和艺术设计(视觉传达艺术设计),因此需要聚类以便更好的区分专业之间的差别。

本文创新性的采用了SPSS的R聚类专业划分方法,计算各个聚类的22个大类图书生均借阅量,做雷达图。生均借阅量结果显示,1类主要是工程技术类专业学生,借阅T类书籍最多;2类主要是工程技术类专业学生,借阅I类图书最多,其次为T类和H类图书;3类是英语专业和日语专业学生,借阅H类图书最多,高达48%以上;4类主要是艺术设计类学生,借阅量从大到小依次为J类、I类和T类图书;5类是数理化类基础专业,大量借阅了O类和I类图书;6类是医学类专业学生,借阅量从大到小依次为I类、R类和H类图书;7类是法学学生,借阅D类书籍最多,超过借阅总量的60%;8类是汉语言文学专业,借阅了巨量I类图书,高达65%;9类是文科类专业,借阅量从大到小依次为I类和F类图书;10类是与动植物相关的专业,借阅量从大到小依次为I类、H类和Q类图书。

总体上,不同专业群体读者的阅读偏好往往比较符合学校的专业设置,借阅专业相关图书及课程辅导资料,体现了不同读者群体间鲜明的差异;还有一定共性,均大量借阅了H3常用外国语和I2中国文学。

和传统的学院分类或者学科分类相比,该聚类不仅体现了显性的专业聚类,还体现了隐性的专业聚类。如6类,我校没有医学院,但生物技术(生物制药)和中药学专业显示了R类借阅量高的特点,其他的类似专业动物医学则显示出2类的特征。8类汉语言文学专业则显示了借阅大类狭窄的显著特点,其他的文科专业则体现了9类的特点。

2.年级

2015-2019届毕业生生均借阅结果显示,随着年级增长借阅量在持续走低,从大一的生均借阅量14.3册下降到大二的13.0册再降到大三的12.0册最后降至大四的7.5册图书。借阅种类各年级有所不同,大一借阅量最多地依次为I类、T类和H类;大二借阅量最多地依次为I类、T类和J类,其中I类小说借阅量显著下降,T类和J类等专业类书籍显著上升;大三和大二基册持平,专业类图书略有上升,大四各大类图书借阅均显著下降。

读者群体结果表明,借阅类型与年级有关,生均借阅总量受到年级影响,大四最少且较前三年级的借阅量有明显的减少。并且,除了艺术学型读者外,其他读者群体随着年级的演变,增加了专业相关图书的借阅比例和优质毕业去向图书的借阅比例,相应地减少了其他各类图书的借阅比例。大部分专业相关图书和毕业去向图书的借阅量体现了低—高—低的总体变化特征;艺术学型读者的J类专业图书借阅量则一路走低,显示了不同的借阅特点。总体上说明不同专业读者群体借阅需求的复杂性和不均一性。

3.入学年份

本文采用入学年份分类统计,使用四年借阅量做生均计算消除了年级的影响,统计结果发现五届学生图书借阅类型基本保持一致,但纸质图书借阅量持续下降,从2011届的生均每学年借阅13.9册下降到2012届的13.5册再下降到2013届的11.7册直至2014届的10.8册最后到2015届的10.3册。2012届与2013届之间的显著下滑,说明2016年末有一次新网络技术的重大突破导致纸质图书借阅量的迅速下滑;也说明借助纸质图书学习的方式正在弱化,其更希望通过手机和互联网等获取电子资源。意味着读者借阅行为还是受到了外部大环境的影响。统计结果还表明后三届入学学生借阅的休闲娱乐类图书比例下降,专业图书比例提升。从现有的结果看,其体现数字媒体和数字资源的迅速扩张的外部大环境变化特征;并且就业压力变大,读者对专业知识的需求增加。

(三)读者特征对比分析

为进一步地了解读者借阅行为特征的分类效果,本文采用了活跃度、毕业去向优良度、专业聚类、借阅目的、借阅连续性、学院、学科门类、年级、性别和入学年份等尽可能多的特征做卡方检验,交叉表特征檢验结果表明,各特征的差异检验SIG值均为0.000,说明均可作为差异变量予以保留。一般来讲,卡方值越大说明其影响力越大,分群效果越好。据此可以认定影响力从大到小的特征依次为毕业去向优良度、活跃度、专业、借阅目的、年级、借阅连续性、性别和入学年份;入学年份的卡方值最小,而df值又偏大,说明其不同分群间的差异最小。

比较各种分类的借阅量差异,发现SPSS显示为显著差异的最小借阅量之差为3465册图书,占借阅总量的0.8%,意味着小于0.8%的借阅量差值不具有显著差异。这也间接证实了外部偶发因素未有显著影响的正确性。

正态分布、聚类分析、卡方分析等均要求笔者能熟练使用SPSS或其他软件,要求甚高,不容易操作;读者外部特征分类效果略差,但易操作、易分析是其最显著的特点。因此,从好学易用角度来说,内在特征分析不宜大范围拓展使用。

四、结论

本文为读者群体研究提供了新的分群特征,即毕业去向优良度、借阅目的和借阅连续性,一种SPSS的R聚类的专业分类方式,一种新的聚类思路即萃取因素聚类。这些新思路既拓宽了读者群体分析的研究思路,又详细探究了读者借阅特征全景分群对比,对图书馆的图书推广和资源建设工作来说具有重要的参考价值。同时当然,本研究还有一定的局限性,希望能更加深刻地理解读者借阅图书的内在需求,力求更加精准地服务好学生,进一步推进以读者为中心、以读者需求为驱动的一体化服务。

参考文献

[1]杨皓珺. 基于数据挖掘的学校图书馆读者借阅行为研究[D].上海交通大学,2016.

[2]孙娜,姬丹丹,吴婉红,郭磊.基于学生行为数据和借阅数据的图书借阅量分析[J].中国教育信息化,2018(11):73-77.

[3]王睿,杨晋苏,彭聚霞.基于流通日志的高校学生图书借阅行为分析与对策研究[J].福建电脑,2018,34(10):12-14+11.

[4]庄小峰,马凌云.近十年高校图书馆读者图书借阅偏好及变化研究——以上海师范大学为例[J].河北科技图苑, 2018,31(04):57-62.

基金项目:本文系浙江省教育厅项目“基于大数据的纸质图书馆读者借阅行为偏好聚类分析”(编号:Y201942152)和浙江省图书馆学会项目“基于大数据分析的读者群借阅画像”(编号:Ztx2020B-10)的研究成果之一。

(浙江农林大学  浙江  杭州  311300)

猜你喜欢
聚类分析
农村居民家庭人均生活消费支出分析
基于省会城市经济发展程度的实证分析
基于聚类分析的互联网广告投放研究
“县级供电企业生产经营统计一套”表辅助决策模式研究