基于聚类的读者行为分析应用研究＊

2017-09-17 16:59印国成殷益蓉

科技与创新 2017年18期

关键词：聚类节点文献

印国成，殷益蓉

（扬州大学广陵学院，江苏扬州225009）

基于聚类的读者行为分析应用研究＊

印国成，殷益蓉

（扬州大学广陵学院，江苏扬州225009）

进入大数据时代，图书馆将面临转型，文献资源和读者阅读方式更加数字化，阅读途径也更加多元化。通过对图书馆的文献数据和图书馆的读者行为数据进行聚类处理，对图书馆数据进行抽取集成、分析和建模，建立读者行为分析系统，实现图书馆的知识发现，从而有效地对读者进行相关文献信息推送，提高图书馆的服务水平，为图书馆的文献采访和图书馆的保障服务模式提供决策参考。

图书馆；聚类；读者行为；知识发现系统

人类的文明发展有赖于科技进步。技术的发展带来巨大的力量，改变了人们的生产方式和生活方式。如今，大数据（big data）作为继云计算、物联网之后信息技术行业的又一大技术革命正开启了一场变革[1]。基于数据的分析，将会成为我们认识和改造世界的另外一把利器，能够使得我们进一步提升生产效率，在互联网＋背景下推动信息技术与其他技术的融合和创新[2]。图书馆作为记录、储存、传播和应用人类文明与数据的机构，在数字化浪潮下，其拥有的数据也在如其他领域的数据一样呈几何级增长[3]：各种不同载体的文献和数字化资源，改变了图书馆馆藏格局；图书馆每天产生的其他各种与读者和文献资源有关联的数据，正逐步形成图书馆的数据。在图书馆服务信息化和文献资源日益丰富的背景下，读者阅读方式也向数字化和多元化发展。传统图书馆面临数字化转型——从内容数字化到内容数据化，从数据化阅读到阅读数据化[4]。

1 网络化和数字化对传统图书馆的影响

1.1 传统图书馆不再是获取信息的有效途径

传统图书馆的报纸、期刊和图书属于实体资源的文献形式[5]，也是图书馆资源建设的重要组成部分。但随着网络化和数字化的发展，时效性强的传统媒体的统治地位逐步被新兴的网络媒体取代，人们获取文献资源的方式和阅读习惯均发生了巨大的变化，他们更愿意使用电子设备终端通过搜索引擎或数据库来获取所需要的信息。传统图书馆文献资源利用的优势越来越不明显，图书馆的利用率也逐年下降。分析近几年我们图书馆每年组织的读者调查活动，结果显示超过80%的受访者使用搜索引擎搜集信息来替代使用图书馆相关数据库查阅纸质资料。而2016年公布的《第十三次国民阅读调查报告》也证实人们阅读电子资源的时间远超纸质图书，报告指出，2015年我国成年人数字化阅读的接触率为64.0%，较2014年的58.1%上升了5.9个百分点[6]。数据表明，近年来我国成人利用移动终端的阅读接触率逐年提高，2013年为41.9%，2014年为51.8%，每年都有大幅的增长。由此可见，在信息快速发展、工作节奏加快的今天，人们更愿意通过电子设备阅读获取信息。

1.2 传统图书馆面临更大的挑战

面对信息技术浪潮的挑战，图书馆有被边缘化的威胁，唯有面对挑战加强数字化建设，才能通过技术手段证明并提升图书馆存在的价值。图书馆面临的挑战有：信息技术的飞速发展、用户的多样性和个性化需求、多元化的文献资源来源、碎片化的阅读时间等。而在可以预见的未来，这些趋势并不会消褪，IT技术还会遵循摩尔定律发展。另外，用户对知识发现的要求越来越高，新兴媒体的出现使信息来源更复杂。当然，新兴媒体在高速发展中也有许多问题，比如文献资源的原创性和严肃性不足，海量数据使得文献资源信息繁杂等。而传统的图书馆文献资源保障能力强，服务体系完备。所以，在数字媒体的冲击下，传统图书馆只有加快数字化建设步伐，才能在文献建设和服务保障中立于不败之地。

1.3 面对挑战图书馆服务模式的改变

图书馆传统的信息服务模式是以纸质资源为主要馆藏内容，重视读者到馆，重视提供纸质文献借阅服务。而在如今大数据和互联网＋环境下，读者的阅读环境数字化、智能化、移动化、泛在化，文献资源海量化。如何让读者选择有价值的信息，如何让图书馆更好地服务读者，传统的服务模式已经不能满足读者对知识的要求和个性化服务的需要。这就需要图书馆根据文献资源和读者的潜在需求，通过数据分析等手段分析读者行为，建立知识发现系统，为读者推送需要的、有价值的文献资料。

2 图书馆建立读者行为分析系统的必要性

上海市图书馆馆长吴建中在图书馆界发展论坛的演讲中提到，知识是流动的。如何让知识流动起来，取决于知识的开放性、关联度、流畅度和传播力[7]。要使知识流动，对数据的分析显得尤为重要。通过基于读者行为的知识发现系统建设，让知识流动起来。如今，面向大数据的自然语言处理等方面的基础性技术已经基本成熟，并得到了大规模的应用，典型的包括Google、Autonomy、Smarts、Systran等。在图书馆领域，国内众多图书馆在发现知识系统方面主要依赖于搜索引擎或图书馆专业服务商，比如国外的Summon2、EDS，国内的超星发现系统和万方数据知识服务平台等，它们的共同特点是收集市场上数据库的元数据，利用元数据进行检索[8]，但在个性化服务方面，仍有待进一步提高和挖掘。大多数图书馆没有重视本馆产生的大量可能被忽视的数据，以及结合读者借阅、查询、阅读等行为的数据。而这些数据对开展个性化知识发现服务至关重要。在图书馆海量数据中寻找内在的关系，通过分析读者的行为，建立图书馆的知识发现系统，不仅可以为读者搜索到资源，还可以对各类文献资源数据进行处理和分析，使用分析系统揭示各类文献之间的复杂关系，可以帮助读者挖掘数据背后的信息，发现读者潜在的知识需求[9]，为其提供更加精准的知识发现服务，进而提高图书馆的服务水平。

3 数据的处理

3.1 图书馆数据的抽取和集成

图书馆知识发现系统的数据除了涵盖读者的个人借阅、查询数据外，还将个人数据关联至各学科、各类文献及网络学术资源数据。通过大数据技术进行知识整合、知识发现和知识推送，为用户和图书馆提供知识发现服务，实现知识价值的再造。

在图书馆数据中，根据文献资源和读者行为建立数据库，并对数据进行抽取和集成。数据的抽取就是搜索整个数据库，其数据源分关系型和非关系型数据库[10]。而图书馆的大数据要面临海量结构化和非结构化的业务数据，其处理方法如下：对于相同数据源的数据，DBMS（数据库管理系统）会提供数据库链接功能，通过数据服务器建立链接直接写Select语句访问；对于不同数据源的数据，也可以通过数据库链接，比如SQL和Oracle，如果不能链接，则可以用程序接口来完成或将数据源导成统一的格式（比如.txt）来完成；对于非结构化的数据，比如声音、图片等，往往需要作为一个整体来处理。在采用抽取算法找到数据对象后，需通过元数据，比如数据抽取模型、抽取规则、映射参数等，用映射规则描述数据类型与相应字段的对应关系，然后组装到知识发现系统数据库。由于目前图书馆管理系统均采用基于Web的系统，其数据抽取可以通过Web来获取，可以采用基于本体和基于XML的方法来抽取信息，并通过PageRank算法来进行广域Web搜索。抽取的数据使用Hadoop技术进行清洗，将不符合要求的数据转化成规范的数据，通过数据集成向用户提供统一的全局数据模式。

3.2 数据的分析和建模

数据模型是对信息系统中客观事物的数据描述，目前海量数据的处理已有大量的技术支撑，比如大数据分析工具SAS（Statistical Analysis System）、Google Dremel等。数据模型的数据库分为关系型数据库和非关系型数据库，读者行为数据分析挖掘的主要类型有对象数据库系统、内存数据库、分布式数据库和并行数据库。数据建模的方法主要有Richard Barker表示法、IDEF1X表示法和UML表示法。数据建模技术可以用Sybase PowerDesigner来实现，可以系统、方便地对系统进行设计分析，通过该软件可以制作数据流程图、概念数据模型、物理数据模型等。

4 图书馆基于聚类的读者行为分析系统

图书馆的知识发现取决于对图书馆读者行为的分析，寻找内在的关联。图书馆可以根据读者行为分析产生个性化的定制。结合读者对图书或者文献信息的查阅浏览、读者获得资料的痕迹、读者的借阅记录、读者对图书文献的评价、读者对文献的喜好等，再通过对读者行为的挖掘和分析，可以提高图书馆服务的精度和读者的满意度。

本文主要通过计算基于读者行为的集合S对读者u的影响概率，即对单个读者u的阅览行为作出预测，为知识发现的推送提供条件。一般阈值模型中的阈值θu是用户u受到影响的阈值。当Pu（S）≥θu时，可以预测用户u的行为。集合S是根据读者所在学校图书馆借阅系统中的相关偏好样本数据，通过相关数据加工提炼得到。

对于读者行为分析，可以通过基于集合S的样本数据原型聚类，簇是对象的集合。聚类算法对具有数值属性的数据很有效，但该算法对各个属性聚类结果的贡献均匀，没有考虑不同属性特征对聚类结果可能造成的影响。聚类算法需要节点之间的相似度组成的矩阵T，在用T（i，j）表示节点j作为i的聚类中心的合适程度。节点j与节点i的相似度表示为：

节点k为实值T（k，k），即相似矩阵T对角线上第k行的元素。T（k，k）值越大，说明第k点作为聚类中心的可能性越大。

执行聚类算法，引入吸引度R和归属度A.吸引度是从节点i传递到聚类中心节点k的信息，其值记为r（i，k）。归属度是从候选聚类中心节点k传递到节点i的信息，节点i对节点k的归属度，其值记为a（i，k）。其算法流程如下：初始化，将所有a（i，k）全部赋值为零，输入相似矩阵s，其中，s（i，k）是节点i与节点k之间的相似值。用H来评价相异程度，且考虑每个特征的差别。

通过对每一项取绝对值来定义聚类的区别。

建立Jaccard相似度模型，用来比较读者u与集合S样本的相似性。

因此，采用Jaccard系数可以评价可能的知识推送和读者行为之间的相似度。Jaccard系数取决于其离散时间的模型，其取值范围为[0，1]，在实际应用中，我们也取一定的值作为相似度的阈值。大于阈值的，表示相似度高，可以推送类似读者的信息给该读者，比如喜欢的图书和文献；低于阈值的，再进行比对，然后进行Jaccard系数评价，直到找到高于阈值的模型，并对该读者进行知识推送。知识发现的本质是资源发现，通过Jaccard系数评价，能准确发现读者行为和读者需求的关系，从而有效提供满足读者个性化需求的服务。

5 结语与展望

在互联网＋和大数据时代，可以通过本文提出的基于大数据面向服务的读者行为分析，实现资源的有效运用和知识发现，在馆藏资源有限的情况之下，不仅能有效提高图书馆的服务水平和层次，也能有效提高读者对图书馆的满意度，还有助于图书馆的转型升级。通过建立知识发现系统，能有效研判读者对文献或图书的阅读趋势，为图书馆的读者服务策略、文献资源的采访和图书馆的保障模式提供决策参考。图书馆的知识发现系统将极大地提高读者获取所需文献资料的效率。

［1］马娜梅.大数据背景下图书馆知识咨询服务策略［J］.图书馆研究，2014（7）：90-93.

［2］咸由根，蔡承秉.掘金大数据［M］.北京：北京时代华文书局，2013.

［3］曹霞.高校图书馆非结构化大数据的D-SFSD管理模式研究［J］.图书馆学研究，2014（1）：57-60.

［4］姜山，王刚.大数据对图书馆的启示［J］.图书馆工作与研究，2013（4）：52-54.

［5］袁宝龙.从信息、文献、文明视角看网络化时代传统图书馆的存在价值［J］.新世纪图书馆，2014（7）：9-12.

［6］中国新闻出版研究院.第十三次国民阅读调查报告［ED/OL］.［2016-04-19］.http：//news.xinhuanet.com/ politics/2016-04/19/c_128907616.htm.

［7］吴建中.知识是流动的：出版界与图书馆界的新课题［J］.图书馆杂志，2015（3）：4-6.

［8］和婷.大数据思维对图书馆信息服务工作的启示［J］.图书馆建设，2014（1）：64-66.

［9］张松岩，崔鹏.图书馆知识发现系统建设与应用研究［J］.图书馆工作与研究，2014（2）：55-56.

［10］王秀芬，周玉松.基于互联网＋的高校固定资产管理研究［J］.科技与创新，2017（04）：53-54.

TP391.9；G250

10.15913/j.cnki.kjycx.2017.18.128

2095－6835（2017）18－0128－03

印国成，高级工程师，硕士。殷益蓉，讲师，硕士。

〔编辑：刘晓芳〕

江苏省高校自然科学基金项目“基于大数据的图书馆知识发现应用研究”（14KJB520041）研究成果之一