基于数据挖掘的高校图书馆图书借阅流量预测

2020-06-29 07:17陈桂菊

微型电脑应用 2020年6期

陈桂菊

摘要：高校图书馆图书借阅流量受到多种因素的综合作用，具有十分强烈的随机性，而当前高校图书馆图书借阅流量预测方法无法准确描述随机性变化特点，使得高校图书馆图书借阅流量预测误差大，结果可信度低。为了提高高校图书馆图书借阅流量预测精度，提出了基于数据挖掘的高校图书馆图书借阅流量预测方法。首先对高校圖书馆图书借阅流量的国内外研究时展进行分析，找到引起高校图书馆图书借阅流量预测误差大的原因，然后采用混沌理论对高校图书馆图书借阅流量历史数据进行分析，并采用数据挖掘技术对高校图书馆图书借阅流量变化特性进行拟合，建立高校图书馆图书借阅流量预测模型，最后采用实例对高校图书馆图书借阅流量预测效果进行了测试。结果表明，高校图书馆图书借阅流量预测精度超过95%，远远高于高校图书馆管理要求的85%，而且高校图书馆图书借阅流量建模效率得到了大幅度改善。

关键词：高校图书馆; 借阅流量数据; 组合优化技术; 数据挖掘; 混沌理论

中图分类号： TP 391

文献标志码： A

Abstract： The book lending flow of a university library is affected by many factors， and it has a very strong stochastic characteristic. However， the current prediction method of book lending flow of university library cannot accurately describe the stochastic characteristic， which makes the prediction error of book lending flow of university library large and the result credibility low. In order to improve the prediction of book lending flow of university library precision， this paper puts forward a prediction method based on data mining. Firstly， this paper analyzes the research progress at home and abroad on the book lending flow of university library， finds out the reasons that cause the large error in the prediction of the book lending flow of university library， then uses chaos theory to analyze the historical data of the book lending flow， uses data mining technology to fit the changing characteristics of the book lending flow， and establishes the book lending flow of university library. The prediction model of librarys book lending flow is established. Finally， the prediction effect of librarys book lending flow is tested by an example. The results show that the prediction accuracy of the method is more than 95%， which is much higher than 85% of the requirements of university library management. Moreover， the modeling efficiency of library lending flow in university library has been greatly improved.

Key words： university library; borrowing flow data; combinatorial optimization technology; data mining; chaos theory

0 引言

随着高校不断的发展，高校的各项指标都得到了大幅度提升，图书馆的藏书数量也来越大，给图书馆管理带来一定的挑战[1-3]。图书馆借流量可以描述大学生使用图书馆藏书频率，这样可以帮助图书馆管理人员采购书籍提供帮助，国此如何提高高校图书馆图书借阅流量预测精度具有十分重要意义[4-6]。

高校图书馆图书借阅流量受到学生学习习惯、学习时间、爱好以及其它因素的影响，是一种具有随机性变化比较强的时间序列数据，而且具有一定的混沌性[7]。当前高校图书馆图书借阅流量预测研究可以划分为两个阶段：第一个阶段为线性建模方法，主要有：差分自回归移动平均方法、多元线性回归方法等，它们认为高校图书馆图书借阅流量是一种固定增长或者下降的变化态势，然后对高校图书馆图书借阅流量预测模型的参数进行估计，从而实现高校图书馆图书借阅流量预测，由于高校图书馆图书借阅流量不只是一种变化态势，尤其对于现代高校图书馆，其预测误差比较大[8-9];第二个阶段为非线性建模方法，主要有：模糊算法、神经网络、支持向量机等高校图书馆图书借阅流量预测方法，它们从非线性角度出发，对高校图书馆图书借阅流量变化态势进行跟踪，高校图书馆图书借阅流量预测精度要高于线性建模方法。在实际应用中，高校图书馆图书借阅流量复杂多变，单一的模型无法对其变化特性进行全面描述，因此高校图书馆图书借阅流量预测效果有待进一步改善[10-11]。

针对当前高校图书馆图书借阅流量预测误差大，可信度低缺陷，提出了基于数据挖掘的高校图书馆图书借阅流量预测方法，并通过具体高校图书馆图书借阅流量预测实例分析了本文方法的优越性。

1 数据挖掘技术

1.1 极限学习机算法

2 基于数据挖掘的高校图书馆图书借阅流量预测方法的具体设计

2.1 高校图书馆图书借阅流量数据的预处理

高校图书馆图书借阅流量历史数据{x（t），t=1，2，…，n}是一个一维数据，因此无法直接进行建模，需要将其变一个多维数据，结合高校图书馆图书借阅流量的随机和混沌性变化特性，因此本文采用混沌理论的相空间重算法将原始高校图书馆图书借阅流量历史数据变为一个多维数据，如式（12）。

对式（12）进行分析可以发现，重构后的高校图书馆图书借阅流量数据与原始高校图书馆图书借阅流量数据具有同样的变化轨迹，但是重构后的高校图书馆图书借阅流量数据更加有利于建模和预测。

2.2 高校图书馆图书借阅流量预测方法的工作步骤

（1）通过高校图书馆管理系统统计高校图书馆图书借阅流量的历史数据，对于缺失的数据通过一定的规则进行补。

（2）采用混沌分析算法对高校图书馆图书借阅流量的延迟时间和嵌入维数进行确定。

（3）根据延迟时间和嵌入维数对高校图书馆图书借阅流量历史数据进行重构，从而到一个多维的高校图书馆图书借阅流量历史数据。

（4）根据一定的比例将高校图书馆图书借阅流量历史数据划分为两部分：训练样本集和测试样本集，训练样本集用于训练极限学习机或者最小二乘支持向量机，找到它们的最优参数，从而建立相应的高校图书馆图书借阅流量预测模型。测试样本主要对高校图书馆图书借阅流量预测模型的可行性进行分析。

（5）对极限学习机的相关参数进行初始化，极限学习机对高校图书馆图书借阅流量的训练样本集进行学习，建立基于极限学习机的高校图书馆图书借阅流量预测模型，并对高校图书馆图书借阅流量的测试集进行预测，并输出相应的预测结果。

（6）对最小二乘支持向量的相关参数进行初始化，最小二乘支持向量对高校图书馆图书借阅流量的训练样本集进行学习，建立基于最小二乘支持向量的高校图书馆图书借阅流量预测模型，并对高校图书馆图书借阅流量的测试集进行预测，并输出相应的预测结果。

（7）确定极限学习机和最小二乘支持向量的权值，并对它们的高校图书馆图书借阅流量预测结果进行组合，从而得到最终的高校图书馆图书借阅流量预测结果。

综合上述可知，基于数据挖掘的高校图书馆图书借阅流量预预测流程，如图1所示。

3 仿真实验

3.1 数据来源

为了测试基于数据挖掘技术的高校图书馆图书借阅流量预测效果，采用一个高校图书馆图书借阅流量历史数据作为应用实例，共得到300个数据，如图2所示。

从图2可以发现，该高校图书馆图书借阅流量历史数据的变化比较复杂，为了使数据挖掘技术的高校图书馆图书借阅流量预测结果更具说服力，选择单一的极限学习机高校图书馆借阅预测模型和最小二乘支持向量机的高校图书馆借阅预测模型进行对照实验。

3.2 确定延迟时间和嵌入维数

采用混沌分析算法對图2的高校图书馆图书借阅流量数据进行处理，得到最优延迟时间为：6，最优嵌入维数为7，如图3所示。

这样根据此结果得到一个多维的高校图书馆图书借阅流量数据。

3.3 高校图书馆图书借阅流量预测准确性分析

统计3种高校图书馆图书借阅流量预测值和实际值之间的偏差，结果如图4所示。

对图4进行分析可以得到如下结论。

（1）极限学习机和支持向量机的高校图书馆图书借阅流量预测偏差比较大，而且变动的范围也很大，出现了许多不稳定的高校图书馆图书借阅流量预测点，这是因为高校图书馆图书借阅流量变化复杂，单一模型只能对一个变化特点进行建模，无法全面描述高校图书馆图书借阅流量变化特点。

（2）本文模型的高校图书馆图书借阅流量预测偏差小，而且变化相当平稳，没有太大的起伏，这表明本文模型的高校图书馆图书借阅流量预测结果比较稳定，而且高校图书馆图书借阅流量预测精度更高，这是因为本文方法从两个方向对高校图书馆图书借阅流量变化特性进行拟合，能够降低高校图书馆图书借阅流量预测误差，克服了单一模型的局限性。

3.4 高校图书馆图书借阅流量预测的建模效率分析

由于高校的学生数量不断增加，使得高校图书馆图书借阅频率不断上升，这样校图书馆图书借阅流量建模效率直接影响校图书馆管理效率，采用高校图书馆图书借阅流量预测的建模时间分析建模效率，为了体现实验结果的公平性，每一种方法均进行5次仿真实验，高校图书馆图书借阅流量预测的建模时间，如表1所示。

从表1可以知道，最小二乘支持向量机的高校图书馆图书借阅流量预测建模时间最长，其次为极限学习机，最短为本文方法，这是因为本文首先采用混沌分析算法对高校图书馆图书借阅流量数据进行处理了，有利于后续的高校图书馆图书借阅流量建模训练，而对比方法均没有采用混沌分析算法对数据进行处理，而是直接进行建模和预测，因此本文方法改善了高校图书馆图书借阅流量建模效率。

5 总结

高校图书馆图书借阅流量受到多种因素的综合作用，具有十分强烈的随机性变化特性，而当前高校图书馆图书借阅流量预测方法无法准确描述随机性变化特点，使得高校图书馆图书借阅流量预测误差大，结果可信度低，为了提高高校图书馆图书借阅流量预测精度，提出了基于数据挖掘的高校图书馆图书借阅流量预测方法。首先采用混沌理论对高校图书馆图书借阅流量历史数据进行分析，然后采用极限学习机和最二乘支持向量机分别对高校图书馆图书借阅流量进行建模和预测，最后对极限学习机和最二乘支持向量机的高校图书馆图书借阅流量预测结果进行组合，测试结果表明，本文方法的高校图书馆图书借阅流量预测精度高，建模效率得到了大幅度改善，具有十分广泛的应用前景。

参考文献

[1] 雷崇鸽.网络新媒体环境下高校图书馆提高图书借阅量的策略分析——以西安电子科技大学图书馆为例[J].教育现代化，2019，6（23）：193-194.

[2] 宋楚平.一种改进的协同过滤方法在高校图书馆图书推荐中的应用[J].图书情报工作，2016，60（24）：86-91.

[3] 山洁，陈淑英，李新民.基于网络和节点属性模型的大学生阅读倾向分析[J].情报探索，2016（12）：57-61.

[4] 牛秀.基于多参数指数平滑的图书借阅量预测[J].科技情报开发与经济，2011，21（28）：50-51.

[5] 于曦.基于Unicorn和SPSS的图书借阅量周期性分析及预测[J].山东图书馆学刊，2011（1）：52-56.

[6] 陈明.一元线性回归模型预测图书借阅量[J].大学教育，2016，21（5）：111-112.

[7] 严慧英，朱辉. 阅读推广对高校图书馆借阅量影响的实证分析[J]. 图书馆研究与工作， 2016， 7（2）：40-44.

[8] 汪玉杰，刘智立. 基于BP神经网络对图书借阅量的预测研究[J].科技创新与应用， 2013， 36（5）：25-26.

[9] 邹梅.利用神经网络技术预测图书借阅量[J].兰台世界，2013（20）：135-136.

[10] 张囡，张永梅.基于灰色神经网络的图书馆图书借阅量预测[J].情报探索， 2013，12（3）：133-135.

[11] 刘素兵，刘海明，苗佳晶，等.图书借阅量的灰色回归组合模型研究[J].云南民族大学学报（自然科学版），2010，19（3）：170-172.

（收稿日期： 2019.08.27）