浅析决策树算法对构建高校图书馆服务模型的研究

2015-05-30 21:16祝婷婷
2015年50期
关键词:高校图书馆数据挖掘

祝婷婷

摘要:以高校图书馆——长春工程学院图书馆为例,选择决策树C4.5算法构造模型,通过数据挖掘算法,得出制约图书馆数字资源使用因素间的一些潜在性联系,从而进一步分析高校图书馆用户的实际使用需求,为图书馆今后发展、决策提供意见及指导。

关键词:数据挖掘;高校图书馆;决策树算法

随着图书馆事业的不断发展,高校图书馆的职能也随之发生了变化。如何更有效、合理的对高校图书馆用户需求进行分析,从而有针对性的为读者提供相对应服务,已经成为图书馆今后发展中所面临的具体任务。

目前,虽然各高校图书馆都在为了更好地满足用户对信息的需求,积极推广数字资源的开发利用,但由于缺乏对它的科学认识与管理,造成大量数字资源闲置、重复,使有限经费白白浪费。用户对图书馆服务的需求正逐渐由传统的图书借阅扩展为信息检索、文献下载等数字资源服务。应用数据挖掘技术可以通过收集到的一些看似无关联的,离散的调查问卷等数据,转化为可供使用的参考信息,提供给图书馆决策者,这将使一些制约用户使用图书馆数字资源的因素得到有效的处理。根据此需求选择数据挖掘中的决策树C45算法建立决策树,挖掘出制约用户对数字资源使用的一些主要因素间潜在的规则性知识,对高校图书馆用户需求进行有效分析,使用户更有效地利用图书馆的数字资源服务,为图书馆提高服务层次提供决策指导。

一、决策树分类算法

决策树方法是一种通过构造决策树来发现训练集中分类知识的数据挖掘方法,该方法用类似于流程图的树结构对数据记录进行分类,根节点对应的数据集是训练集,每个内部节点表示在某个属性上的测试,每个分枝代表一个测试输出,而每个叶节点代表类或类的分布[1]。

决策树算法分为树的生长算法和剪枝算法两部分。其中,ID3 和 C45 作为决策树生长的基本算法(贪心算法),都使用信息论度量为树中每一个非树叶节点选择测试属性。C45 对 ID3 算法预测变量的缺失值处理、剪枝技术、派生规则等方面进行了补充和改进,能够将决策树转为等价的规则,是一种比较流行的算法。[2]本文主要应用C45 算法构造决策树。

二、决策树构造实例

为有效说明问题,通过长春工程学院学生对图书馆数字资源使用情况的调查问卷中选取了少量样本数据,这样构造出的决策树比较简单直观。

决策树的每个内部节点(非叶)表示一个属性上的测试,每个叶节点表示一个类别,本实例的类别为自身因素(用户是经常使用数字资源):是(1)和否(0)两类。我们采用自顶向下递归算法来构造决策树。可将表中的数据元组训练集分为2类,即自身因素{是,否},所以有2个不同的类(m=2)。设类C1对应于是,有12个样本,类C2对应于否,有6个样本,据(1),可以得出该样本的期望信息:

I(r1,r2)=I(12,6)=-(12/18)* log2(12/18)-(6/18)* log2(6/18)=0918

然后计算每一个决策属性的期望信息量(即熵值)。

对属性“宣传因素”,当宣传因素=高

I(s11,s21)= -(2/3)* log2(2/3)-(1/3)* log2(1/3)=0918

当宣传因素=良

I(s12,s22)= -(7/8)* log2(7/8)-(1/8)* log2(1/8)=0544

当宣传因素=中

I(s13,s23)= -(3/7)* log2(3/7)-(4/7)* log2(4/7)=0985

由此得出“宣传因素”的熵值

E(宣传因素)=3/18*I(s11,s21)+8/18*I(s12,s22)+7/18*I(s13,s23)=0778

因此属性“宣传因素”的信息增益为

G(宣传因素)=I(r1,r2)-E(宣传因素)=0140

同理,可得出表中其他各属性的期望信息和信息增益值。

由于属性“宣传因素”具有最大信息增益,故而选择该属性作为决策树的根节点。

对于每一个分枝, 依据分枝顺序,重复上述步骤,只画出关于第一层次单位和最差情况的决策树,生成的决策树如图1所示。

三、结果分析与应用

(一)模型结果分析

由模型结果可以看出,最大的障碍是图书馆对如何使用数字资源的宣传力度不够,使用户不了解其使用方法,甚至可能是不会利用数字资源来获取信息,其次是资源本身的更新情况和图书馆的设备情况制约了其对资源的使用。要提高图书馆数字资源的利用率,就要提高高校图书馆对数字资源的宣传和培训,使更多用户知道,熟悉其使用,其次,则需侧重加强资源本身的优化,确保数据库收录内容是否全面、准确、权威、时效性强,是否符合本馆需求与图书馆设备的更新。

以往的调查问卷因为缺乏科学分析工具,无法及时对用户的需求情况进行合理的统计分析,也就无法发现庞杂的数据中存在的关系和规则,图书馆管理者更多的依靠经难和习惯来进行工作。而利用决策树C45算法,针对长春工程学院图书馆调查问卷的数据,有目的分类构造模型后,统计结果比以往手工统计调查问卷效率提高了数倍,结果分析的准确性也大大增强,并且在直观可视的决策树模型结果分析中,图书馆管理者可以轻易找出影响用户需求的关键因素以及其中潜在依赖关系,为今后的服务决策提供了科学的依据。

(二)模型在图书馆服务工作中的应用

采用决策树C45算法,对长春工程学院图书馆数字资源使用情况的调查问卷进行分类,生成决策树模型,更直观地显示了影响读者使用数字资源的相关因素,结合模型的分析结果,为图书馆在今后宣传推广、数字资源建设、设备更新等一系列服务中提供了工作方向。

1、图书馆以往的服务推广策略缺乏技术支持手段,大多数是凭经验制定的。在进行宣传的时候没有任何针对性,这就大大影响了宣传的推广效果。通过运用决策树模型对用户调查问卷进行分析后,得出读者对馆藏电子资源的了解程度是影响数字资源利用率高低的最直接因素。依据此分析结果,长春工程学院图书馆在日常的服务中加大了对数字资源的宣传力度,开展了对刚入校的新生进行“如何利用图书馆资源”的教育讲座;增加学生读者利用电子文献资源培训讲座的次数;图书馆工作人员还到各院系为广大教师传授网络数据库、电子图书等数字资源的检索技巧;推广文献检索课程在各教学院系课程设置中的普选率;提高学生文献检索的信息素养;重视参考馆员的信息导航作用。通过一系列的宣传活动,大大增强了用户对图书馆数字资源的了解,使图书馆的数字资源利用率得到的显著的提高。

2、根据决策树模型结果分析出的另一因素——数字资源建设,长春工程学院图书馆也做了相应的改善工作。在资源建设中,加快了资源的更新速度,加大了采购数量,同时有计划地在资源采购中向重点学科倾斜。在纸质文献资源和电子资源的采购中,加强了对电气工程、土木工程、机械工程等我校重点学科的资源采购,保证了我校重点学科电子资源的前沿性与时效性,另外还加大了特种资源中科技报告、专利、标准文献等数据库资源,以及能囊括和迅速揭示学科发展新动向的二次文献数据库的采购,使资源的覆盖面更全,更广。通过一系列的改进措施,广大师生在图书馆的文献利用率大幅提升,由原来的846%提高到现在的965%。

3、在长春工程学院新落成的图书馆中,加大了对硬件设备与有线、无线网络的投入,使馆内硬件设备更加高效,无线网络设施覆盖更广,在宽敞明亮的环境中,越来越多的师生走进图书馆,使图书馆资源得到了最大程度的利用。仅以长春工程学院教工读者的增长量为例,新建成的图书馆与老馆的同期教工读者量增长了74%。这一数据也证明了馆内硬件设备与网络设施的完善与更新,自动化建设步伐的加快,可以进一步提高图书馆服务的整体层次,吸引更多的读者走进图书馆,利用图书馆。

四、结论

通过数据挖掘中决策树C45算法构建的模型,得出部分影响其图书馆资源使用因素间的一些潜在性联系,这种通过决策树算法中得出的挖掘信息,可以使图书馆决策者更加清晰的了解用户在利用图书馆信息资源中的各种需求,为图书馆服务工作提供了科学的指导,使服务工作的开展更有针对性、目的性、方向性,为后续服务的改进提供了充足、可靠的数据,最大限度地发挥了图书馆资源的利用率,为图书馆事业的发展起到了科学分析预测、决策的作用。当然,由于本次模型中样本数量和项目还不够多,分析程度和分类知识的获取还不够理想,可信度也还相对不够,只能称作一个简单的粗层次的分类分析模型。但在对样本数据的挖掘中,该算法提供了一个进行合理挖掘的模式,得出了一些具有参考价值的分析结论,可以说为该领域有效应用数据挖掘技术进行研究提供了一个方向。(作者单位:长春工程学院图书馆)

参考文献:

[1]中国人民大学统计学系数据挖掘中心.数据挖掘中的决策树技术及其应用.统计与信息论坛,2002(3):4~10

[2]朱绍文等.决策树采掘技术及发展趋势.计算机工程,2000(10):1~3

[3]马秀红,宋建社,董晟飞.数据挖掘中决策树的探讨.计算机工程与应用,2004,40(1).

[4][德].巴斯蒂安.数据仓库与数据挖掘.武森,高学东,译.北京:冶金工业出版社,2003.

[5]王德岳.面向就业分析的数据仓库及其数据挖掘的研究.沈阳:东北大学,2000.

猜你喜欢
高校图书馆数据挖掘
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究