数据挖掘在院校信息资源管理中的应用

2016-04-14 13:46苏磊
电脑知识与技术 2016年5期
关键词:信息资源管理数据挖掘检索

苏磊

摘要:该文在描述数据挖掘技术的基础上, 深入探讨了数据挖掘在信息资源管理中的作用。

关键词:数据挖掘;信息资源

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)05-0224-02

为了适应教育信息化以及现代化教育工作的需要,各院校都早已建成了性能优良的千兆校园网,而且,随着教学信息网的不断完善,教学信息资源的建设和管理应用已成为当前和今后一个时期教育信息化工作的主要任务。信息资源由信息、人、载体、检索四种要素构成,信息是信息资源的源泉,人是信息资源的生产者和使用者,载体是储存利用信息资源的物质工具,检索则是人们快速查找和共享信息资源的手段。教学信息资源应是经过精心组织的、大量搜集和购置与教学研究密切相关的、学科门类齐全的、资源覆盖面广、资源大小适中、易于组合再使用的多媒体信息资源。

目前,随着信息技术、数据库的迅猛发展,使得信息资源数据量呈指数趋势增长,但由于缺乏对分析、决策、预测等功能的支持机制,学习者在选择使用资源时很难去除冗余数据,从海量数据中提取有效、优质的信息,从而导致部分有效的信息得不到发掘利用,出现“数据爆炸、知识贫乏”的现象,因而在高速发展的现代社会,远远不能满足培养专业人才的需要。面对这一挑战,数据挖掘技术应运而生,在信息资源管理中彰显着越来越强大的生命力。

1 数据挖掘概述

现如今,数据挖掘技术已经广泛应用在各个行业之中,它逐渐成为了国际上的研究热点,数据挖掘技术的应用将其自身具备的优越性和发展潜力展现得淋漓尽致。在当前信息技术如此发达的情况下,将人工智能技术有效与数据挖掘技术融合在一起,能够便捷的获取许多所需要的知识,可以说,数据挖掘技术在一定程度上促进了知识检索和知识的管理发展。

所谓的数据挖掘,实际上是从数据中提取内在的信息,它可以通过任何载体来实现这一步骤,例如:关系数据库、面向对象数据库、多媒体数据库、数据仓库、时间数据库、事务数据库、Web数据库以及空间数据库等,像此种从大型数据库中提出知识的技术就被称作:数据挖掘技术。它不仅能够将隐藏的知识提取出来,还能够自动预测信息,发现未知的线索。数据挖掘技术使得人们能够轻易的在大量数据中检索自己所需要的知识,检索起来非常的方便、容易,并不需要检索人员对数据挖掘技术有过多的了解,实际上,数据挖掘与提取知识之间存在一定的相同点和不同点。广义上的数据挖掘是一种从开始检索到发现知识的一系列过程,一般情况下,人们认为:数据挖掘是一种特定的模式,它能够在大型的数据库中抽取模式,然后通过相应的模式转换将其变成人们能够理解的知识。所谓的提取知识也就是今天常说的信息检索,二者之间存在一定的不同之处:数据挖掘是随机的,所挖掘的结果是不能预测的,而提取知识则是通过输入关键词进行检索,其提取结果是在关键词的基础之上有所延伸的,其结果是能够预测的,提取知识的目的是满足自身所需要的知识,在数据中查询请求的文档,数据挖掘则是将文档中内在的知识揭示出来,从二者的根本目的上看,之间的联系是相辅相成的,可以有效通过数据挖掘技术将提取知识的效率提高,改善提取结果的精密度,进而促进信息检索系统的发展,使其上升一个新的高度。

实际上,数据的表现形式是多种多样的,用户可以通过自身的研究的对象对数据的结构进行重新的划分,一般情况下,都会将其结构形式分为:数据挖掘、文本数据挖掘以及Web数据挖掘。

所谓的数据挖掘,是指对结构化的数据进行挖掘、检索,比如:SQL、Server等数据库。

所谓文本数据挖掘,主要是对文本的信息进行深度挖掘,当要进行挖掘的对象与文本信息符合时,就需要对通过文本数据挖掘特有的算法在大量的数据中将信息自动挖掘、分类、提取,这一系列完成的过程被称作:文本数据挖掘。它能够将文本的特征、概念操作以及摘要等工作全部提取出来,实际上,文本数据挖掘是通过特定的技术和算法完成工作的,主要是将文本聚类算法、贝叶斯分类算法、词集合算法以及词串表示法等这些算法统一在一起进行工作的。

所谓Web挖掘,对Web上的页面内容以及结构等进行检索,所检索的对象可以是传统的数据库,也可以是数据仓库,Web数据,能够使用户在网页上通过特定的技术和方法将所需要的知识提取出来,不仅如此,还为开展电子商务和改进服务提供了保障。通常情况下Web数据挖掘分为Web内容挖掘、Web访问信息挖掘与Web结构挖掘这三方面。

数据挖掘技术一般通过4个步骤来完成,并且每一步的可行度都要非常高,才能确保一个数据挖掘系统的稳定运转。

第一步是数据预处理阶段,是数据挖掘系统中的“基石”,因为数据挖掘对数据的质量要求极高。数据质量涉及了准确性、完整性、一致性、时效性、可信性和可解释性,而其中最主要的3个要素则是准确性、完整性和一致性。数据在现实世界中极易受到噪声的感染,从而产生一些例如不完整值和异类值的脏数据,因为数据库过于庞大,并且大多来自多个性质不同的数据源。低质量的数据将会导致挖掘系统性能下降并且挖掘结果不准确。数据预处理工作包含个方面:

1)数据源清理。数据源清理的主要工作是,对不完整值进行填充,去噪声数据进行重塑,对异类值进行删除,并解决性质不统一的问题。此外,脏数据极有可能造成数据挖掘系统的崩淸和挖掘结果的不准确。

2)数据集成。即合并来自多个数据源的数据,数据语义的多样性和结构对数据集成提出了巨大的挑战,所以集成的过程必须分外小心,因为小心集成有助于减少结果数据集的冗余和不一致,有助于提高挖掘系统接下来各种操作的性能。

3)数据变换。所谓数据变化,主要是将数据转换成了人们能够检索出来的数据挖掘的形式,其中涉及了数据聚集、数据平滑以及数据规范化等,需要注意的是,数据的规范化,它能够对数据挖掘的结构带来影响,

4)数据归约。因为在海量数据上进行复杂的数据分析和挖掘,将需要耗费大量的人力物力,所以使得我们必须在数据预处理阶段对数据进行规约。并且我们在对数据进行规约之后,仍然能够保持其完整性,也就是说,在规约过后的数据集上进行挖掘会大大提高效率,并且不会影响到挖掘结果。

第二步是数据挖掘阶段,将要进行挖掘的数据源和现实工作中的业务逻辑放到一起宏观把握,再利用合适的挖掘模型对数据进行深度剖析,所涉及的数据挖掘算法主要有:关联规则算法、聚类分析算法、决策树方法、人工神经网络算法、贝叶斯模型分析算法等,最终得到一些有用的知识和模式。

第三步是数据分析阶段,是对数据挖掘的结果给正确的、合理的阐述,从而能辅助管理者做出正确的决策。而这则需要开发人员对整个系统非常熟悉,对现实中的整个工作流程了如指掌,只有这样才能对挖掘结果做出科学的分析。

第四步是结果展示阶段,对所挖掘出的知识或者模式进行理论化和可视化的处理,力求给出一个简洁、生动并且通俗易懂的展示模式。

2 数据挖掘在信息资源管理中的应用

依据信息资源管理系统的结构,数据挖掘在信息资源管理中的应用包括以下几个方面:

1)使教学内容设置合理化

为了激发学习者的学习兴趣,应该设置合理的教学内容,只有这样,才能够提高学习者的学习效率,为此,应该根据学习者的实际情况制定符合学习者学习的教学方案,通过对学习者的兴趣爱好、学习的历史记录进行分析,有针对性地制定个性信心,完善推送功能。同时,通过对教学内容的访问制度以及交流话题的分类情况进行分析,明确教学的重点和难点,进一步推动教学改革,此外,还应该通过对能力测试和学习者知识点的掌握情况进行分析,设置最优的教学内容。

2)可转变学习者学习行为模式

就当前的情况看,教育组织的管理方式在信息技术的冲击下,发生了强烈的变化,学习者可以通过数据挖掘技术以及其特有的算法,将教学系统的资源下载下来,学习者可以通过查看教学系统中常点击的记录,自行进行检索和学习,这样不仅能够提高学习者的学习行为模式,还能够为教学奠定了科学的基础。

3)使教学效果评价科学化

在当前信息技术运用如此广泛的时代下,传统的教学评价已经不能够应用在教学之中,为此,应该建立属于当下的科学化的教学评价体系,通过数据挖掘算法,对教学中所涉及的历史数据等进行分析,并且对学习者的效果进行科学地评价,全面改进教学信息资源的模式,改善教育者的教学方法,进而促进教学管理部门全面掌握教学状态。

3 数据挖掘在信息资源管理应用中的存在的问题

由于互联网、数据库等信息技术的不断发展,使得计算机的性能逐渐提升,人工智能技术逐渐被更多行业所应用,这些都为数据库的发展和数据的挖掘、信息的检索起到了推进的作用,在推动发展过程中,必然会面临问题,以下就是对多面临问题的分析:

1)资源存储类型不一致

众所周知,数据挖掘会被不同的数据存储方式所影响,数据挖掘中的技术有效性以及实现机制等都会被改变,就目前的情况而言,仍然没有最适合数据储存模式的存在。一直以来,信息资源都是在自己所建立的数据库中存在,由于大部分数据没有相应的评判标准,使得数据质量受到损坏,在此种情况下,需要对不同数据的存储特点进行研究,保证资源存储的类型一致。

2)数据规格不一样

由于信息资源的数据挖掘具有动态性且面向大众,导致数据存在众多的不确定性、信息丢失甚至会出现数据分布稀疏的情况,再加之,数据挖掘是需要在特定的目标下进行的,致使多数数据都要选择性的利用。由于信息资源挖掘的数据是从不同的管理系统而来,所以并没有统一性,此种情况会导致数据的完备性不能够得到保证,为此,应该针对挖掘问题重新制定方案,选择有针对性的数据,保证数据的规格一致。

3)数据挖掘算法的效率不高

一般情况下,数据挖掘都是在大型的数据库中进行的,每个大型的数据库中都有数万个检索的记录,数据之间错综的关系导致数据在挖掘的过程中存在一定的难度,增加了搜索维数,也增加了错误模式出现的可能性,为此,应该提高数据挖掘算法的效率,改善数据检索存在的问题,是当前数据挖掘实际应用的一个关键。

4 结束语

数据挖掘技术的广泛应用,在一定程度上促进了信息资源系统的发展,使得信息服务的质量有所提高,就目前信息资源管理系统的应用情况而言,原有的信息资源系统和已经实现的数据挖掘信息处理环境,需要人们进一步研究和探索。

参考文献:

[1]庄孝彰. 对推进军事教育训练信息资源建设的思考[J]. 陆军学术, 2007(6).

[2]宋欣. 多属性数据挖掘研究中的关联规则应用[J]. 计算机系统应用, 2007, 8(9): 99-102.

[3] 邱月. 数据挖掘方法在学生成绩评价中的应用[J]. 科技信息, 2010, 12(9): 76-77.

猜你喜欢
信息资源管理数据挖掘检索
美军信息资源管理战略概况研究与启示
2019年第4-6期便捷检索目录
大数据在部队信息资源管理中的运用
浅谈西藏农牧业信息资源管理
基于并行计算的大数据挖掘在电网中的应用
专利检索中“语义”的表现
《信息资源管理学报》2016年总目录
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究
国际标准检索