大数据及其处理架构在高校中的应用探究

2014-02-22 02:43
电子测试 2014年22期
关键词:结构化数据库信息

(江苏联合职业技术学院徐州财经分院,江苏徐州,221008)

大数据及其处理架构在高校中的应用探究

尚 博

(江苏联合职业技术学院徐州财经分院,江苏徐州,221008)

本文先对大数据做了简要介绍,进而分析了结合高校大数据结构的特点,进而以学生就业情况为例,分别作了高校数据采集、高校数据清理、高校数据存储及管理、高校大数据分析、高校数据可视化显化等环节的应用做了深入探讨,以便更好的为高校在教学任务、课件等教学信息、科学研究数据、师资信息、招生就业信息等方面借助大数据分析技术,分析学生在高校和社会活动中产生的大数据,形成数据库,进而为高校制定更好的教学内容和教学模式。

大数据;数据分析;清理方式 Hadoop

随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。早在1980年,著名未来学家阿尔文?托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。大数据(Big data),指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。海量数据技术,能够有效地处理大量的容忍经过时间内的数据。大数据的技术应用,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

1 大数据的基本概念

大数据本身是一个比较抽象的概念,但是仅仅数量上的庞大显然无法看出大数据这一概念和以往的“海量数据”(Massive Data)、“超大规模数据”(Very Large Data)等概念之间有何区别。大数据可以更好的预测高校学生学习发展趋势以及学生教育就业情况等,用户通过电脑、笔记本、手机等方式接入数据中心,然后数据中心通过分析个人的各类信息,如微博、微信等社交信息中的抱怨,学生在选课、借阅图书种类、成绩变化等学习信息,尽可进行综合性的分析判断。

2 高校大数据结构的特点

高校大数据按照信息处理环节包括高校数据采集、高校数据清理、高校数据存储及管理、高校大数据分析、高校数据可视化显化等五个环节。大数据(Big data)的处理流程和传统的数据处理流程区别不大,主要的区别是,传统的数据处理流程不能在处理大型非结构化数据,在每个加工环节都使用MapReduce并行处理的方式,而大数据就可以采用每个加工环节都使用MapReduce并行处理的方式。

2.1 高校大数据采集

大数据采集可通过RFID射频数据、传感器等采集到数据,也可以通过社交网络交互数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,关键的高速度和高可靠的分布式爬行或采集,取得高速数据映射,数据采集技术的突破;利用高速数据分析,转换和加载等数据集成整合技术,设计质量评价模型。由于大数据散布于不同的物理机上的,所以可以采用Hadoop等大数据挖掘工具进行数据采集,通过指向需要的信息内容存储空间,形成数据 仓库。所有的数据都是存在于云数据中心的资源池内,根据实际需求选择数据采集方式,所以首要的任务是定义CIO的数据需求。

图1 就业分析模型

图2 高校大数据清理方式

高校大数据比较复杂,以高校学生就业分析情况为例,过去的就业分析数据主要来源于学生的签约单位、学生的就业薪资待遇,学生就业分布的区域、学生毕业前所在院系专业排名、性别等维度来采集学生就业信息,通过上述采集,得到统计表格,然后高校就业指导办老师,根据自己的经验指导在校学生应对下一年的就业情况,无法预测在校的某个学生的就业情况,但是利用大数据采集,就可以采集学生更好的和就业相关的特征,比如学生在校的成绩排名变化,学生参加校内校外活动的情况,学生的恋爱情况,以及学生应聘实习的情况,学生图书馆的借书种类,借书频率,甚至可以采集学生在微薄等微信社交工具中所展示的对日常行为等,通过对历届学生在应聘单位薪资待遇等等众多的信息进行收集。以徐州财经学院为例,可以从图1所示的各类系统中采集学生的各类信息,构成大数据下的就业分析模型所需的各类数据。

2.2 高校大数据清理方式

大数据下的数据清理方式,高校数据来源复杂多样,对于不同的数据源,数据提取采取不同的方式,对于非结构化数据,如网页通过Nutch的工具抓取,数据被Solr的工具索引后存储在HBase数据库,对每个结构良好的信息系统中的数据,可以使用ETL工具将数据提取到HBase的数据库;如图2所示示意图。HBase的数据库是一个分布式的,开放源码的面向列的数据库,不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。该技术来源 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。

2.3 高校数据存储及管理

根据高校大数据中的分散性,复杂性,本文建议采用虚拟存储技术解决高校数据存储和管理,存储虚拟化可以提高存储利用率,降低成本,简化存储管理,而基于网络的虚拟存储技术已成为一种趋势,它的开放性、扩展性、管理性等方面的优势将在数据大集中、异地容灾等应用中充分体现出来。本文建议利用云环境架构搭建用户视图更好的方便数据的存储,同时高校大数据的数据源比较多,既包括传统的关系型数据库,也包括XML 等新的半结构化数据,以及以文字、视频等其他形式存在的各类非结构化数据。利用云环境架构搭建用户视图更好的方便数据的存储,可以更好的囊括现有的高校已经建立大数据系统,如学校的管理信息系统、学生学习管理系统等,这样的好处还在于可以在统一数据中心资源池中积累大量的结构化数据。

图3 高校云环境存储架构

2.4 高校大数据分析

在数据分析方面可选用SAS及SPSS等工具,也可以使用基于开源软件基础构架Hadoop的数据分析,经过数据清理得到的数据,需要进行数据分析挖掘。针对学生的生活信息,选课、借阅图书、成绩等学习信息,可以更好的使高校在可以在教学任务、课件等教学信息、科学研究数据、师资信息、招生就业信息等方面为学生提高服务和指导。以学生就业情况为例,将就业分析模型所需的数据存储在Hbase 数据库后,可以使用Hive 对Hbase数据库中的各类数据进行查询和分析。通过Hive 可以更好的实现对高校就业数据的现状分析,且可以更容易的通过对现有就业情况较好的学生的数据进行研究,预测在校学生的就业情况。通过协作筛选,分析已就业学生的成绩、参加过的社团活动、爱好特长,喜好职业、性格特点等,将在校学生和就业生的情况进行相似比对计算程度,通过建立综合评判模型,可以更好的在校学生就业提供指导方案,其次是聚类分析,将未能就业学生通过不同的维度进行分析,通过对影响学生就业的问题就行研究分析,对在校学生的不利于就业的行为及时给出就业预警,能够更好的发挥高校就业指导中心的作用。如图3所示

Research on the application of large data and its processing architecture in Colleges and Universities

Shang Bo
(Xuzhou Jiangsu Xuzhou branch of Jiangsu Lianhe Technical Institute of Finance and Economics,221008)

In this paper,the author first of Big data gives a brief introduction,and then analyzes thecombination of characteristic of big data structure in Colleges and universities,the employment situation of students as an example,are described in detail by five aspects of data acquisition,data cleaning,data storage and management,data analysis, data display and etc.,in order to better for the colleges and universities with big data analysis techniquesin the task of teaching,courseware,teaching in formation,teachinginformation,scientific research data, enrollment and employmentinformation and other aspects,Students analyze large data generated in universities and social activities, the formation of a database,and then develop better teaching content and teaching mode for college.

Big data;data analysis;Cleaning method Hadoop

猜你喜欢
结构化数据库信息
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
订阅信息
数据库
数据库
数据库
数据库
展会信息