基于Hadoop的高校大数据平台的设计与实现

2019-10-21 09:32彭航
知识文库 2019年19期
关键词:数据管理结构化信息系统

彭航

本文在对Hadoop平台的结构及功能分析基础上,结合信息化环境下高校系统建设的现状,对基于Hadoop的高校大数据平台的设计与实现进行研究,以供参考。

在信息化发展影响下,高校信息系统建设与运用也取得了较为显著的发展,并且在长期的运营与管理中积累了相对较多的数据,对高校信息化建设与发展有着十分积极的作用和意义。指导注意的是,结合当前高校信息系统建设与发展现状,由于其信息系统的分阶段建设,导致在对系统运营及数据管理中是由多个不同部门分别执行,各数据之间的相互联系与有效交互明显不足。另一方面,在大数据环境下,通过大数据平台的开发设计以实现各信息系统之间的有效对接与信息交互,形成较为统一的数据运营与管理模式,成为各领域信息建设与运营管理研究和关注重点。

1 Hadoop平台及其结构、功能分析

Hadoop作为一个分布式系统的基础架构,在实际设计与开发运用中,是通过Hadoop集群中的一个主控节点对整个集群的运行进行控制与管理实现,以满足该集群中多个节点的数据与计算任务协调需求。其中,分布式文件系统HDFS以及MapReduce并行化计算框架是Hadoop集群系统的核心,HDFS是Hadoop平台中分布式计算下数据存储管理开展基础,具有较为突出的可靠性以及扩展性和高容错性特征;而MapReduce并行计算框架能够将分析任务分成大量并行Map和Reduce任务以进行Hadoop平台运行及功能支撑;此外,HBase是以HDFS為基础的分布式数据库,能够实现海量数据存储,而Hive作为数据仓库处理工具,在Hadoop平台运行中主要用于HDFS或者是HBase中存储的结构化或者是半结构化的数据管理。随着对Hadoop研究的不断发展,当前Hadoop平台已经成为一个包含很多子系统大数据的处理生态系统。如下图1所示,即为Hadoop平台的结构组成示意图。

2 基于Hadoop的高校大数据平台设计与实现研究

根据上述对Hadoop平台及其结构功能的分析,结合当前高校信息系统建设与数据管理现状,可构建如下图2所示的基于Hadoop的高校大数据平台系统,其系统结构主要包括数据源、数据集成、Hadoop平台管理、分布式数据存储、大数据分析、API接口、应用单元等。

其中,数据源中包含了高校的各个业务系统、文件系统、视频监控以及校园论坛等系统数据,主要由结构化和非结构化数据两种形式,其中,结构化数据以Sqlserver和Oracle数据库为数据存储位置,主要以高校各业务系统数据为主;而非结构化数据中,部分数据是以blob格式在数据库或者是文件系统中进行存储管理。

基于Hadoop的高校大数据平台系统中的数据集成单元,包含了数据采集以及清洗、整合等环节,是数据源中数据提取至Hadoop凭条数据分析的中间结构,其中,该结构单元在进行数据采集中是通过Sqoop实现关系型数据库数据导向Hadoop平台的HDFS或者是HIVE进行导入。

分布式数据存储结构单元中,进行结构化数据是以表格格式在Hadoop平台的Hive中进行存储管理,或者是将数据转换成Key-value形式在HBASE中进行存储管理,还可以通过文件格式在HDFS中进行存储;而非结构化数据是通过目录与文件组织方式在HDFS中进行存储管理。

此外,高校大数据平台系统的大数据分析单元在系统运行中,通过Hadoop平台进行多种数据处理与分析框架提供,并根据不同应用场景实现合适的数据处理框架和模型选择,来满足其数据离线分析与流式计算需求。在智能分析与可视化单元中可以通过机器学习和数据挖掘计算对数据进行更深层次的分析,最终以图表或者导航仪等形式进行中展现,并实现数据分析结果的可视化图形或文字呈现效果,使其更加容易被理解和运用,对数据分析结果在高校门户网站或者是移动APP程序中进行展示。

最后,在高校大数据平台的应用单元能够通过API接口对所有处理数据及分析结果在高校门户网站或者是移动APP程序中进行调用,或者是在其他系统中进行展示与应用,以达到数据集中管理和运用的目的。

根据上述所构建的基于Hadoop的高校大数据平台系统,为验证该平台中Hadoop平台管理的Hive存储能够顺利实现高校各业务系统数据提取,并将处理数据向业务系统数据库

进行导出,以某高校MySQL数据为例,设计该数据库中学生一卡通数据在Sqoop工具支持下向Hadoop平台管理的Hive进行导入,同时将Hive数据分析结果向MySQL系统导出实验,实验分析过程显示,在数据量较小情况下,Hadoop平台管理的数据运算与读写时间与Oracal相比无明显优势,但是,数据量较大情况下,Hadoop平台管理集群优势明显,其数据预算及分析时间明显较短,由此可见,基于Hadoop的高校大数据平台设计方案可行。

3 结束语

总之,针对高校信息系统建设与发展现状,进行基于Hadoop的高校大数据平台开发设计,以促进其在高校信息系统运营与数据管理中的运用实现,具有十分积极的价值和作用。

(作者单位:岳阳职业技术学院)

猜你喜欢
数据管理结构化信息系统
《大数据管理》课程思政教学质量评价体系研究
顾丽英:小学数学结构化教学的实践探索
借助问题情境,让结构化教学真实发生
基于信息系统的计量标准管理
基于项目化+翻转的物流信息系统课堂教学设计与实践
深度学习的单元结构化教学实践与思考
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
如何有效开展DCMM数据管理成熟度评估
数据挖掘在学生成绩数据管理中的应用研究
数据挖掘在学生成绩数据管理中的应用研究