罗军锋+徐菲
摘 要:随着大数据时代的到来,数据从简单的处理对象开始转变为基础性资源,如何更好地管理和利用好大数据已经成为普遍关注的话题,各行各业的信息化因此都会发生深层次的变革,高校也不例外。本文将聚焦大数据时代下的高校信息化这个话题,首先讨论了大数据的基本概念、关键技术、高校信息化在大数据时代的主要挑战,最后介绍了我校大数据处理的基本框架平台。
关键词:大数据;数据分析;高校信息化
中图分类号:TP311 文献标志码:A 文章编号:1673-8454(2014)03-0011-04
引言
近年来,随着以博客、社交网、微博、微信为代表的新媒体地不断出现,特别是信息获取技术、物联网、云计算等技术的兴起,引发了数据规模爆炸式的增长,学术界、企业界、政府机构纷纷开始关注大数据问题。学术界最早是《Nature》于2008年就推出了Big Data专刊。[1]全球知名的咨询公司麦肯锡2011年6月份发布了一份关于大数据的报告“Big data:The next frontier for innovation,competition,and productivity”,对大数据的影响、关键技术和应用领域等都进行了很详细的分析。[2]美国奥巴马政府启动了“大数据研究和发展倡议”,计划在生物医学、环境、科研等领域利用大数据进行技术突破。我国在《国家中长期科技发展规划纲要(2006-2020)》提出:“信息领域要重点研究开发……海量信息处理及知识挖掘的理论与方法……”。另一方面,著名的连锁超市沃尔玛每小时需要处理100万条用户请求,维护着超过2.5PB的数据库;社交网络Facebook存储超过500亿张照片;IDC多年的研究结果证实:全球数据量大约每两年翻一番,每年产生的数据量按指数级增长,目前全球有46亿移动电话用户,有20亿人访问互联网,所有这些都证明了大数据时代已经到来,甚至有人认为,大数据是继物联网、云计算后IT产业又一次颠覆性的技术变革。
本文试图从大数据的基本概念、定义出发,分析了大数据时代的关键技术,大数据时代的高等教育信息化面临的挑战、对策、未来的应用前景等。
一、大数据的基本概念及特点
对于大数据目前尚没有一个公认的定义,维基百科对大数据的定义为:大数据是指利用常用软件捕获、管理和处理数据所耗时间超过可容忍时间的数据集。[3]麦肯锡将大数据定义为:无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。[4]大数据不是一种新技术,也不是新产品,而是一种新现象,大数据强调对数据的抓取、管理和处理。
1.大数据具有以下4个特点,既4个“V”[5]
(1)数量(Volumes):是指数据规模超大。数量级别从TB(1TB=1024GB)级别,跃升到 PB(1PB=1024TB)、EB(1 EB = 1 024 PB )乃至 ZB (1 ZB =1 024 EB )级别。
(2)多样性(Variety):是指管理结构化、半结构化和非结构化数据。这些数据来自多种数据源如传感器、智能设备, 数据种类和格式冲破了以前所限定的结构化数据范畴,包括文本、微博、音频、视频等等。
(3)速度(Velocity):是指处理数据快,包含大量或实时数据分析处理的时间要求非常短,1秒定律。速度影响数据时延,从数据创建或获取到数据可以访问的时间差。
(4)价值(Value):是指价值密度低,商业价值高。以视频为例 ,连续不间断的监控过程中 ,可能有用的数据仅仅有一两秒。
大数据与传统的数据库也有明显的区别,两者在数据来源、数据处理方式和数据思维等各个方面都有很大的变化。正像孟小峰所言,两者的区别就是“池塘捕鱼”和“大海捕鱼”的区别,前者代表着传统数据库时代的数据管理方式,后者则对应着大数据时代的数据管理方式,其在数据规模、数据类型、数据模式、数据对象、处理工具上都有巨大的差异。[6]这意味着面对大数据时代,应该采取全新的数据思维来应对,这种数据思维将数据看作一种基础资源,用这种资源来协同解决诸多领域的问题。
2.大数据来源
那么大数据来源于哪里呢?人类经过几千年的发展,今天数据的产生已经不受时间、地点的限制。目前,大数据的来源主要有以下几个部分。
(1)信息系统。或者叫运营系统,数据库的出现促使了这一阶段的快速发展,常见的超市管理系统、银行管理系统,高校人事管理信息系统,每一笔业务,都会在数据库中产生一系列数据,该系统经过多年的发展,已经趋于稳定与成熟。
(2)互联网广大用户。互联网的诞生促使了人类交流新篇章的开启,尤其是微博、微信为代表的新媒体的发展和以智能手机、平板电脑为代表的新型移动职能终端的出现,促使了以用户原创内容(User Generated Content,UGC)这类数据的爆炸式增长,其产生的数据量更是无可比拟的。
(3)物联网系统。传感器的广泛布置,将人类的触角实时伸向了社会的各个角落,这些设备源源不断地产生新数据。
数据是广泛的,庞大的,巨量的,所缺乏的是从中提取出知识的能力是更需要的。大数据的根本目的也就是提取有用的知识,并将用到具体的领域。这才是大数据的真正挑战。
二、大数据的关键技术
随着大数据时代的来到,要处理的数据量越来越大,传统的常规数据处理技术已经无法应对,为了解决这些难题就需要突破传统技术,根据大数据的特点进行技术变革,因此就需要解决一系列针对大数据收集、存储、管理、处理、分析和可视化等技术,这些关键技术包括以下几类。
(1)分布式文件系统:该系统提供最底层存储能力的支持,是支撑上层应用的基础。Google公司最早开发除了自己的文件系统GFS(Google File System),该系统主要针对文件较大,读远大于写的场景,采用主从结构,通过数据分块、追加更新等方式实现海量数据的高效存储。GFS的架构如图1所示。另外在GFS以及在它基础上衍生出来的开源分布式文件系统HDFS与KFS。Google公司针对GFS无法满足新形势需要的问题,进行了重新设计,新系统的名称为Colosuss,具体实现尚未公开。现在常用的分布式系统存在着对小文件的支持受限、元数据节点单一等问题。
(2)分布式数据库系统:由于关系模型的分布式数据库不能应对大数据时代大规模的压力、不能应对多样化的数据类型等,相应的提出了许多新型数据库系统,如Google的Bigtable、Amazon的Dynamo等等,直到现在形成了统一称为NoSQL(not only SQL)数据库。虽然NoSQL没有准确的定义,但一般认为具有模式自由、简易备份、最终一致性、支持海量数据等特征。是指那些非关系型的、分布式的、不保证遵循ACID原则的数据存储系统,分为key-value存储、文档数据库和图数据库等3类。[6] NoSQL和关系型数据库的简单对比如表所示。[7]
典型的NoSQL包括开源的HBase、Cassandra等。本系统包括对应的查询问题,在大数据时代,针对海量数据下的结构化、半结构化数据和非结构化数据,实现快速、准确的查询功能也是非常困难的,其中的难点就是索引的更新问题。目前主流查询索引技术是以Google公司的BigTable为代表的列簇式NoSQL数据库。但针对NoSQL数据库上的查询优化技术仍有很多关键性问题亟待解决。
(3)数据分析:对大数据进行挖掘分析,发现蕴含的知识,研究社会运行的规律与发展趋势是大数据的根本价值所在。在大数据时代,传统的挖掘和计算方法在性能和效用上遇到了严重的瓶颈。因此需要对传统的分析方法进行变革。在计算模型上最著名的为Google的MapReduce,目前,Google公司针对MapReuce的离线处理模式的不足,提出了基于Web数据级别的交互式数据分析系统Dremel,能够实现极短时间内的海量数据分析。在离线与实时处理模式上,已经出现了二者融合的趋势。
(4)大数据处理工具:Hadoop是目前最为流行的大数据处理平台,目前,将该平台进行改进,以便应用到各种场景是研究的热点之一。当然,除了Hadoop,还有其他的处理工具,这里就不一一提出。
三、大数据时代高校信息化面临的挑战
高校也是数据生产大户,首先中国高校规模一般都比较大,万人以上的大学非常多。其次,在高校里上学的学生从招生、学籍、选课、成绩、饭堂、活动等等都会产生大量的数据;教师的上课音视频、课件、实验数据等也会有庞大的数据;校务系统运行、图书馆、微博、博客等都会产生很大的数据;尤其重要的是科研和教学数据,是高等教育的两大核心功能的重要数据。在这个大数据的时代,只有用好这些数据,才能更好地帮助教学、科研,做好招生推广,学生管理等各个方面的工作,用好这些数据,毋庸置疑将会大大提高高校的信息化水平。要用好大数据,至少面临以下几个方面的挑战:
(1)大数据集成与分析:大数据多样性的特点就决定了数据来源的广泛性、复杂性,这种数据环境给大数据的处理带来了很大的挑战,必须对多种数据来源进行抽取集成,首先进行数据的清洗、经过关联和聚合,采用统一的数据结构来存储这些数据。大数据分析无疑是整个大数据时代的核心所在,因为大数据的价值就产生于数据分析过程中。当然,数据分析是基于集成处理后的数据作为数据分析的原始数据。数据分析一般是根据不用的应用需求从数据中的部分或者全部进行分析。传统的分析技术如数据挖掘、机器学习、统计分析在大数据时代需要作出调整,主要原因是大数据时代的“大”字,具体的调整包括分析前数据的预处理、算法、评价质量等等。
(2)大数据的存储:需要研究低成本、高效率的数据存储方式,众所周知,低成本一般意味着低效率,但是在数据时代,如果处理效率低下,则大数据毫无意义,因此,必须打破常规,要处理好大数据的存储。另外,还要做好大数据时代数据存储的管理问题,因为存储空间巨大无疑给存储硬件带来压力。同时,非结构化数据存储进行有序、高效的存储管理也是面临的挑战。
(3)大数据的融合与使用:数据不融合就发挥不出数据的大价值,大数据面临的一个非技术性的重要问题就是数据的融合。作为高等院校,大数据的融合应该走在前列,必须彻底打通数据孤岛,将各个业务充分整合,有效融合,只有如此,才能形成高质量的大数据,才能发挥大数据时代高等教育信息化对学校发展的具体推动作用。
四、大数据时代高校信息化建设框架
尽管大数据的来源广泛,需求和数据类型、结构都不相同,但最基本的处理流程是相同的。笔者们认为:大数据时代下的高校信息化建设工作就是做好大数据的抽取、存储、分析、管理、应用等工作,因此大数据的处理流程才是高校信息化工作的重点。大数据的处理平台的总体架构如图2所示,整个大数据的处理流程可以定义为对广泛异构的数据源进行数据抽取和数据集成,结果形成统一标准的数据进行存储。利用合适的数据分析挖掘技术对存储的数据进行分析挖掘,从中得到有用的知识并用适当的方式将结果展现给终端用户。框架分为四层,分别为数据提取层、分析层、展现层、用户应用层。该平台准备应用到我校未来大数据处理平台上,以实现对我校大数据的抽取、存储、分析管理。
(1)数据提取层:上文提到大数据的一个重要特点就是多样性,意味着数据来源广泛、数据类型多样,要想处理大数据,必须对数据源的数据进行提取和集成。为了提取高质量的数据,首先需要获取高质量的数据,解决从多数据源中有效地获取高质量的数据,同时建立健全多模态大数据融合计算的理论和算法,实现数据的精准整合,在集成前做到数据错误的自动检测与修复。从学校各个系统,本校老师学生的博客、微博,学校的公开课程视频等等数据中进行数据的提取与集成,加工成我校统一标准的大数据,统一存储,以方便下一步数据的分析。
(2)数据分析层:数据分析是大数据处理流程的重中之重,体现大数据价值所在。传统的分析技术和算法如聚类分析、机器学习、统计分析等必须作出变革才能适应大数据时代的需要。特别是算法和分析技术在面对海量数据方面效率不足的问题需要重点解决,形成具有浅层、深层语义分析的引擎。
(3)数据展现层:就是将数据分析的结果如何恰当的展示出来。最简单的比如文本展示这些初级展示技术,必须引入可视化技术来展现大量数据分析结果,以用户容易理解的方式进行展示,最好采用人机交互技术,实现很高的用户体验度。
(4)用户应用层:该层主要是大数据处理一些应用,如智慧交大应用项目,以最终为广大师生提供高质量、个性化的服务。
通过建立我校大数据处理统一平台,将彻底整合我校所有信息资源、形成我校统一的大数据提取、集成、存储、分析、展现和管理的大数据处理模式,为学校领导提供及时、准确的校务决策;为教职工提供便捷快速的信息查询;为学生提供全方位、个性化的学习、生活等服务。
为了实现这一目标,应对大数据时代高校信息化面临的挑战,迫切需要我们研究大数据时代的各种技术,切实转变到大数据时代的思维,与学校相关计算机专家学者一道,借鉴兄弟院校和国外的成功案例,以早日实现这一蓝图。
五、结束语
2013年被称为中国的大数据元年,未来的十年,将是大数据引领下的智慧科技时代。本文介绍了大数据的含义和特点、大数据的关键技术、大数据对高校信息化中的挑战进行了梳理,同时提出来高校大数据处理框架。不可否认,大数据在高校中有着广阔的应用前景,虽然从目前的情况来看还处在起步阶段,在大数据时代,将高等教育信息化做好仍有很长的路要走,但只要我们一步步的努力,大数据时代的高校信息化也必将更加强大。
参考文献:
[1]Nature. Big Data[EB/OL].[2012-10-02].http://www.nature.com/news/specials/bigdata/index.html
[2]Manyika J,Chui M,Brown B,et al.Big data: The nextfrontier for innovation,competition ,and productivity[R/OL].[2012-10-02].http://www.mckinsey.com/Insights/MGI/Research/Tehnology_and_Innovation/Big_data_The_ next_frontier_for_innovation
[3]Big data [EB/OL].[2012-10-02].http://en.wikipedia.org/wiki/Big_data
[4]计算机行业-大数据(Big Data)专题报告[R].上海:光大证券有限公司研究所,2011.
[5]大数据分析技术的发展[EB/OL].[2012-5-16].http://tech.ccidnet.com/art/32963/20120516/3859799_1.html
[6]申德荣,于戈,王习特等. 支持大数据管理的NoSQL系统研究综述[J].软件学报,2013.
[7]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.
(编辑:杨馥红)
(4)用户应用层:该层主要是大数据处理一些应用,如智慧交大应用项目,以最终为广大师生提供高质量、个性化的服务。
通过建立我校大数据处理统一平台,将彻底整合我校所有信息资源、形成我校统一的大数据提取、集成、存储、分析、展现和管理的大数据处理模式,为学校领导提供及时、准确的校务决策;为教职工提供便捷快速的信息查询;为学生提供全方位、个性化的学习、生活等服务。
为了实现这一目标,应对大数据时代高校信息化面临的挑战,迫切需要我们研究大数据时代的各种技术,切实转变到大数据时代的思维,与学校相关计算机专家学者一道,借鉴兄弟院校和国外的成功案例,以早日实现这一蓝图。
五、结束语
2013年被称为中国的大数据元年,未来的十年,将是大数据引领下的智慧科技时代。本文介绍了大数据的含义和特点、大数据的关键技术、大数据对高校信息化中的挑战进行了梳理,同时提出来高校大数据处理框架。不可否认,大数据在高校中有着广阔的应用前景,虽然从目前的情况来看还处在起步阶段,在大数据时代,将高等教育信息化做好仍有很长的路要走,但只要我们一步步的努力,大数据时代的高校信息化也必将更加强大。
参考文献:
[1]Nature. Big Data[EB/OL].[2012-10-02].http://www.nature.com/news/specials/bigdata/index.html
[2]Manyika J,Chui M,Brown B,et al.Big data: The nextfrontier for innovation,competition ,and productivity[R/OL].[2012-10-02].http://www.mckinsey.com/Insights/MGI/Research/Tehnology_and_Innovation/Big_data_The_ next_frontier_for_innovation
[3]Big data [EB/OL].[2012-10-02].http://en.wikipedia.org/wiki/Big_data
[4]计算机行业-大数据(Big Data)专题报告[R].上海:光大证券有限公司研究所,2011.
[5]大数据分析技术的发展[EB/OL].[2012-5-16].http://tech.ccidnet.com/art/32963/20120516/3859799_1.html
[6]申德荣,于戈,王习特等. 支持大数据管理的NoSQL系统研究综述[J].软件学报,2013.
[7]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.
(编辑:杨馥红)
(4)用户应用层:该层主要是大数据处理一些应用,如智慧交大应用项目,以最终为广大师生提供高质量、个性化的服务。
通过建立我校大数据处理统一平台,将彻底整合我校所有信息资源、形成我校统一的大数据提取、集成、存储、分析、展现和管理的大数据处理模式,为学校领导提供及时、准确的校务决策;为教职工提供便捷快速的信息查询;为学生提供全方位、个性化的学习、生活等服务。
为了实现这一目标,应对大数据时代高校信息化面临的挑战,迫切需要我们研究大数据时代的各种技术,切实转变到大数据时代的思维,与学校相关计算机专家学者一道,借鉴兄弟院校和国外的成功案例,以早日实现这一蓝图。
五、结束语
2013年被称为中国的大数据元年,未来的十年,将是大数据引领下的智慧科技时代。本文介绍了大数据的含义和特点、大数据的关键技术、大数据对高校信息化中的挑战进行了梳理,同时提出来高校大数据处理框架。不可否认,大数据在高校中有着广阔的应用前景,虽然从目前的情况来看还处在起步阶段,在大数据时代,将高等教育信息化做好仍有很长的路要走,但只要我们一步步的努力,大数据时代的高校信息化也必将更加强大。
参考文献:
[1]Nature. Big Data[EB/OL].[2012-10-02].http://www.nature.com/news/specials/bigdata/index.html
[2]Manyika J,Chui M,Brown B,et al.Big data: The nextfrontier for innovation,competition ,and productivity[R/OL].[2012-10-02].http://www.mckinsey.com/Insights/MGI/Research/Tehnology_and_Innovation/Big_data_The_ next_frontier_for_innovation
[3]Big data [EB/OL].[2012-10-02].http://en.wikipedia.org/wiki/Big_data
[4]计算机行业-大数据(Big Data)专题报告[R].上海:光大证券有限公司研究所,2011.
[5]大数据分析技术的发展[EB/OL].[2012-5-16].http://tech.ccidnet.com/art/32963/20120516/3859799_1.html
[6]申德荣,于戈,王习特等. 支持大数据管理的NoSQL系统研究综述[J].软件学报,2013.
[7]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.
(编辑:杨馥红)