人才缺失掣肘大数据落地

2014-09-17 15:37涂兰敬
中国计算机报 2014年34期
关键词:开源月饼舆情

涂兰敬

2014年中秋佳节降至,不管是馈赠亲朋好友还是自己食用,选择什么品牌的月饼都成为很多人重点考虑的问题。8月底,中国统计信息服务中心(CSISC)大数据研究实验室发布了《2014年中国月饼品牌口碑研究报告》。该报告从品牌知名度、消费者互动度、质量认可度、企业美誉度、产品好评度、品牌健康度等6个维度评析今年月饼品牌口碑的优劣。

不得不说,CSISC这份在大数据架构下统计出来的报告为人们购买月饼提供了重要的参考,而从月饼企业的角度来说也为其品牌声誉管理提供了很好的参考方向。很显然,从前几年“尿布和啤酒”的案例到现在月饼品牌口碑的报告,大数据技术正从外来的概念走向更实际的本地应用。

大数据技术背后的推动力

几年前还有很多人心存担忧,大数据会不会又是一次IT概念的炒作。而现在,记者发现,以Hadoop为代表的大数据技术HDFS和Mapreduce,还有其开源组件Hbase和Hive等一些大数据开源技术逐渐被开发者广泛学习和应用起来。IDC发布的Hadoop软件生态系统预测报告显示,Hadoop市场正在以60%的年复合增长率高速扩张。IDC预计,到2016年,该市场规模将快速增长至8.13亿美元。

事实上,大数据存在于人们日常消费、沟通和使用移动互联网的过程。人们不断制造数据,然后消费数据,从数据中获得价值,再不断推动大数据技术需求突飞猛进的发展。可以说,大数据技术是数据驱动的,与此同时,大数据分析的结果反过来又在不断地制造数据。

SAS软件研究开发(北京)有限公司总经理刘政表示,大数据技术正好满足了当下人们对于数据分析的需求。刘政指出,互联网时代之前已经经历过大量业务数据积累的过程,而电子商务的成熟,社交媒体和移动互联网的兴起和制造业传感设备的广泛部署,一起触发了大数据的爆炸式增长。这种爆炸式增长促进了大数据分析能力的提升,同时推动了大众行为模式和消费模式的改变,进而推动商业模式的改变。

星环信息科技(上海)有限公司CTO孙元浩认为,之所以以Hadoop为代表的大数据技术获得广泛关注主要是因为其技术上的先进性。这类技术较好地解决了大规模系统的扩展性、高性能和高可用性难题,这是大型公司特别是大规模互联网公司急需解决的问题。

从技术角度来看,推动这些大数据技术从诞生到成熟的主要驱动力还是企业的真实需求。从商业角度来看,互联网时代知识传播速度的加快让更多的人获知这些新技术,开源社区的发展也让更多人可以参与到新技术的发展过程中来,同时,资本的力量也在推动这些新技术快速地走向成熟并商业化。

云基地大数据公司高级咨询经理冯大志提出两点看法。一方面,Hadoop突出的分布式存储和计算能力,对于传统企业而言,增加了其数据挖掘所能处理的数据规模和效率。冯大志举例说,国内某知名保险公司,针对近一亿客户实现了全量的客户分群、客户流失模型的建立,针对保险产品相关性的分析,都建立在全量数据的分析基础上。另外,相对于传统的存储、小型机、关系型数据库的组合中,在不考虑维护成本的前提下,以Hadoop为代表的大数据技术确实具备了一定的性能优势和价格优势。

据冯大志透露,国内某省移动公司的经分系统是一套由几十台小型机构成具有近百个节点的大型数据仓库系统,不论系统本身的造价还是运维成本都相当高昂。冯大志认为,这么庞大的系统对于传统的技术体系和价格体系是个双重挑战。

大数据的价值不止是技术

北大方正舆情产品总经理李崇纲多年来专注于网络舆情分析技术。李崇纲表示,大数据对于舆情分析的意义,首先是从思维和工作模式上的改变,其次才是技术上的改进。

李崇纲认为,不管是政府还是企业都应该从互联网公司身上学习对舆情的管理,对网民的意见进行分析,以互联网思维对舆情进行管理。在工作模式上,利用大数据分析技术,政府和企业可以获取更多的数据并进行可视化展现,也能够变革现有舆情的管理模式。

基于自己在工作中的亲身体验,上海证交所总工程师白硕提出,大数据开创了“去贵族化”的数据处理解决方案的先河。

白硕认为,传统企业的IT系统往往存在“贵族化”特性:采购成本昂贵、维护成本昂贵、平台迁移成本更加昂贵。过去,传统企业在安全运行的巨大压力下,只能在这种“贵族化”和那种“贵族化”间进行选择,用“贵族化”的解决方案来彰显程序的价值。

因此,白硕指出:“大数据技术的真正有价值,既能不断冲击数据处理的极限,又能普遍降低非极限情况下数据处理的性价比。

相比较来看,一些传统企业的IT人员已经用惯了IOE(IBM、Oracle和EMC)的产品,忽然间让他们在开源技术基础上做开发和操作,往往会觉得不熟悉、不习惯。而且,传统企业原有数据处理的系统已经运作了十几年了,IT人员的技术范畴都还是以原有IT系统为核心打造的,最为主要的是各种基础设施的生命周期还非常长,新技术必须兼顾它们。从这个角度来看,大数据有利于祛除传统企业身上的“贵族病”,更加有利于整合机构的业务、数据等资源,调动相关人员的积极性都能够朝着价值最大化努力。

人是大数据的第一推动力

如果说,以Hadoop为代表的大数据是一头小象,那么企业必须有能够驯服它的驯兽师。在很多企业热烈拥抱这类大数据技术时,精通大数据技术的相关人才也成为一个大缺口。英特尔中国研究院首席工程师吴甘沙就曾经在一次演讲中提出,人是大数据的第一推动力。

Forrester最新报告显示,大多数公司只分析了已有数据的12%,剩余88%还没有被充分利用。究其原因,大数据分析能力的缺乏是造成这种局面的主要原因。在这里,传统企业与一些创新型和互联网公司相比,数据分析的包袱更为沉重,大数据相关的技术人才更为缺乏。

中国民族证券信息技术部总经理颜阳在一次沙龙上表示,该公司在2008年利用轻型化的通用硬件平台,结合开源系统Greenplum构建了一个“去贵族化”的数据仓库,成为业界的典范。但是,与此同时,颜阳也发出“累”的感叹。

孙元浩表示,目前市场上能够熟练运用Spark的人才都比较稀缺,因此公司不得不自己培养Scala程序员和Spark开发者。而刘政也表示,SAS需要复合型人才:一方面要有Hadoop领域的技术,另一方面公司强化分析和统计领域的专业知识,所以SAS只能坚持在项目中培养自己的人才。

与传统企业不同,很多初创型公司或互联网公司,它们没有太多历史数据,核心团队多为技术高手,因此在利用大数据技术时具有优势。

Teradata天睿公司大中华区大数据事业部总监孔宇华在与多家传统企业沟通时发现,很多公司都表示已经在用Hadoop做研究和应用,不过,还只限于存储、预处理和一些基本的网页分析。

而且,现在Hadoop技术发展得很快,用户经常会碰到新技术、新问题,需要到Hadoop开源社区去解决具体的问题,这样,对传统企业的业务需求来说进展就有些慢了。

因此,现在已经有很多企业开始意识到,要想真正在Hadoop平台上做数据分析、数据挖掘的应用,有两种选择,要么就是汇聚一个懂数据、懂分析、懂编程又要有技巧的技术团队来操作,要么就是选择某家商业公司推出的成熟的大数据平台。

猜你喜欢
开源月饼舆情
中秋节里吃月饼
月饼
五毛钱能买多少头牛
一起来做月饼吧!
舆情
大家说:开源、人工智能及创新
开源中国开源世界高峰论坛圆桌会议纵论开源与互联网+创新2.0
舆情
舆情
月饼你喜欢啥馅的