利用大数据为企业的发展服务

2015-02-26 18:48黄先果重庆日报报业集团技术设备中心重庆400010
新闻研究导刊 2015年16期
关键词:互联网企业发展

黄先果(重庆日报报业集团 技术设备中心,重庆. 400010)

利用大数据为企业的发展服务

黄先果
(重庆日报报业集团 技术设备中心,重庆. 400010)

摘 要:现代互联网的应用引发了对大规模数据进行快速处理的需求。在很多互联网应用中,数据呈现规律性,这给并行处理技术提供了机会。例如,Web网页按特性排序;社交网上朋友关系在网络中搜索,这个网络图结构有上亿个节点和几十亿条边,这样的存储单位比传统操作系统中的存储块大很多,用传统的数据冗余来防止分布在数据上千块的磁盘上时频发媒介故障,还有云计算、智能终端、社交网络、物联网等广泛应用,从而产生了大数据。

关键词:互联网;企业;发展

一、大数据的定义

什么是大数据?我查到的大数据就是:数据量大(Volume)、数据种类多样(Variety)、要求速度快(Velocity)、蕴藏的商业价值大(Value),也就是大数据的4V特性。符合这些特性的,叫大数据。

第一是数据量大。大致有多大,就是大到PB级别,1PB等于一百多G,和传统的单个网站数据库存储的数据相比,已经是它的上百倍还多,而只有数据体量达到了PB级别以上,才能被称为大数据。

第二是数据种类多样性。如果只有单一的数据,那么这些数据就没有了价值,比如只有一个人数据,或者一个客户提交数据,这些数据就不能称为大数据,所以说大数据还需要是多样性的。例如,当前的上网用户中,年龄、学历、爱好、需求等等每个人的特征都不一样,这就是大数据的多样性,如果扩展到全国,那么数据的多样性会更强,每个地区、每个时间段都会存在各种各样的数据多样性。

第三是速度快。就是通过算法对数据的逻辑处理速度非常快,以每秒计,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同。

第四是价值大。如果有1PB以上的全国所有20~35岁的年轻人的上网数据,那么它就有了商业价值,通过分析这些数据,我们就知道这些人的需求,进而指引产品的发展方向等等。这就是大数据的价值所在。

二、大数据的价值

为什么要关注大数据?关注大数据的一个原因就是它的高价值,目前大数据在互联网行业特别是电商应用比较深入,也产生了可观的价值。如eBay,建立的大数据分析平台可以准确分析用户的购物行为。通过对顾客的行为进行跟踪、对搜索关键字广告的投入产出进行衡量,优化后,eBay产品销售的广告费降低了99%,顶级卖家占总销售额的百分比却上升至32%。

对于现代企业而言,大数据已不是可选项,而是必选项,谁的数据越多,分析结果越好,谁就越有可能立于不败之地。例如,重报集团也拥有大量数据:新闻数据、经营数据、发行数据、印刷数据等,把它们的价值链数据整合起来,精确关联,进行大数据的精准分析,挖掘出价值数据,促进集团向前发展。

三、大数据的应用

庞大而复杂的数据给管理带来困扰,这样就有了处理大数据的一些技术。例如,Hadoop,Hadoop是一个开发和运行处理大规模数据的软件平台,是Apache的一个用java语言实现的开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。像百度做搜索,就用Hadoop管理数据。

大数据解决什么问题?其实大数据不解决什么问题,应该是处理大数据的技术解决什么问题。管理大规模的复杂数据需要用到大数据的技术,通过大数据的技术把这些大数据管理分析好了,可以使企业领导对各方面有更明确的认识,做出更好的决策。

各行业的数据都越来越多,在大数据情况下,如何保障业务的顺畅,有效地管理分析数据,能让领导层做出最有利的决策,这就是要使用大数据的原因,也是大数据技术能解决的问题。

最近媒体对马航MH370航班的报道中,我们不难找到新闻大数据的影子。其中有两条报道很明显是从大数据中挖掘而来。一条是历年来失联航班的新闻,如法航空客A330失事、洛克比空难等。一条是波音777客机历年来的故障、遇险新闻。新浪网甚至挖掘出了“世界近年主要空难”、“空难逃生技术”、“世界空难史”等素材,这些都体现了大数据使用的价值。

四、大数据的自我构想

重报集团的大数据主要是新闻大数据和经营大数据。新闻大数据包括60多年来本集团见报和未见报的所有新闻稿、图片;包括历年来沉淀下来的所有新华社图片、稿件;还包括华龙网成立以来各种发表或未发表的文稿、图片、视频乃至论坛精华等。如果有条件,还应该包括国内外主流媒体以及网站的重要文稿、图片、音频、视频等。

重报集团对新闻大数据的建设,算是刚刚起步。虽然已对60多年的重庆日报历史报纸做了数字化存储,但各报各网站的所有数据并未有统一的归档、备份和检索,花钱购买的新华社文稿和图片也没有很好保存。另外还缺少一套对所有新闻数据进行管理、挖掘、检索的管理系统。这些新闻数据光存储下来是没有用的,还必须能高效地被检索、被整理出来才能产生效益。这是一个庞大的系统工程。这些问题的解决可能更多的是要和方正公司合作,向他们提出我们的需求。

经营大数据则包括集团生产经营的各项数据,现阶段主要有以下几部分:采编数据;广告、发行的经营数据;集团财务数据;集团人事数据;EIP办公数据等。这块大数据要产生效益比新闻大数据要难得多,必须对数据进行深度挖掘、再挖掘。

对于现阶段的重报集团来说,建立经营大数据的工作还没有开始,各系统现在仍是分割条块状态,还未开始融合。

在未来,处理好经营大数据,其中一条道路就是建立一套综合各个应用系统的、供领导查询分析的决策系统。这是一个相当庞大复杂的系统,涵盖了报业集团的所有应用。财务、人事、发行、广告、采编、办公、出版甚至安保等系统的数据库都是其工作对象。我们原先提出的统一编码,可以成为这一庞大系统的基础组成部分。我们可以由统一编码起步,一步步建立起一个完善的综合查询分析决策系统。

这里复述一下编码系统的初步需求:首先,我们要先提炼出一些整个集团通用的元素,然后对这些元素进行编码。我想出来三个:人员、部门、客户。这些元素是凌驾于各系统之上的,只要有相同的物件存在于不同系统中,我们都可以把它们提炼出来编码。这样一来,不同系统中间相同编码的元素之间就产生了一种联系,我们把这种联系记录入单独的数据库。这个数据库不单单记录这些联系,还要记录这些元素在不同系统数据库当中的相关记录的信息。当我们使用这些通用元素在这个关系数据库中查询时,我们就可以查询到各系统间相关联的其他元素。举例来说,我们把张三这个人编码以后,就可以查询到这个人是发行的客户,也是广告的客户,或许还是生意伙伴。这是因为在发行、广告等系统中张三的编码是一样的。我们还可以通过张三所在系统数据的详细信息查到其他的元素编码(例如:合同编号),从而展开新的查询。那么如何界定发行系统中的张三和广告系统中的张三是同一个人呢?我想出来的办法是为每个通用元素建立一张标准表。第一次录入数据的时候要首先检索这张标准表,找到了相同记录就不用再次录入,直接选取就可以了(如标准表里面有张三,则不论在哪个系统录入张三的时候,只需要鼠标选取标准表中的张三就可以)。如果标准表中没有相应记录则应先录入标准表,再从标准表选取进行录入。这或许要牵涉修改原系统代码的问题。如果今后集团的应用都采取B/S模式,那么修改的难度会减少很多,只需要修改一个录入界面。甚至,在了解整个系统的数据库结构的基础上,我们可以重写一个录入页面来代替原有的页面,而原系统代码只需要作很小的修改。总之,如果完成了这个编码数据库,就能够实现“找到一个点,带出一大片”的效果。

因此,要开发这个编码系统,首先,要了解原有系统的整个数据库结构和字段含义。其次,原有应用系统必须采用B/S模式。再次,一定要找一家有强大开发能力的公司合作,这个系统可不简单。

要建好经营大数据,另一条道路是和大软件公司合作。例如,重报集团和Oracle公司合作,利用Oracle公司的各种中间件工具建立一套决策查询系统。我们所有的应用系统都以Oracle数据库为后台。同时我们还要了解所有数据库的详细架构和字段含义。

综上所述,我们今后建立新的应用系统时,应该要注意三点:一是要使用Oracle数据库。二是在需要时向我们提供所需数据库的详细架构和表的字段含义。三是采用B/S模式。

五、结束语

当今的大数据时代,让商业生态环境发生了巨大变化,智能终端随处可见,社交网络随时在线互动,让信息传播方式发生了革命性的变化。大数据的时代已经到来,让我们和大数据一起发展!

中图分类号:G20066..22...........

文献标志码:AA......

文章编号:11667744--88888833(22001155)1166--00229955--0022

猜你喜欢
互联网企业发展
企业
企业
企业
迈上十四五发展“新跑道”,打好可持续发展的“未来牌”
敢为人先的企业——超惠投不动产
砥砺奋进 共享发展
改性沥青的应用与发展
从“数据新闻”看当前互联网新闻信息传播生态
互联网背景下大学生创新创业训练项目的实施
以高品质对农节目助力打赢脱贫攻坚战