大数据:让世界更加善解人意

2019-09-10 07:22乐佳
电脑报 2019年16期
关键词:海量因果关系结构化

乐佳

随着云计算、人工智能的兴起,使得数据实时准确的分析成为了可能;这些都使得大数据成为了当下最热门的科技词语之一。那么,什么是大数据?大数据到底有多大?严格来讲,大数据是一种涉及数据的收集、存储、分析、处理,从而提取数据背后价值的综合性技术,它不光包括海量的数据本身,还包括对这些数据的处理和应用。

大数据的四个V

大数据通常被认为具有如下四个特点:大量(Volume),多样(Variety),高速(Velocity),价值(Value)。由于这四个特征的英文首字母都是“V”,所以通常被称为大数据的“4V”特性。

大量(Volume):大量是大数据最显著的特点,也是很多人对于大数据最直观的感受。根据IDC发布的《数据时代2025》白皮书中的统计,2018年全球的数據量大约是33ZB,为了有一个更加直观的理解我们做一个简单的换算:33ZB大约是354亿TB,每天大概是9700万TB,我们现在每台家用电脑的硬盘容量一般平均是1TB,也就是说我们每天需要用9700万台新的电脑来存储我们每天产生的数据。而且随着物联网的兴起,到2025年我们每年产生的数量预计可以达到175ZB,如下图所示(注:图片来源于《数据时代2025》)。

多样(Variety):大数据的多样性既包括数据来源的多样性:个人计算机、平板、物联网中的传感器、各种智能终端等;也包括数据类型的多样性:文档数据、邮件数据、视频数据、音频数据、图片数据以及各种信息系统产生的数据(比如:企业内部办公系统产生的数据、财务系统产生的数据以及医疗系统产生的数据)等。我们通常会将这些数据分为结构化数据:数据间有较强的因果关系,比如刚才提到的各种信息系统产生的数据等;非结构化数据:数据间通常没有因果关系,比如视频、音频、图片数据等;半结构化数据:数据间有较弱的因果关系,比如邮件、HTML文档数据等。

高速(Velocity):大数据的高速特性不光体现在传播速度上,还体现在海量数据的实时处理上。大数据是通过互联网进行传播,所以比报纸、广播等传统数据载体传播速度更快;同时,由于每时每刻都会产生海量的数据,而因为成本的关系,我们不可能将所有数据都永远保存下来,我们通常只会保留处理和分析后那些比较重要的数据或者是最近一段时间的重要数据,因此我们需要及时对海量的实时数据进行分析和处理,从而最大限度地提高数据的利用价值,避免数据的浪费。

价值(Value):大数据的最终目标就是利用人工智能等先进技术从收集到的各种不相关的海量数据中发掘数据的规律和价值,从而帮助我们更好地对未来的趋势和模式进行预测,为我们今后的决策提供强有力的支撑,进而帮助我们改善社会治理、提高生产效率、推进科学研究等。这也是大数据最核心的价值。

大数据的应用

目前,尽管大数据技术还处于发展的初期阶段,但在我们生活和工作的各个方面或多或少都已经有了大数据的应用。相信您一定有以下的这些经历:您最近想买一款蓝牙耳机,你用手机上的购物APP对比了好几款产品,但并未找到合您心意的产品,所以您关掉购物APP决定再考虑一下,当您再次打开购物APP时,您会发现此时您的主界面有很多蓝牙耳机的推送链接,而且这些耳机不管是外形、价格和特点都与您之前看的那些耳机很接近,而且里面很有可能就有您最中意的蓝牙耳机;再比如您是一个军事迷,平常喜欢用手机APP看一些军事相关的文章和新闻,所以您会发现每次您打开相同的APP,主界面里为您挑选的文章和别人APP里的不一样,全是您喜欢的军事题材的文章;再比如,您去银行贷款,银行会要求您填一张涉及个人收入、学历等信息的表,银行会分析并处理这张表中收集到的信息,确定您的信用值以及贷款给您的风险,从而决定是否会贷款给您。

这些都还只是大数据的简单应用,随着物联网的兴起,未来的世界一定是一个高度互联的世界,大数据的使用会使得这个世界更加“善解人意”;到那时,我们要完成很多事情真的可能只需要一个眼神,余下的事情便无须操心。

猜你喜欢
海量因果关系结构化
顾丽英:小学数学结构化教学的实践探索
借助问题情境,让结构化教学真实发生
深度学习的单元结构化教学实践与思考
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
原因的原因的原因不是原因
做完形填空题,需考虑的逻辑关系
探究刑法的因果关系
一个图形所蕴含的“海量”巧题
从教材中突围,走课内海量阅读之路
Hadoop构建的银行海量数据存储系统研究