什么是大数据

2018-05-10 18:43朱滢颖

数字通信世界 2018年4期

朱滢颖

（广西南宁市第三中（五象校区），南宁 530221）

1 大数据如此流行的原因

现在的社会是一个高速发展、正在走向全面数据化的社会，科技发达，人们的交流方式多样化，生活也越来越方便，随着社会的发展，出现了数据庞大且分散的问题，为了解决这样的问题，大数据出现了。大数据就是这个高科技时代的产物。大数据在社会分析、科学发现、商业决策中的作用越来越大。大数据已经成为各类大会的重要议题，管理人士都希望利用大数据技术进行行业预测。

2 大数据是什么

2.1 人们对大数据的理解

人们对大数据有着各种各样的理解，理解当中存在很多误解，比如：大数据更多的运用于存储方面，大数据即为数据量十分庞大；大公司或者大企业才有能力使用大数据技术；拥有了大数据便可看到想要的趋势或结果；大数据的数据量大，可以将个人隐私深藏保护起来。[3]其实，大数据包括收集、存储和分析，它需要通过技术的支持就可进行，即便是小公司，只要有了相关的技术支持，如爬虫技术、云计算、No-SQL技术，便可使用大数据技术。大数据通过对大量数据的解析才能分析出数据中隐藏的规律，在细密的分析、挖掘下，个人隐私更容易遭到暴露。

2.2 大数据的概念

大数据（big data）也称海量资料，指的是所需要处理的资料量十分庞大，一时无法通过现有的主流、常规的软件工具在一定的时间内进行获取、整理、处理，再整理得到结论，引导使用者可以做出较为正确决策的资料。[4]正如大数据所具四个特征（4个V）。

（1）Volume（数据量大），存储单位从过去的GB到TB，直至PB、EB。1GB（Gigabyte吉字节）=2^10MB=1024MB=2^30B；1TB（Trillionbyte太字节）=2^10GB=1024GB=2^40B；1PB（Petabyte 拍字节）=2^10TB=1024TB=2^50B；1EB（Exabyte艾字节）=2^10PB=1024PB=2^60B；1ZB（Zettabyte泽字节）=2^10EB=1024EB=2^70B。

我们平常中就产生了不少的数据，如淘宝网近4亿的会员每天产生的商品交易数据约20TB；脸书约10亿的用户每天产生的日志数据超过300TB。

（2）Variety（数据类型多），大数据形式的多样性由广泛的数据来源决定，但这种类型的多样性也让数据被分为结构化数据、非结构化数据以及半结构化数据。

（3）Value（商业价值巨大），这是大数据的核心特征，大数据最大的价值在于通过从大量不相关的各种类型的数据中，挖掘出对未来趋势与模式预测分析出有价值的数据。但若只是将一个文件不断地复制，这样的文件量再多也是没有价值的。

（4）Velocity（处理速度快），这是大数据与传统数据挖掘的最显著区别，与传统的广播、报纸等数据载体相比，大数据借着互联网、云计算等方式实现，因此数据的交换、传播速度远比传统方式快的多。数据的增长速度和处理速度是大数据高速性的重要体现。

2.3 大数据所需要的技术

大数据依赖于获取数据技术和分析数据技术。大数据通过获取数据，才可得到大量信息，进而分析数据。获取数据的主要方式（渠道）：

（1）面向有着足够人数使用的服务器或系统的日志进行信息采集。

（2）利用网络获取数据技术，如爬虫技术，可对整个网页页面的信息进行收集，例百度贴吧当中，楼主、贴主发送贴子的时间、内容截取下来储存分析；数据库采集也是一种方式，比如大公司的数据库、大众常用的中国知网、万方、维普的数据库。

分析数据技术是大数据的核心技术，并且分析技术是多种多样的，如：数据仓库、数据库、数据挖掘技术、社交网络分析技术、信息检索技术、自然语言处理技术、云计算、No-SQL技术。

现在使用较为普遍的是由Apache基金会研究开发的分布式系统基础架构Hadoop，而Hadoop的框架最核心的设计就是为海量数据提供储存的HDFS和为海量数据提供计算的谷歌大法宝MapReduce。

2.3.1 存储原理

HDFS（Hadoop Distributed File System），其设计之处就是为了提高超大文件的存取和读取速度，它的读取方式是把超大文件分割成多个block（数据库中的最小存储和处理单位）在多个dataNode（存储节点，一般有多台机器）备份并存储的，小文件并不会因其容量小而得以提高访问和读取速度，反之可能会降低。[1]并且HDFS还具有高吞吐量访问、高容错性、容量扩充的好处。HDFS由Namenode和Datanode组成。Namenode是管理文件的命名空间，并且能够记录节点的信息，但它不能进行永久保存。Datanode是文件系统的工作节点，负责存储和检索数据块。在HDFS中，Namenode相当于一个管理者Datanode依靠Namenode进行节点内文件的重建。因此，Namenode相当重要，一旦失去Namenode，HDFS就无法正常运行。为了尽量避免因运行Namenode的机器挂掉而导致系统中文件丢失，Hadoop提供了两种容错机制，第一种是将本地硬盘中的重要文件备份，也就是Hadoop通过配置让Namenode将它持久化的文件写录到不同的文件系统中；第二种是运行一个辅助的Namenode，即第二Namenode，它能保存合并后的命名空间即namespace image（namenode管理文件资源）的一个备份。

2.3.2 处理原理

MapReduce是一种编程模型，用于大规模数据集（＞1TB）的并行运算。Map（映射）和Reduce（归纳）是其主要思想。[2]（脚标百度引用）Mapreduce是大数据当中不可缺失的组成成分，为大数据提供分析和计算处理技术。Mapreduce在运行中主要分为五个阶段：input阶段，Hadoop将Mapreduce的输入数据划分成等长的小数据块，即输入分片，Hadoop为每个分片构建一个map任务；Map阶段，运行过程中对某种输入格式的一条记录解析成一条或多条记录；shuffle阶段，对中间数据的控制，作为reduce的输入；Reduce阶段，对相同key的数据进行合并；output阶段，按照格式输出到指定目录。

2.4 大数据的应用实例

以汽车行业为例子，汽车本身就是智能化的，各种智能传感器，信息收集器都能提供大量的数据来源，比如汽车的使用周期，汽车行驶的公里数，汽车的型号；其次汽车维修中心的数据收集能力强，包含汽车零部件的使用年限、汽车维修保养的频率等信息都会成为庞大的数据被采集、挖掘而后产生新的商业价值。

车企和车商可以利用汽车的大数据这一有效资源，打造一个以汽车周边为主的生态商业圈，包括汽车的保险，汽车的内部装饰，汽车检修服务，洗车服务等方面。这一商业生态网络利用大数据技术，在获得诸多数据资料的同时，进行解析，让商家得到能够了解客户需求的信息，便于商家对销售产品作出相应调整，以及推出新的商业方案，获得更大收益。

3 大数据是怎样运行的

图1 大数据的运行

第一步，将由用户所使用的pc端、andorid端、ios端、Web，以及服务器日志、数据库得到的数据资源上传至Nginx服务器。第二步，基础框架Hadoop提供存储技术（HDFS）和数据分析处理技术（Mapreduce），把数据分块存储后，用Mapreduce进行第一轮分流处理，并放入第一个数据库中，再用Mapreduce做二次处理，处理后的数据放入第二个数据库。第三步，经数据的转换，使通过大数据收集、处理后的信息在发掘出其更大的价值之后，得以更加直观地以文字的形式展现出来。

4 结束语

大数据是庞大的信息资料，依靠Hadoop中的HDFS的文件分割储存和Mapreduce的分流式处理对数据采集、解析，得到信息中蕴含的更大价值，这为人们作出决断提供了可参考的信息，因此大数据受到高层管理人士和科学研究分析领域人士的重视。大数据加快社会的进步与发展，各行各业与大数据相结合后发现了新的机遇，不仅是便利了人们的生活，更是推动了科技的进步。通过大数据，人们获得了大量数据背后所隐藏的规律，这样更能让人们做出更贴合事物客观发展规律的决定。

[1] 翟永东.Hadoop分布式文件系统（HDFS）可靠性的研究与优化[D].华中科技大学，2011.

[2] 李建江，崔健，王聃等.MapReduce并行编程模型研究综述[J].电子学报，2011，39（11）：2635-2642.

[3] 戴明锋，刘展.大数据理解误区解读[J].中国卫生信息管理杂志，2015，12（1）：61-63.

[4] https：//baike.baidu.com/item/%E5%A4%A7%E6%95%B0%E6%8D%AE/1356 941?fr=aladdin.