大数据分析及处理综述

2021-06-06 16:12董学润
中国新通信 2021年1期
关键词:大数据

董学润

【摘要】    如今,数据越来越成为全球科技竞争的制高点,拥有了海量数据就拥有了重要的战略资源。大数据技术在许多领域都发挥了重要作用,大数据技术一般是以大数据分析及处理为核心,掌握大数据分析及处理技术,能获取丰富的数据资源,也能够最大限度的开发数据价值。本文重点介绍大数据分析与处理技术。

【关键词】    大数据    大数据分析处理    大数据发展情况

引言

在当今的大数据时代背景之下,数据发展的脚步会越来越快,数据中包含的信息也会越来越丰富。而要获取数据中的价值,掌握大数据分析与处理方法是关键,本文的目的就是让人们了解大数据处理的关键技术以及大数据未来的发展趋势。

一、大数据的含义

大数据是当前社会科技当中的一个热点概念,各行各业中我们都会听到大数据这个词,但是大数据到底是什么,大部分人却不是很了解。我们当前所说的大数据包含两层含义。一是从表意上来看,人们的各种社会行为会产生相应数据,这些数据汇集在一起,成为表意上的“大”数据,我们也把这样的数据称为基础数据。二是从技术层面来看,大数据是指大数据技术,也就是本文的大数据分析与处理技术。数据资源之所以宝贵,究其原因在于其可以价值化,大数据分析与处理技术正是将数据价值化的途径。[1]从释义上来说,大数据,它的英文名字是big data,是信息技术领域当中的一个行业术语,它是一种信息资产,具有量大、增长率高等特点。大数据的采集和处理没有办法使用普通的分析软件和工具,而需要一个与时俱进的模式才能够挖掘出它的最大價值。

通俗来说,大数据的解释就是大量的数据,顾名思义,就是数量多、范围广的意思,而数据是信息等各方面的数据资料,结合起来就是量多、范围广的信息数据资料。

《大数据时代》中提出了大数据的四个特性:volume、velocity、variety、value,简称4V,中文意为海量的数据规模、快速的数据流动和动态的数据体系、多样的数据类型和巨大的数据价值,这正是大数据区别于传统数据的最大特点。[2]

二、大数据分析及处理过程

在现在这样一种任何网络行为都能被记录,随时随地都能产生数据的时代之中,几乎不存在无意义的数据。大数据分析与处理包括数据的采集、存储、管理、分析挖掘以及数据可视化几个阶段,通过这几个环节我们可以发现很多有用的信息以及一些有趣的结论,甚至可能通过数据挖掘出极大的商业价值。

2.1数据采集

大数据开启了一个全新的时代,在这个新时代下,大规模生产、分享应用数据随处可见,大数据给技术和商业带来了一个巨大的变化。据麦肯锡的一份数据显示,大数据可以使得劳动生产率每年升高0.5-1个百分点,大数据的价值不言而喻。然而,调查显示,没有被挖掘、利用的信息比例高达99.4%,这一窘境很大程度上是因为这些含有高价值的数据无法采集。如何对有价值的信息数据进行采集成为了大数据发展的关键一步。

1、含义

数据采集的另外一个名字叫做数据获取,是指从传感器和其他待测设备等模拟和数字被测单元中自动采集信息的过程。数据采集是进行大数据分析的先决条件,在整个分析与处理过程中占有十分重要的位置。大数据的采集主要有以下三种方式:系统日志采集法、网络数据采集法以及其他数据采集法。

2、方法

(1)系统日志采集法。系统日志可以记录下系统中的硬件、软件等的信息,同时也可以监测系统里的行为。用户可以通过这一过程来检查错误出现的原因,或者时寻找受到侵入时攻击者留下的痕迹。系统日志包括系统日志、应用程序日志和安全日志。(百度百科)大数据平台或者说类似于开源Hadoop平台会产生大量高价值系统日志信息,如何采集成为研究者研究热点。目前基于Hadoop平台开发的Chukwa、Cloudera的Flume以及Facebook的Scribe(李联宁,2016)均可成为是系统日志采集法的典范。目前此类的采集技术大约可以每秒传输数百MB的日志数据信息,满足了目前人们对信息速度的需求。一般而言与我们相关的并不是此类采集法,而是网络数据采集法。

(2)网络数据采集法。除了目前已经存在的公开数据集,用于日常的算法研究外,有时为了满足项目的实际需求,需要对现实网页中的数据进行采集,预处理和保存,这种方法就叫做网络数据采集法,目前网络数据采集主要是通过API和网络爬虫。

(3)其他数据采集法。其他采集法是指对于科研院所,企业政府等拥有机密信息,如何保证数据的安全传递?可以采用系统特定端口,进行数据传输任务,从而减少数据被泄露的风险。

2.2数据存储

1、概念

大数据存储技术是大数据领域的另一个关键数据,人们利用分布式存储代替集中式存储,用更廉价的机器代替之前昂贵的机器,让海量存储的成本大大降低。大数据存储主要利用各式各样的存储引擎,以下就是几个极具代表性的大数据存储引擎。

2、存储引擎

HDFS:大规模分布式数据存储, 对小文件读写相对比较困难。HDFS的特点是比较适合对延时不敏感, 吞吐量比较大的业务, 另外小文件不能太多。

HBASE:HBASE适用于大规模分布式OLTP, 可以无感知平行扩展, 没有固定的概要, 让HBASE增删列非常灵活。既可以通过主键查询, 也可以通过关键字范围扫描, 由于写是顺序写, 非常适合写多读少的场景。类似于IM的数据场景,而且HBASE的数据会按照ID聚合放置,非常适合消息上拉和下拉的场景。

2.3数据清洗

1、概念

数据清洗是一种清除错误数据、去掉重复数据的技术。数据经过清洗之后,可以还保存到原来的数据库中,也可以和数据集成联系在一起,最终保存到集成后的数据库里。

2、步骤

预处理:第一是从分析处理工具中导入所需数据。一般是用数据库来进行处理,具有SQL环境为益。如果说数据量非常大,可以使用文本文件存储+Python操作的方式;第二是查看数据。这一步又包含两个部分:一个是查看对数据进行描述的信息,比如说字段的解释以及数据来源等。二是抽取样本数据,人为观察,大致了解数据的表象,从中发现一些初步的问题,为以后的工作做准备。

缺失值清洗:数据中最常见的问题之一就是数据缺失,处理缺失值由四个步骤组成,一是确定数据缺失的位置和范围,计算出每个字段当中数据缺失的比例,然后按照缺失比例和字段重要性,分别制定策略;二是去除不需要的字段,直接删掉不需要字段即可;三是填充缺失内容,某些缺失值可以根据以往的经验或者知识来进行推测、按照同一个指标来进行计算(中位数、均值等等)或按照不同的指标来进行计算着三种方式来填补;四是重新抓取数据,如果说一些数据对分析来说非常重要,但缺失现象严重,就有必要考虑重新制定科学的策略去进行数据的重取。

格式内容清洗:分析的数据如果说是经过系统日志得来的,一般情况下格式以及内容就会跟元数据所表现的一样。但如果说数据是人工采集的,那么就可能需要进行格式内容清晰,因为此时数据的格式、内容极有可能出现很多的问题。    邏辑错误清洗:这部分的工作是去掉一些使用简单逻辑推理就可以直接发现问题的数据,防止分析结果走偏。主要包括去重、去除不合理值。

修正矛盾内容:字段相矛盾时,我们有必要考究其数据来源,人为的判断哪个字段中的信息更有意义,删除重复的、无意义的字段。

非需求数据清洗:删除不需要的字段。

2.4数据分析与挖掘

数据分析与挖掘是大数据处理环节中的一个核心环节,要得到数据的巨大价值,必须要经过专业的数据分析与挖掘过程,这其中涉及到的知识面较广,需要用到统计学、计算机、数学模型等知识,对分析人员的专业性要求较高。数据分析与挖掘的统计学方法:描述性分析是最基本的分析统计方法,在实际工作中也是应用最广的分析方法。描述统计又分为两大部分:数据描述和指标统计。[3]数据描述:所谓数据描述,是指能够表现数据特点的一些指标,比如数据的时间范围、数据的总量、数据来源等。倘若我们需要对数据进行建模,则所选数据的分布情况和离散程度等指标都得囊括在其中。指标统计:对指标进行统计,主要是为了写分析报告,统计指标可以简单的划分为四个类型。第一类是变化,可以参考数学中的时间序列,指标随时间的变动而变动,具体表现为增幅或降幅;第二类是分布,比如在空间上的分布:不同的国家,不同城市,由如不同群体的分布:不同的年龄、不同的职业、不同的性别等等;第三类是对比,比如说内部对比;第四类是预测,根据现有情况,估计下个分析时段的指标值。数据分析与挖掘的常用工具:R语言、SQL、Python等。

2.5数据可视化

数据可视化,就是将分析完的数据以直观的方式呈现出来。数据之中尽管隐藏着再高的价值,若是不能以一个直观易懂的方式呈现,也就失去了挖掘的意义。数据可视化将数据转换成图或表等,以一种更直观的方式展现和呈现数据。通过“可视化”的方式,我们看不懂的数据通过图形化的手段进行有效地表达,准确高效、简洁全面地传递某种信息,甚至我们帮助发现某种规律和特征,挖掘数据背后的价值。

三、大数据分析及处理发展情况

我国目前的大数据应用环境和技术相对于美国而言,在整体技术水平、应用环境、国民意识、商业环境、技术厂商、技术平台上面有一定差距,在大数据应用的国家战略层面也较为落后。2014年,我国召开了两会,会上提案中,不少人提出建议,将大数据业务作为国际级别的战略来进行推进。一些知名企业的创始人纷纷响应,小米创始人雷军对此大力支持,科大讯飞刘庆峰则创新性的提出了利用声纹数据库来进行反恐。在国家对大数据行业产业的重视和推动之下,如今,我国大数据产业行业发展态势勇猛,向前的势头热烈,以大数据为核心的多种新兴行业异军突起,技术创新的步伐不断前进,在各级政府和部门的支持和推动之下,大数据相关行业的发展不仅极大促进了我国的经济增长,还有力地带动了就业,其支撑能力肉眼可见地逐渐增强。

参  考  文  献

[1] 蔡江辉,大数据分析与处理综[J],太原科技大学学报.2020.05.30

[2]维克多.迈尔-舍恩伯格,肯尼思.库克耶.大数据时代[M],浙江人民出版社.2019.01.01

[3]威廉.M.门登霍尔,统计学[M],机械工业出版社,2018.06.08

猜你喜欢
大数据
基于在线教育的大数据研究
“互联网+”农产品物流业的大数据策略研究
大数据时代新闻的新变化探究
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索