大数据技术及其发展综述

2021-12-02 07:24唐林英张超
科学与生活 2021年25期
关键词:数据源数据挖掘

唐林英 张超

摘要:随着互联网技术的蓬勃发展,信息化技术已经深入到人类生活、军事、科技等方方面面,21世纪以来,数据呈现爆炸式增长。本文主要介绍了大数据的概念与特性,归纳了大数据相关技术以及我国大数据的行业应用,最后总结了当前大数据发展困境以及发展趋势。

关键字:大数据、数据挖掘、数据清洗

1、引言

当今世界的任何一个角落,遍布各种移动设备、传感器、社交网络等,它们每分每秒都在产生各种数据,据统计全球数据量每18个月翻一番,因此,大数据也受到越来越多的行业和专家的关注,不可否认,我们已经进入了大数据时代。

大数据是一个复合型领域,包含了大数据工程、大数据技术以及大数据应用等多学科交叉的领域,其中大数据技术是指能够从海量数据中提取、清洗、挖掘、分析与结果解释,快速获得有价值的信息的技术,通过大数据技术能够帮助人们做出正确的预测、评估发展趋势,衍生出更多未知的知识,提高各个领域的生产效率等。大数据技术是一项面向实际应用的技术,随着流量时代的到来,大数据技术的应用也更加广泛,收益与潜力也更加惊人,科学家与企业家们对此都寄予厚望。

本文主要分析和归纳了当前大数据技术的主要内容,总结了当前大数据发展的困境并预测了未来大数据技术的发展趋势,希望可以为大数据研究提供相关参考。

2、大数据技术概述

大数据作为一门新兴技术,还没有形成完善的、统一的技术标准,比较公认的说法就是4V特征:Volume(容量大)、Variety(种类多)、Velocity(速度快)和Value(价值密度低)。主要包括以下技术:

2.1 数据采集

数据获取是通过数据采集工具采用一定方法采集原始数据输入到系统内部的过程,是整个大数据技术全过程的最初始的一步。目前我们研究的大数据获取领域非常广泛,主要来源于两方面:一是虚拟世界里各种网络数据,如用户交互数据、移动设备数据等;二是现实世界中的一些科学实验数据和传感器数据。据统计,这些数据有百分之八十以上为半结构化数据和非结构化数据,且同一时间可能出现数以亿计的数据信息,考虑到数据的异构性和并发性,目前主流的大数据采集方式有两种:MapReduce分布式并行处理模式和基于内存的流处理模式。

2.2 数据抽取与清洗

在大数据技术中,数据抽取与清洗位于数据获取之后,其实可以分成两个步骤来看,数据清洗的主要工作是将多种数据库运行环境中的数据进行整合与处理,然后设计新数据的存储结构并定义与源数据的转换机制和装载机制,以便能够准确地从每个数据源中抽取所需的数据,并将这些结构和转换信息作为元数据存储起来;而数据清洗则是在保证数据质量的前提下从数据量巨大、数据类型丰富的大数据中得到干净、完备的数据集。

数据抽取过程是检索全部的数据源,按照某种标准筛选符合要求的数据,并将被选中的数据送到目的文件中。通常在数据抽取前会做大量的工作去了解数据源的类型,以及采用哪种数据库,根据数据的特征制定不同的抽取方法。数据抽取方式分为全量数据抽取、增量数据抽取。

数据清洗相对来讲时一个比较新的研究领域,尤其不同领域对数据质量的要求不统一,因此针对不同领域需要制定不同的清洗算法,对数据清洗算法的衡量标准主要包括:返回率、错误返回率、精确度。

目前对数据清洗这块的研究主要是:不完整数据的清洗方法、异常数据的清洗、重复数据清洗以及文本清洗。

2.3数据集成

数据集成是指将不同来源、不同格式、不同特点与不同性值的数据在逻辑上或物理上有机地集中、存放在一个一致的数据仓库中,使后续的数据分析与数据挖掘提供全面的数据共享,使用户能够以透明的方式访问这些数据源。

数据集成要考虑的核心问题一是异构型,被集成的数据源往往使来源不同的异构数据模型,其数据语义、表达形式、和数据源的使用环境不同都给数据集成带来很大的困难;再者是分布性,考虑到数据源往往分布在不同的地区和网络中,需要通过网络传输来完成数据集成,这中间就要考虑数据的安全性问题以及传输性能问题。

2.4数据分析与建模

大数据分析指通过应用技术和分析工具把自有数据整合起来分析与理解,从而得到有价值的信息,重点在于数据挖掘。

数据挖掘融合了数据库技术、人工智能、机器学习、数据可视化等最新技术的研究成果,重点在发现未知的模式与规律。数据挖掘的過程需要建立、选取挖掘模型,一般常用的方法就是样本学习,先取一部分样本数据建立模型,再用其他数据来反复测试、验证该模型,注意的是当样本较小情况下,要提高随机性保证效果。数据挖掘是一个反复的过程,通过不断地产生、筛选、验证结果集,才能获得有意义的解。数据挖掘有关联规则挖掘、分类、聚类、序列模式挖掘、web挖掘、空间数据挖掘、非结构化文本数据挖掘。

3大数据应用

随着大数据的普及,全球许多国家都意识到了数据资产的重要性,纷纷发布了大数据发展战略,我国也把大数据技术提升到了国家战略层面上。目前我国大数据技术应用行业较深的有电信、政务、医疗、交通等。

电信行业无疑是我国最大的大数据来源,涉及移动语音、无线上网、家庭宽带等多类业务,目前国内运营商运用大数据主要有以下方面:利用大数据技术合理分配基建资源和基站选址、通过流量分析对网络设备和运营进行优化;基于客户资料和通话行为等刻画用户画像,实现精准营销和个性化推荐;通过大数据分析手段从网络、用户、业务等多维视角监控运营管理和客户管理。政务服务是国家党政机关的基本职能,在大数据浪潮下,智慧政务登上舞台,例如电子身份证、网上办事平台等实实在在起到了便民作用,尤其在19年末20年初,新冠疫情席卷全球,大数据技术在助力我国抗击疫情、恢复生产上起到了很大的助力,随之还催生、推动了“无接触经济”的发展。京东图书大数据在医疗、交通方面的应用更是融入到我们的日常生产、生活中,例如现在的智慧医疗、电子病历等,交通道路的实时监控、出租车的实时定位、交通费用以及违规记录等。

4大数据技术发展困境

虽然大数据技术具有较强的应用前景,但是目前而言存在以下问题:

1、采集到的数据源不够丰富,不同领域、行业、单位之间数据交流缺乏统一的标准,导致数据往往只在内部流通,形成数据孤岛。需要制定一个通用的标准来实现数据交流、共享。

2、缺乏先进的数据开发软件平台和分析算法,在大数据处理、分析、展示等方面均落后国外,难以满足各行各业发展需求。

3、数据资源建设相对不足,缺乏完善的管理与运营机制。针对据所有权、隐私权等相关法律法规和信息安全、开放共享等标准规范缺乏,技术安全防范和管理能力不够,尚未建立起兼顾安全与发展的数据开放、管理和信息安全保障体系,制约了大数据发展。

参考文献:

[1]何友,朱扬勇,赵鹏,等.国防大数据概论[J].系统工程与电子技术,2016,38(6):1300-1305.

[2]徐超,陈勇,葛红美,等.基于大数据的审计技术研究[J].电子学报,2020,48(5):1003-1017.

[3]刘昕,王晓,张卫山,等.平行数据:从大数据到数据智能[J].模式识别与人工智能,2017,30(8):673-681.

[4]何清,李宁,罗文娟,等.大数据下的机器学习算法综述[J].模式识别与人工智能,2014(4):327-336.

猜你喜欢
数据源数据挖掘
数据挖掘技术在内河航道维护管理中的应用研究
图表中的交互 数据钻取还能这么用
数据挖掘综述
软件工程领域中的异常数据挖掘算法
Word邮件合并功能的高级应用
基于R的医学大数据挖掘系统研究
信息系统集成与数据集成策略研究
Word邮件合并应用浅析
数据有增加 图表自适应
基于角色控制的异构数据展示在企业门户中的应用