探究大数据处理过程中的数据质量影响

2020-12-30 16:08李康
网络安全技术与应用 2020年8期
关键词:可用性数据源预处理

◆李康

(成都三零盛安信息系统有限公司 四川 610031)

目前,大数据技术是广泛应用于各领域中的重要技术之一,通过处理与分析总体数据、关注事物之间存在的关联性,分析预测出发展趋势。大数据是由社交网络、监控设备、移动计算、传感器等信息源产生,数据来源具有复杂性、多样性,对大数据技术运行带来较大的数据提取难度,也影响了大数据质量。

1 大数据质量的界定

1.1 大数据质量

大数据是指数据巨大,已经无法通过人工方式合理化截取、管理、处理、整理。大数据类型多样化,包括结构、非结构、半结构数据,还包含系统、传感器、社交媒体产生的数据等。从数据格式角度,大数据还包括文本、图片、数值、音频、视频等数据。为了实现大数据有效解读,大数据技术、大数据平台、大数据应用被研发而出。根据大数据定义与特征,大数据质量是指数据分析、处理、预测等过程满足用户需求。在处理大数据时,处理流程如下:收集数据、预处理数据、存储数据、分析与挖掘数据、展示数据、应用大数据等。在此流程过程中,数据质量贯穿于每个环节中。

1.2 大数据质量维度

1.2.1 数据真实性

大数据真实记录了数据变化及运行模式,显示其原始质量,体现在数据可信性、真实性、来源与信誉、有效性、可审计性等方面。大数据存在于虚拟网络中,会受到恶意性攻击,导致“数据产生污染”,影响决策结果,应采取有效措施保证真实性与客观性,保障大数据价值挖掘与趋势预测的效果。

1.2.2 数据完整性

大数据采集具有完整性,体现在采集时间段完整、数据属性值完备、数据值无缺失等。大数据运行时能够从大量数据甚至是海量数据中全面、完整地刻画事物,分析出事物的本质与规律,为用户提供完整性的数据分析。

1.2.3 数据一致性

数据一致性是指同构/异构来源数据、格式、数据编码具有一致性的特点,能够在预处理时应用检测技术过滤出不一致的数据,保证数据一致性。实现数据一致性是保证数据准确性的基础,也是保障结果质量的重要元素。

1.2.4 数据准确性

数据准确性不只包括采集数据准确性,还含有预处理数据准确性、分析结果准确性。可见,数据准确性是从采集数据开始直至分析整个过程实现数据准确性。数据准确性决定分析结果的价值,不同数据应用的数据准确度要求也不同,应用目标与决策需求决定的。

2 影响大数据质量分析

2.1 数据收集环节

开展数据分析工作时,第一步要开展数据收集工作。收集数据的来源不同,并且是由机器自动生成,再利用网络传输功能传输至指定位置。收集的数据内容是由企业或者组织决定的,针对某种来源收集所需信息,比如用户购买的产品数据,分析出某种产品的热度等。在收集数据时,可通过设备收集、Web“数据爬取”收集方式获取。在数据收集过程中,对大数据质量真实性、一致性、完整性、准确性、时效性、安全性等会产生较大的影响。

2.1.1 数据源

数据源是影响大数据质量的重要因素,体现在数据源来源于各种网站、系统、传感器设备等,只有在安全运行、避免恶意攻击与篡改的条件下,才能保证大数据质量。同时,数据源运行是否具有稳定性、无间断性,是保证大数据完整性的关键环节。不同数据源之间实现统一编码与互相协调是实现同构或者是异构大数据一致性的重要条件,数据源之间要同步与协作。可见,数据源是影响大数据真实性、完整性、一致性、准确性和安全性的重要因素。

2.1.2 数据收集方式

收集方式决定着大数据时效性质量,设备在收集数据时均收取实时数据,采集、处理、分析方式为流式数据模式,保证时效性质量。如果是Web数据,收集方式为网络爬虫,需对爬虫软件设计时间,保证数据时效性质量。因此,收集方式是影响时效性质量的重要因素。

2.2 数据预处理与存储环节

大数据技术运行时,会存在数据预处理环节。由于采集的多个数据源,比如文件系统、服务接口等会受到噪声数据、冲突、缺失数据值的影响,会导致数据不准确,通过预处理环节保障原始数据准确性,进而促进分析与预测结果的准确性与价值性。预处理的工作内容是清理数据、集成数据、数据归约、转换数据等,数据清理技术可以检测出不一致的数据、识别噪声数据等,可保证大数据一致性、真实性、准确性、可用性;数据集成的工作内容是集成多个数据源数据,形成集中、统一数据库等,保障大数据完整性、安全性、一致性、可用性;数据归约是降低规模的重要措施,简化数据处理过程,并且不会对分析结果准确性产生影响;转换数据是利用规则或者元数据转换、模型与学习转换等技术转换数据并统一化,可提高大数据一致性与可用性。可见,数据预处理是影响大数据质量的关键因素。

2.3 数据处理与分析环节

大数据处理应用的是分布式技术,需根据存储形式与业务数据开展。在处理大数据时计算模型包括MapReduce分布式计算框架、内存计算系统、流计算系统等。MapReduce属于批处理数据的过程,能够分析与处理海量数据,适合应用于各种结构化、非结构化数据处理工作中;应用内存计算系统能够缩减数据读写与移动开销的次数,提升处理性能;流计算系统实时处理数据流,保证大数据时效性与价值性。可见,任意处理技术对大数据质量都会产生较大的影响力。

3 保障大数据质量的建议与措施

3.1 采集数据中实施数据保护与数据源辨别措施

在采集数据时,特别是采集他人数据时,企业应避免敏感信息的收集、统计,还要保护用户的隐私。同时,收集到数据信息后应辨别与验证数据来源,保障数据具备真实性与有效性。

3.2 存储保障

在存储环节可借鉴传统信息技术手段,实现数据具备可用性、完整性、私密性要求。比如,采取设置冗余方式保证数据可用性、应用校验技术达到数据完整性、利用访问控制技术与安全审计功能提高数据安全性等。

3.3 全局管理处理流程

在管理采集数据、预处理工作、存储数据、处理与分析环节、可视化时,应注重全局管理与不同环节之间的协调与连贯管理,比如在存储数据时应注重存储形式,选择的数据处理系统是否能够有效分析处理采取到的数据类型,还要考虑是否能够达到准确性与可用性的要求,优化大数据质量。

4 结束语

综上所述,大数据技术是当下先进的技术之一,企业应注重大数据技术的应用,保障大数据质量,从而不断开发与分析大数据,获取最有价值的信息应用于发展决策中,从而得到最大的成功。

猜你喜欢
可用性数据源预处理
KR预处理工艺参数对脱硫剂分散行为的影响
核电站DCS可用性测试应用研究
求解奇异线性系统的右预处理MINRES 方法
污泥预处理及其在硅酸盐制品中的运用
机构知识库网站可用性评价指标的计量学分析
利用属性集相关性与源误差的多真值发现方法研究
云科学工作流中任务可完成性预测方法
Web 大数据系统数据源选择*
基于预处理MUSIC算法的分布式阵列DOA估计
关于数字图书馆网站的可用性框架研究