面向物联网应用的大数据平台研究与设计

2023-07-17 07:37舒珏淋曹杨迟雪胥月何加浪周豪
计算机时代 2023年7期
关键词:大数据平台通用型物联网

舒珏淋 曹杨 迟雪 胥月 何加浪 周豪

关键词:物联网;感知数据;大数据平台;通用型

0 引言

大数据、物联网、移动互联网技术的迅速发展,促使各行各业的设备终端通过网络的形式快速的汇聚在一起,这无疑标志着万物互联时代的来临[1,2]。物联网传感器设备在复杂多变的应用场景中,产生了近乎PB 级规模的繁杂种类的感知数据,海量且结构复杂的感知数据背后蕴藏着无限的数据价值,而且大数据技术也扩大了物联网的应用范围[3-4]。然而面对海量的物联网感知数据,其结构复杂多样、质量低的特点导致大量设备数据无效且难以进行统一管理,使得挖掘分析仍然缺乏理论性、准确性和便利性,造成了无法高效的进行价值挖掘。主要体现在①方法简单,仅仅针对单一的业务场景,烟囱式理论的平台设计,造成架构不同,各个应用数据难以联通;②数据平台的建设没有以统一的数据规范标准为基础进行深入挖掘,分析的结果对于实际业务没有太大的参考性。

目前,在物联网大数据领域,许多学者已经利用大数据技术去解决一些相应的实际问题。如文献[5]以大数据技术栈建立大数据平台基础框架,为大数据融合分析处理提供基础数据与资源能力,对煤矿数据统一标准及规范化管理,让数据成为了资产,实现数据全生命周期管理。文献[6]针对于物联网应用设备与平台的差异性,以及耦合度高、扩展性差等导致应用的碎片化,设计了一种面向物联网应用的大数据通用型服务平台,便于使用者根据自己的业务需求在平台上定制服务,实现数据挖掘分析。文献[7]基于交通能源互联网的理念,提出交通能源融合大数据平台架构,以应对业务系统成烟囱式发展,以及信息分布分散、缺乏统筹规划、各系统间数据难以兼容的问题。

这些研究较少涉及通用型物联网大数据平台。因此,本文提出一种面向物联网应用的通用型大数据平台设计。首先以OneData 和OneService 方法理论作为整个大数据平台的设计思路,其次以大数据技术栈作为有力的技术支撑建设大数据平台,并与传统方案进行性能比较,最后以落地的实际场景为例,阐述了面向物联网应用的大数据平台的实际应用,实现了对于物联网感知数据的科学合理管理以及挖掘分析数据价值,为智慧城市的物联网多源数据管理和便捷应用赋能。

1 大数据平台设计理论

1.1 OneData

OneData 是基于大数据存储和计算为载体,是数据整合及管理的方法体系。在这一体系下,期望构建统一、规范、可共享的全域数据体系,避免数据的冗余和重复建设,规避数据烟囱和不一致性,从而,快速响应需求,对外提供高质量服务[8]。本文根据OneData 的数据管理体系,考虑到物联网感知数据的不同业务场景,在进行数据挖掘时候,是需要提前进行规划,因此把OneData 核心思想定义数据只加工一次。

1.2 OneService

OnService 即服务,强调通过API 接口对数据平台里的数据进行访问。数据通过OneData 体系进行整合规范化之后,需要提供给其他部门进行使用,为了更好的性能和体验,构建数据服务层,以统一API 接口方式对外提供数据服务[9]。本文根据OneService 理论,建设数据API 接口服务化,提高数据的共享能力,让数据的使用更加便利。

2 面向物联网大数据平台架构

2.1 大数据平台业务流程

面向物联网应用的大数据平台核心功能是对数据进行统一信息化建设管理,提供物联网应用不同业务以通用型的数据平台进行数据管控。对物联网感知数据资源(结构化、半结构化和非结构化数据)的集成,并利用OneData 和OneService 体系对数仓数据进行规范化管理,建立数据应用模型,提供模型的复用能力,对外以Api 接口方式访问,提供数据的共享能力。有效地挖掘数据的价值,实现企业数据资源的“共享、共用、共赢”[10]。其业务流程主要为:数据源、数据采集、数据存储、数据清洗、数据分析、数据展示。设计流程图如图1 所示。

如图1 所示,本文以此为业务流程,研究并设计通用型物联网大数据平台,在满足于业务需求的同时,解决了物联网感知数据因规模大,类型杂、质量低的特点导致大量设备数据无效,难以管理,同时克服了单一数据平台面临的问题。

2.2 大数据平台架构设计

面向物联网应用的大数据平台是基于Hadoop 架构进行设计,整个架构自下而上主要包括數据源管理层、数据资源池管理层、数据处理层、数据服务层等。架构设计如图2 所示。

如图2 所示,大数据平台总体架构,主要针对物联网感知数据的接入与存储,数据资源池及数据服务系统进行搭建,从而建立面向物联网应用的大数据平台基础框架。

⑴ 数据源管理,数据源的特征决定了数据采集功能的实现方式。因此根据物联网感知数据结构多样性的特征,本文数据源管理设计为数据源接入、数据采集两个步骤,将各类不同数据源的物联网感知数据汇入数据资源池中进行统一管理。

⑵ 数据资源池,数据资源池是数据统一集中管理的位置,将数据分为主题应用数据、感知热数据、感知冷数据、感知元数据、设备数据以及感知数据消息队列等部分,通过集成了时序数据库与关系型数据库的系统架构,将数据进行汇聚与调度。

⑶ 数据处理,将已汇入数据资源池中物联网感知数据数据按照数据类别,分别通过可视化界面,以拖拽的方式进行离线数据处理和实时数据处理,提供对大批量数据的计算能力,并对数据处理任务进行调度与监控。

⑷ 数据治理,数据治理是对整个大数据平台,最大化保障整个数据研发链路,将物联网感知数据的采集、存储、计算和使用过程可控和可追溯。设计上,对数据资源池中数据构建数据资源目录,并进行质量巡检以监督数据质量,使数据成为资产。

⑸ 数据服务,数据处理与数据治理的结果数据也将存入数据资源池中,数据服务则主要提供了数据主动推送、数据API 接口获取、数据加载和数据快速查询等四类数据服务,以实现数据管理中的数据应用。

2.3 大数据平台技术架构设计

为了降低研发成本,大数据平台在技术架构设计上使用的是开源并且稳定版本的大数据组件。通过技术架构中组件的整合,可实现数据集成、数据加工处理、数据存储、数据治理、数据分析、数据可视化。技术架构如图3 所示。

2.3.1 数据层

根据物联网感知数据的结构多样性,采用多种不同数据存储模式相结合的方式,集成关系型数据库与时序数据库,将业务数据、主题应用数据此类结构化存储于MySQL 数据库中文件数据依据文件大小,以HDFS 和FastDFS 的方式进行存储,同时则基于技术成熟的Kafka 和redis 集群构建,提供系统内数据总线及缓存功能;将元数据、设备数据等存储于MongoDB中;对于物联网的感知数据,亿级以上大规模数据量,则需要使用依赖于Hadoop 的Hbase 存储感知冷数据,使用依赖于Hbase 的openTSDB 存储感知热数据,该架构可满足亿级以上的数据量存储需求。

2.3.2 计算层

基于业内广泛使用的Hadoop/Flink 生态圈软件构建,提供分布式计算服务,采用Flink 和Hive 相结合的方式,提供实时数据计算和离线数据计算服务。在离线批处理阶段,以拖拽组件的方式进行数据处理,每个组件功能都以HiveSql 进行封装,其底层为MapReduce 大数据计算框架,能分布式的处理海量的物联网感知数据,提供了一个海量数据的处理能力。在实时处理阶段,采用Flink 计算引擎,其是一个高吞吐、低延迟、高性能分布式流式数据处理框架[11]。

2.3.3 数据引擎

基于业内广泛引用的数据调度和任务调度架构,采用Datax 作为数据调度引擎,Airflow 作为任务调度引擎,对数据资源池和数据处理、数据治理任务进行相应调度,以解决场景下多个任务的依赖问题。Datax为了解决异构数据源同步问题,它将复杂的网状的同步链路变成了星型数据链路,作为中间传输载体负责连接各种数据源,只需要将数据源对接到Datax,便能跟已有的数据源做到无缝数据同步[12]。

2.3.4 应用层

基于业内使用最为广泛、功能最为齐全的Springcloud 框架开发,搭建微服务集群,且能够根据需要水平扩展,并构建服务接口,支持高并发访问。其中内部接口使用Springcloud 的Rpc 接口,对外提供RestfulAPI 接口和Restful 推送接口,把数据提供给展现层进行可视化显示。

2.3.5 展现层

采用前端主流的React/Vue 框架,使用Fusion 或ElementUI 成熟的前端控件,构建Web 界面,提供图形化操作页面。可以把经过平台处理的数据,生成的业务指标进行可视化,提供给管理层人员作为决策依据。

2.4 大数据平台数据流程设计

本文设计的大数据平台采用Lamda 的架构设计,数据流程以离线批处理和实时处理两条线进行数据的挖掘处理,最后以数据Api 的方式提供服务及数据共享。

如图4 所示,首先,外部物联网感知数据需要被数据采集组件采集到大数据平台,最终离线数据存于对应的数据仓库,而事实数据则以Kafka 为数仓进行存储。之后在实时处理和批处理两条通道上对存储于对应的数据仓库里的感知数据进行一系列的加工处理操作。实时处理的计算结果通常会写入一个NoSQL 数据库,以便后续实时查询,批处理的计算结果往往写回分布式文件系统。其次,实时处理和批处理在计算之后得到的数据会注册到数据资源池,成为资产。通过数据治理中的数据质量管理功能对数据进行管控。最后,经过处理得到的资产数据以Api 接口的方式接受访问,提高数据的共享能力。

3 物联网大数据平台性能测试分析

在完成物联网大数据平台部署后,应该测试其性能,以验证本文设计的物联网大数据平台性能更优。表1 为本文设计的大数据平台数据处理方案与传统Java数据处理方案效率对比。其中第一组有服务器3台,某农业物联网感知数据100 万条;第二组有服务器3 台,某农业物联网感知数据500 万条左右;第三组也是一样的服务器台数,查询数据量1000 万条。对比结果如表1 所示。

由表1 可知,基于Hadoop 框架的物联网大数据平台对农业物联网生产的感知数据加载查询速度要比传统方案快很多,工作效率在数据量越大的情况下效率越高。在有千万条数据的情况下,该框架只需要10 分钟左右就可以完成工作,传统框架需要花费1 个小时左右。这一数据差异体现出了本文所设计的物联网大数据平台在海量数据方面的优势。

为了进一步说明,物联网大数据平台的高性能,本文将利用物联网大数据平台的数据采集功能与文献[13]的传统方案HDFS-File-Oracle 进行对比,其结果如表2 所示。

由表2 可知, 在数据量较小的情況下,采用Datax 方案的物联网大数据平台和传统方案并没有明显的差别,但是在数据量较大的情况下,Datax 方案就会越发凸显出自身的优势。从上述的数据可以得出该方案对于海量数据条件下和传统方案相比有绝对的优势,因此在本文的研究之中使用Datax 数据迁移方案作为异构数据源传输纽带是可行的。

4 物联网大数据平台应用案例

基于本文所设计的面向物联网的大数据平台,目前正在试点进行建设与工程实践。项目在设计阶段对于数据的全生命周期管理进行了统一管理,以数据源、数据资源池、数据处理、数据治理、数据服务为核心,完成物联网感知数据的研发链路。

当前项目、平台建设还在初步扩展与完善中,在前期的建设过程中已在安全风险预控、工作面状态评价、生产效率、综合管理等方面取得显著成效。试点部署的物联网大数据平台可视化图如图5 所示。

5 结束语

本文针对物联网感知数据的特点问题以及单一大数据平台的局限性进行详细的分析,研究设计了面向物联网应用的大数据平台,并且通过性能测试以及应用案例进行了验证,得出如下结论:

⑴ 解决了因物联网感知数据规模大,类型杂、质量低而导致的大量设备数据无效且难以统一管理的问题。并且通过OneData 和OneService 理论来应对业务系统成烟囱式发展,以及数据分布分散、缺乏统筹规划和各系统间的数据难以兼容的问题。

⑵ 该平台能够满足于通用的物联网业务场景,不局限于单一的业务。针对不同的业务,在数据仓库里建立不同的模型,得到需要的指标,进行可视化,提供给管理人员进行业务分析挖掘。

⑶ 平台测试以及试验结果证明,在物联网应用所产生的海量感知数据中应用基于大数据组件技术方案,是十分可行的。

猜你喜欢
大数据平台通用型物联网
一种新结构的快换通用型插内齿圈夹具
通用型LED信号机构的应用研究
基于大数据的智能停车场管理系统设计
基于大数据分析的智慧仓储运营支撑平台设计
基于高职院校物联网技术应用人才培养的思考分析
袜业行业大数据平台的应用研究
中国或成“物联网”领军者
施耐德电气睿易系列ATV310通用型变频器
ABB通用型电动汽车直流充电机Terra 53 Z