基于Spark的工业大数据能效分析平台的设计与实现

2021-01-10 12:01刘喆

科技信息·学术版 2021年7期

摘要：信息技术的快速发展以及互联网的广泛应用，引发世界各国先后实施“再工业化” 战略。互联网在数据传输、软件管理、信息化应用等方面的强力保障为包括物联网在内的各项技术应用打开了大门。通过新兴技术提升工业智能化水平，提升企业的竞争力，以智能制造为主导的全球化工业革命已提上日程，工业智能化将成为构建未来工业体系的关键所在。以工业互联网为基础的工业大数据分析技术及应用将成为推动智能制造，提升制造业生产效率与竞争力的关键要素，是实施流程管理智能化、生产过程智能化、制造模式智能化的重要基础。

关键词：工业大数据;能效分析;spark设计

随着企业生产的扩大化，最直观地是数据成指数级增长，更为重要的是，数据源越来越丰富，由原来单一地从数据库中获取生产历史数据扩展为生产管理日志、设备运行数据、以及声音、图像、视频等多维数据，传统的数据分析管理手段无法应对企业迫切想提高生产效率的需求。因此，設计并实现一个工业大数据分析平台来实现对企业数据的统一化管理，并挖掘这些数据潜藏的巨大价值，进而指导生产，提供决策支持，推动企业生产由大批量生产制造向个性化服务制造转型具有重要意义。

一、我国基于spark数据平台设计现状

目前存在许多能效管控系统，但这些管控系统还存在以下局限性[1]：（1）针对性不强目前多数化工企业使用的能效监控平台只是对部分生产流程进行简单的流程监控与分析，很少有将企业运行数据统一整合到能效分析平台中，并将这些数据与生产能效、生产成本等企业关注的重点问题进行关联，从而有针对性地对企业给予决策支持。（2）可扩展性与可维护性差传统的生产流程管理系统多数都是基于特定的组态软件的，都需要企业在工控机安装专门的组态软件。为了在工业大数据时代实现节能降耗以及产业结构转型的时代要求，落实工业生产技术与信息技术的深度融合，并完成对能效的管控以及能源管理决策支持，工业大数据能效管控平台具有极为重要的作用。

二、基于 Spark 的工业大数据平台设计

2.1 平台总体设计

本平台以实现一个基于 Spark 的工业大数据能效分析平台为设计目标，集成了工业大数据的存储、分析与挖掘等功能，为企业众多业务提供决策支持。从功能上来说，本平台具有以下几个重要功能：（1）对企业各项数据的采集，并完成预处理。对能效的相关工艺参数进行统一设计，并对多源异构的工业数据实现统一存储，为后续数据分析提供数据支持; （2）对能效进行定义，结合先进的机器学习算法进行评估统计，针对评估结果给出节能降耗以及改善生产、提高能源利用效率的有效建议; （3）对整个企业能效进行管控，保持平台运行良好的稳定性; （4）支持分析结果以及数据存储的可视化查询，能够对分析结果有多方面，多角度的展现，帮助用户有效地理解数据分析结果。除了以上功能外，平台还具有以下性能：（1）高扩展性：平台应该能够根据需求的扩展以及负载的增加，能够通过增加硬件来完善需求以获得更为强大的性能; （2）鲁棒性：平台应具备相当程度的容错设计，使得在系统故障时，保障尽量多的机器正常工作，保证任务的继续进行;

2.2 数据集成

数据集成主要工作是将多源异构的大规模数据进行统一归置，包括数据清洗、格式转换、标准化等工作。平台工业过程数据的来源主要包括以下几个部分：（1）工业设备及产品中内置的传感器采集的实时流数据，这些数据包括设备的状态信号以及产品的实时质量参数;（2） Flume 日志收集系统采集的应用服务端数据，将散布在不同地方的工业生产日志统一收集，并且该日志收集系统提供了通过其与平台的紧密融合，将数据统一发往平台。

2.3数据存储

（1） key-value 存储：是 NOSQL 中应用最多的存储方式，典型的系统有 Redis、 Tokyo Cabinet、Amazon Dynamo等。Key-value 是通过 Hash 函数实现从 key 到 value 的映射，在进行数据查询时通过查找 key值寻址到数据存储点。这种存储模型简单快速，利于对数据的横向分割，在大规模数据群中也能有较高的操作性能。key-value 数据模型中的 value 可以包含多个列，实现多层嵌套映射，也叫 key-column 存储，Google 的 Big Table系统和 Hadoop 开源框架中集成的 Hbase 都是以这种数据模型进行存储。（2）基于文本的存储：典型的应用有 IBM 的 MangoDB等。基于文本的存储模型对数据的结构要求相对宽松，无需预定义为统一结构。主要还是以 key-value 为基础，一般存储格式为 JSON 或类 JSON 数据列表，存储效率高，但缺乏统一的查询语法，加重了编程人员的操作负担[2]。针对工业大数据的多源异构性，提供类似适配器的数据接口，实现数据的统一访问，屏蔽掉数据间的异构性。数据适配就是提供多个配置文件使得数据访问时通过配置文件解析出数据库的连接信息，而后对相应的数据库访问。

三、总结

随着企业生产的扩大化，数据最直观地是成指数级增长，更为重要的是，数据源及其表现形式越来越丰富，由原来单一地从数据库中获取生产历史数据扩展为生产管理日志、设备运行数据、以及声音、图像、视频等多维数据，传统的数据分析管理手段无法满足企业迫切想提高生产效率的需求。在此背景下，本文研究了基于 Spark 的工业大数据能效分析平台，

参考文献

[1]刘强，秦泗钊. 过程工业大数据建模研究展望[J]. 自动化学报，2016，42（02）：161-171.

[2]周佳军，姚锡凡，刘敏，张剑铭，陶韬. 几种新兴智能制造模式研究评述[J]. 计算机集成制造系统，20 17，23（03）： 624-639.

作者简介：刘喆：2000.07.12 身份证号：370283200007120024、女、汉、山东青岛平度、大学本科研究方向：大数据工程

科技信息·学术版2021年7期

科技信息·学术版的其它文章: 地质测量工作在矿井生产中的作用探析; 基于人工智能的计算机网络技术分析; 风机工作方式对侧壁风冷机箱散热效果的影响; PL-2400排土机控制系统存在的问题与改造; 机械制造工艺与机械设备加工工艺分析; 高清转播车中IP化音频系统的设计及应用