基于Hadoop 技术的船舶柴油机大数据处理平台

2023-07-22 08:05吕志峰
舰船科学技术 2023年11期
关键词:分布式计算数据量柴油机

吕志峰

(江苏航运职业技术学院,江苏 南通 226010)

0 引 言

柴油机是船舶推进系统的重要组成部分,船舶吨位的不断增长对推进系统提出了更高的要求,在这种情况下,柴油机的功率越来越大,结构也越来越复杂,柴油机运行的可靠性和稳定性尤为重要。对柴油机的监控得到的数据量不仅包含数字量,同时也包含很多的高精度模拟量,从这些数据中获取有用的数据是一个非常庞大的工程。不仅要求对所有的数据进行存储,同时还要对大量的数据进行分析,必要时还需要建立柴油机的监测模型,使用大数据技术对柴油机的相关参数进行监测和处理。

对船舶柴油机的监控一直是国内外研究的热点,特别是对柴油机故障的诊断必须依赖于柴油机相关参数的监控。张新宇[1]提出一种基于大数据处理的柴油机SCR 系统,并提出用户行为会对SCR 系统造成影响。熊威[2]认为传统的柴油机故障诊断方法存在一定局限性,这主要是由于船舶上的数据采集和处理速度受到嵌入式处理器的限制,同时数据的安全性也无法得到有效保证。大数据平台技术为柴油机的监测和故障诊断提供了一个新的方法,为此本文提出一种基于Hadoop 技术的船舶柴油机大数据平台。该平台能够实现对船舶用柴油机数据的实时采集、存储、查询和分析,同时也为后续的柴油机故障诊断提供良好的基础。

1 Hadoop 技术

1.1 HDFS

Hadoop 是一种分布式基础架构,Hadoop 技术中有2 个最重要的组件,分别是HDFS(Hadoop Distribute File System)和MapReduce,依靠这2 个组件,Hadoop技术可以实现大数据的存储和处理。Hadoop 技术具有高可靠性、低成本、高扩展性以及高效性,同时它还支持多种编程语言,可以有效降低项目的开发时间和成本[3–5]。

在大数据处理平台中,对数据的存储至关重要,因而HDFS 在整个Hadoop 技术中的地位也相当重要。图1 为HDFS 的存储架构,可以发现,HDFS 对数据的操作依赖于若干数量的DataNode 以及NameNode,DataNode 是数据节点,负责存储大数据平台所有的基础数据,而NameNode 则存储映射表,这个映射表也不是一直不变,而是通过DataNode 不断上报的信息进行更新,这一点主要通过Heartbeat 来实现。映射表中存储了不同数据的位置信息以及副本的数量,这样在客户端发起读数据的请求后,通过NameNode 就可以获取该数据的具体内容[6]。

图1 HDFS 读写过程的实现Fig. 1 Implementation of HDFS read and write process

NameNode 和DataNode 保持数据通信,这样就可以不断地更新数据,同时也可以接收NameNode 的一些操作命令,包括对数据的复制、删除等,客户端同时也可以直接向DataNode 发出命令进行操作,为了实现具体的操作,DataNode 之间需要根据一定的通信协议要求进行合作。

在船舶柴油机大数据平台的搭建中,为了保证数据的完整性和准确性需要考虑数据存储的安全性,在HDFS 中通过副本实现,大数据的存储通过不同的数据节点实现,因而将柴油机的数据存储于一个数据节点,此数据节点位于机架1,而将另外一个副本储存在机架2 上的另一个数据节点,因而可以最大程度保证数据的完整性和可靠性。同时当一个数据节点出现故障时,HDFS 会识别出当前数据节点的机架号,并将该节点上的数据备份到另外一个机架上。

1.2 MapReduce

为了实现对柴油机监控数据的处理,除了要使用HDFS 对数据进行存储、删除、查询等操作外,还需要对输入的数据进行进一步分析和计算,在这个过程中,MapReduce 是实现这一功能的关键。在Hadoop技术中不仅可以实现分布式存储,同时还可以实现分布式计算[7]。

在柴油机相关数据输入后,使用MapReduce 进行分布式计算的主要过程如图2 所示。分布式计算主是将柴油机监测数据按照一定的规则进行分类,将其分成多个Split,JobTracer 将计算任务合理地分配给MapperTask,Shuffle 负责将从上一步获取的数据分发到ReducerTask,ReducerTask阶段则会将MapperTask 所获得的结果进行汇总,最后得到总的输出结果。

图2 MapReduce 实现分布式计算的过程Fig. 2 MapReduce implementation of distributed computing

2 基于Hadoop 技术的船舶柴油机大数据平台

2.1 系统整体设计

本文设计的基于Hadoop 技术的船舶柴油机大数据平台整体结构如图3 所示,整个平台包括3 层,分别是应用层、大数据层以及数据采集层。

图3 系统整体设计框图Fig. 3 System overall design block diagram

图4 写入速度和写入时间测试结果Fig. 4 Write speed and write time test results

1)数据采集层。这一层主要是负责对柴油机的数据进行采集,一般使用嵌入式系统并结合以太网、现场总线等方式实现船舶柴油机数据的采集和传输。嵌入式系统具有良好的实时性,因而在完成对船舶柴油机数据的采集后使用CAN 总线或者以太网,将数据发送到大数据平台进行分布式存储和计算。

2)大数据层。这一层中使用HDFS 对柴油机监测数据进行存储,完成对数据的离线分析、BI 分析以及实时查询等操作。

3)应用层。应用层是和用户实现交互功能,提供友好的用户界面,通过用户界面用户可以定制出在大数据平台上需要实现的功能,包括数据挖掘、数据查询以及数据分析,并输出可视化的结果和图表等。

基于Hadoop 技术的船舶柴油机大数据平台实现了分布式存储和分布式计算,因而系统实现的功能主要包括:

1)对船舶柴油机数据的实时采集,包括包括燃油子系统、润滑子系统、进排气子系统以及冷却子系统的相关参数进行采集,具体的采集参数如表1 所示。

表1 船舶柴油机大数据平台数据采集参数Tab. 1 Data acquisition parameters of marine diesel engine big data platform

2)由于采集的不同参数的数据格式完全不同,因而在采集完成后需要对数据进行标准化,本文使用的数据标准化方法主要包括离差标准化以及归一化等方法。

3)为使用者提供人机界面,能够完成对数据的可视化统计和分析,同时可以完成对柴油机历史数据的查询、删除等操作。

4)可以根据需求扩展现有系统的功能,支持二次开发。

2.2 系统测试

为了验证本文设计的船舶柴油机大数据平台数据存储以及分析的功能,搭建试验平台。试验平台包括4 台电脑,这些电脑的配置及相关指标如表2所示,其中1 台电脑上安装有船舶柴油机大数据平台软件,另外3 台电脑作为从机节点,在每台电脑上配置好相应的开发环境后,对文件的读写进行基本测试,测试文件来源于编制好的柴油机基本数据集合,每个文件大小在100~110 Mb。

表2 试验环境硬件参数Tab. 2 Test environment hardware parameters

大数据平台最终目标是对海量的船舶柴油机数据进行采集并处理,因而需要处理的数据量较大,同时也要求有较高的数据读写速度,只有这样才能满足系统设计需求。因而本文使用2 个试验来检验搭建的平台性能,一个是多文件的写入速度测试,另外一个是柴油机数据排序的效率。

1)在船舶柴油机大数据平台应用程序中编写对应程序,测试在数据量相同(2 G)的情况下,不同文件数量时文件的写入时间和最大写入速度,得到的结果如图5 所示。可以发现在相同数据量的情况下,文件数量和写入速度成反比,和写入时间成正比。

图5 排序测试结果Fig. 5 Test result of sequencing

2)采集的柴油机数据包括采集时间、采集参数、参数的数值等,为了提升数据存储效率,需要对采集的数据进行排序,以便更好地分布式存储。同时船舶柴油机大数据平台在排序时根据采集时间、采集参数的种类等可以提供不同的排序方式。本文利用软件设置对不同采集参数进行统计和排序,可以得到不同采集的所有采集结果。

一般在进行排序时只采用一个MapTask,但是这样就无法体现出Hadoop 中分布式存储和计算的优势,因而在实验中设置MapTask 为4 个,并且将不同采集参数作为分类标准,设置对应数量的ReduceTask。对不同大小的数据进行测试得到结果如图5 所示,可以发现数据量越大,船舶柴油机大数据平台对这些数据所耗费的时间越多。

3 结 语

随着船舶柴油机技术的不断发展,对柴油机实时监控并从监控的数据中对柴油机故障进行分析势在必行。由于柴油机实时采集数据量较大,当船舶数量较多时就会产生大量的实时数据,本文提出一种基于Hadoop 技术的船舶柴油机大数据平台,能够实现柴油机数据的分布式存储和计算。通过一系列的测试表明,本文设计的船舶柴油机大数据平台可以满足船舶柴油机数据的存储和分析需求,并且具有较高的可靠性和扩展性。

猜你喜欢
分布式计算数据量柴油机
基于大数据量的初至层析成像算法优化
计算Lyapunov指数的模糊C均值聚类小数据量法
高刷新率不容易显示器需求与接口标准带宽
宽带信号采集与大数据量传输系统设计与研究
美国FCA 推出第三代EcoDie s e l V6 柴油机
谭旭光:柴油机50年内仍大有可为
基于云计算的移动学习平台设计与实现
云计算中MapReduce分布式并行处理框架的研究与搭建
面向异构分布式计算环境的并行任务调度优化方法
现代柴油机的技术发展趋势