分布式大数据管理系统的设计与实现研究

2019-05-23 10:44朱兰英

电脑知识与技术 2019年5期

朱兰英

摘要：随着计算机技术的高速发展，大数据、物联网等领域在不断地生长。大数据的兴起，为海量的数据处理与存储提供了平台。而依靠传统的数据库已经无法适应大数据的应用，分布式数据库在大数据背景下得到了快速发展。大数据技术在实际的应用中容易存在一些现实难题，因此设计一款基于分布式大数据管理系统非常有必要，能够为大数据的采集与存储提供无限可能，同时还可以提高数据处理的能力。

关键词：分布式；大数据；管理系统

中图分类号：TP315 文献标识码：A 文章编号：1009-3044（2019）05-0025-02

大数据在检索信息时，效率仍然是一个需要解决的重点问题，设计一种新型的分布式大数据管理系统，提高大数据检索的效率，将其应用到海量日志的检索中，对海量数据进行分析，实现大数据的实时处理功能。

1 分布式大数据管理系统结构组成

大数据对数据处理的要求非常高，在数据采集、数据存储以及数据检索方面的效率都有非常高的要求。一般情况下数据采集的效率要达到MB/s以上[1]，数据存储要达到PB级。传统的关系型数据库无法满足这一高難度的要求，一些容量大的关系型数据库应运而生，这些数据库的特点都是在Key-Value的基础上进行读写，缺少对多列数据的检索，无法完成复杂的操作，同时还容易受到缓存条件的限制，无法快速地进行数据的采集和检索，处理效率低下。为了更好地解决这种问题，提出了一种基于Hadoop和NoSQL两种技术联合的分布式大数据管理系统[2]，能够有效地解决其他关系型数据库存在的效率低下以及存储条件限制的问题。

中央控制集群在整个系统运行过程中起到一定的控制功能，比如获取用户的检索请求，并对用户提出的请求进行检索；对系统各个部分的状态进行实时监控，并及时处理系统异常；取消特定的集群任务；对整个网络连接资源进行优化，保证系统的安全稳定运行；

大数据采集集群是整个系统的入口，大数据采集集群中的进程作为执行单元，能够在多台机器上同时开启数据采集功能，提高系统的采集效率；还能够对多台机器进行操作，开启缓存，并在中央控制集群的帮助下实现周期性缓存写入[3]，让存储集群能够永久的保存；

大数据检索集群是用户与系统之间的交互接口，通过自定义的命令向中央控制集群提出请求，中央控制集群会根据大数据检索集群提出的要求对系统的运行状态进行快速检索，让永久存储集群进行查询，并将结果进行汇总后反馈给数据检索集群，通过视图的方式为用户呈现最终的信息；

大数据永久存储集群是分布式大数据管理系统的仓库，能够对数据进行永久性的保存，通过数据采集集群的周期性特点对数据进行定时更新，利用数据采集的方式进行存储，有利于提高工作效率；

其他功能集群是为分布式大数据管理系统提供的一些可编程的拓展窗口，是为了方便日后根据用户的需求增加新的集群功能。

2分布式文件系统

2.1 分布式文件系统的架构组成

Master/NameNade节点的任务主要是进行数据存储，对文件系统的目录以及日志进行管理，同时还要与ChunkServer进行通信，完成发送指令、搜集状态的功能，保证数据块的完整性，对状态进行维护；创建数据块并实现负载均衡；对DataNode的空间使用进行负载均衡；对访问请求的数据进行负载均衡；对数据块进行处理，并将其分布到ChunkServer中。如果数据库的冗余量较小，需要进行复制；对冗余的日志记录进行删除；对隐藏的文件进行回收；同时对陈旧的数据块进行检测并删除。

Master/NameNade的性能优化，对单点故障进行解决时，需要利用多个Master节点进行热备，如果主节点出现损坏，需要即进行处理；支持多个映像文件，对映像文件进行操作后可以将其同步到副本中；Master不进行文件的传输，只保存原始的数据；采用客户端缓存的方式进行存储；DateNode使用本地文件系统的方式进行数据块的存储；采用机架感知的方式可以进行数据冗余，这样可以有效地提高系统的可靠性。

2.2设计思路

将文件进行划分，将其分成若干块进行存储，每一个文件块都有固定的大小，可以进行随意配置；利用冗余的方式提高系统的可靠性，每一个数据块上至少需要有三台以上的服务器进行冗余，才能够保证系统的可靠性；利用Master server对数据访问进行协调和处理，保证数据的统一性；不对Cache进行集中设置，文件操作大部分是流式读写的方式，不能进行大量的重复读写；在Data Node上进行数据存储，需要使用本地文件进行存储。

3分布式大数据管理系统的算法分析

3.1 分布式大数据管理系统的数据结构

分布式大数据管理系统作为数据结构的主要组织数据，数据存储单元中的每一条记录中都包含了多个字段，且每一张表中都包含了一个特殊的描述文件，这个特殊的描述文件是用来管理整张表的数据信息，比如表的结构或者表的结构类型等，这类文件主要存储在中央控制集群中，当用户对系统提交查询请求时，中央控制集群会根据数据表进行查询。系统会根据没一张表都对语言进行统一改进，从而实现一种专用的数据查询分析语言，保留标准的SQL格式，其语法格式为：

create table T1

drop table T1

select*from T1 where name=”DBDMS”

上述表示为创建新表；删除新表；查询符合特定条件的记录。

在分布式大数据管理系统中的永久存储急群众，数据是通过列的方式进行组织的，所有的字段都需要按照一定的顺序进行排列，通过还要根据不同的类型进行保存，当容量过大时会以文件为存储单元进行保存，此时这个文件就称之为数据块，数据块就是作为数据采集和检索的一个最基本的单元，用来存储数据中的信息。分布式大数据管理系统中以分块的方式进行分类整理，同时需要将数据块都存储到中央控制集群中，以提高数据查询的效率。

3.2分布式大数据管理系统的核心算法

3.2.1系统数据查询算法

系统数据查询算法流程如图1所示，主要分为5个步骤进行：1）用户需要提交检索的请求，将检索的请求发送给数据检索集群中；2）将数据检索集群中的信息反馈给中央控制集群，中央控制集群会对用户提出的信息进行迅速定位；3）中央控制集群需要先在块索引中进行目标查找，如果有索引信息直接发送查询命令；如果没有信息需要封装查询命令，通过广播的方式将信息存储到永久的存储集群中；4）数据永久存储集群根据查询的条件进行查询，如果找到需要将结构进行反馈，如果没有找到则继续进行广播查找，直到找到结果为止；5）中央控制集群需要将查询的结果进行反馈。

3.2.2块索引查询算法

中央控制集群接收到用户的请求后会进行数据的解析，然后对查询的条件进行优化，将优化后的数据进行目标检索，查询算法流程如图2所示：

在图2中，查询条件解析与重新组合模块有两种查询条件，一种是分类查询条件，另一种是组合查询条件，如果包含塊索引分类信息，可以直接找出缓存中相应的块索引，对数据永久存储集群发送查询信息，等待目标数据的返回；如果不包含块索引的信息，在常规的条件下需要进行条件查询、分组查询以及模糊查询，根据某种特定的元素进行查询，同时可编程的接口能够为数据提供更多的查询条件。使用块索引查询算法能够大大地提高查询的效率。

4实验分析

为了对分布式大数据管理系统的性能进行测试，利用某一个网站作为被检测的对象，对不同的时间段的日志记录进行检测。对分布式大数据管理系统中不同的集群系统进行环境的配置。配置完成后系统会持续运行两个月，通过数据采集集群进行数据存储的记录多达上亿条，在数据永久存储集群中占据内存为20TB。分析数据检索的效率，在一天之内，该系统存储的日志记录多达5亿条，检索的效率与时间段在不断增长，可见分布式大数据管理系统的检索效率比传统的关系型数据库效率高出很多。

5 结束语

通过实验结果进行分析，分布式数据管理系统对大数据进行检索时优势明显，在不同的时间段以及检索条件的组合下，检索的效率比传统关系型数据库，适用于海量数据的处理。

参考文献：

[1]付华峥，陈翀，向勇，等. 分布式大数据采集关键技术研究与实现[J]. 广东通信技术， 2015， 35（10）：7-10.

[2]基于大数据的日志管理系统的设计与实现[D].沈阳：东北大学， 2014.

[3]王伟，廖正宇，张辉，等. 基于大数据的铁路信号系统数据存储与分析系统设计与实现[J]. 信息网络安全， 2017（1）：29-37.

【通联编辑：谢媛媛】