基于云计算环境的分布式存储关键技术研究

2022-03-27 22:37孙斐然
中国新通信 2022年1期
关键词:数据中心云计算

【摘要】    随着计算机技术的飞速发展,近年来云计算技术的应用也越来越广泛,而分布式存储技术属于云计算环境下常用的核心技术,为进一步提高云计算环境下分布式存储水平,本文研究了云计算环境下的分布式存储关键技术,介绍了分布式存储过程中人们常用的数据中心网络结构,重点对基于复制的容错技术与基于纠删码的容错技术进行了分析,通过这些分析有助于人们进一步了解云计算环境下的分布式存储技术,进而更好的推广应用该技术。

【关键词】    云计算    数据中心    分布存储    容错技术

引言:

最近兴起的典型技术中,云计算属于高速发展的信息技术之一,促进了社会的进步,推动了科学的发展,广泛应用于各行各业。数据中心是云计算的基础部分,是业务操作的提供方,也是决定盈利份额的重要环节。存储技术是云计算中比较关键的地方,可以管理有序、组织高效地实现安全的存储中心数据,帮助用户存储数据。消耗了运营设备多少能量以及构建稳定的中心数据网络等问题,要与研究存储数据的技术同步进行。

一、网络数据中心

云计算的数据中心可以帮助用户选择不同的功能进行服务,由路由转发的节点类型决定。主要包含三种网络结构:混合结构以及服务器或交换机为中心的结构类型,以下将逐一具体介绍。

(一)中心是交换机的结构

网络构建的核心是交换机,连接所有的服务器,还可以转发数据。可细分为树型结构的传统型以及改进型。中心是交换机的属于树型结构的传统型,包含三层:核心和聚合以及边缘。主要缺点有:

1.交换机不能合理利用资源:可靠系统的前提是具备1:1的交换机比例,所以资源具备极低的利用率。

2.带宽不足:树形结构的传统型转发数据时,一定要由路由器上层决定,才能实现用户对服务器的访问,所以带宽不足,导致上层链路无法满足较大吞吐量的路由器,别的服务器更不能顺利接收到分配的任务。

3.灵活性不高:结构紧密联系实际IP节点的使用,且需预留适量的资源在第二层域,因此无法较好的利用资源。而树型结构的改进型可细分为VL2和fat tree胖树型,弥补了传统型的不足之处。

(二)中心是服务器的结构

无需路由器或交换机等设备,各个服务器的连接是通过安装不同网卡实现的。 CamCubeo结构是此类结构中最典型的,服务器之间先进行相互连接,然后在节点处的三维方向再进行两两相连,结构以此呈现环状CAN形式,达到一致的逻辑拓扑与物理拓扑。

结构简单的CamCube具备的优点是:存在较高的链路冗余,底层网络可以和服务器直接交互,避免了单点瓶现象的发生;缺点是:存在很长的路由路径。研究人员经过实验,研发了拓扑结构,原理与De-Bruijintu图类似,可以减少网络路由的相关费用。

(三)混合结构

混合结构包括了服务器以及交换机的两种结构:服务器的连接必须经过交换机,转发数据包要依靠服务器的各个节点来完成,功能最全,适应性最好。BCube和DCell都是典型的混合结构。

设计结构DCell,要综合容错系统和带宽网络这两个因素,可以细分为递归定义结构以及分层结构,低层网络都属于上层网络。DCell扩展网络的顺序是自上而下。DCell无需像树型结构那样查询路由表只能服务器,聚合带宽经过冗余链路后达到更优状态。

而结构BCube的网络数据中心与超立方体类似,模块的组成形式与集装箱相近,在同样的环境里大量构建了连接网络的设备和服务器等。

综合分析三种结构:中心的交换机的结构具备的优点是服务器只负责处理和存储数据的工作,所以负载不用承载过大。而中心是交换机的结构具备的优点是:有较好的扩展性。混合结構的转发设备具备了服务器与交换机的两种功能,其网络结构比较灵活自由,可以达到不同场景的应用需求,构建成本在同样性能的前提下更低。

二、关键技术之数据容错

数据容错属于存储研究分布式领域里比较关键的一项技术。数据容错较好的系统具备更高的可靠性,可以变相促进访问系统的频率,其冗余数据可以在部分数据突然无效时进行正常服务和访来。数据容错的主要技术模式就是靠冗余数据尽可能增加来实现,有诸多的优点:成本不高却能更好的利用系统资源;缺点是:大量消耗和占用了存储资源。基于纠删码的容错技术与基于复制的容错技术都是当前数据容错应用最普遍的两项技术。

(一)容错技术之基于纠删码

当数据容错技术主要核心是纠删码时,第一步就是分割数据为不同的数据块,且每一个数据块的大小都一样,第二步是编码数据块,主要方法是采用编码技术,然后编码块获得编码。编码块直接可以获取相应的数据,解码后即可了解原始数据。

数据编码的不同方法有:low-density parity-check code低密度奇偶校验码以及parity-checkcode奇偶校验码和parity array code奇偶阵列码还有Reed-Solomon码等。

另外,修复容错数据这一步也很关键。当节点在系统中无效时,容错数据修复技术可以将冗余数据快速重构。冗余块以及数据块的度数高低决定了容错修复花费的高低,修复成本随度数的增高而增加。可以采用优化网络编码以及限制度数等方式去减少修复纠删码的成本,主要步骤是:第一种是采用优化度数限制的方式时,编码数据块的过程要同步对纠删码数据块采取限制冗余块和数量的度数,达到减少修复纠删码成本的目的。

比如WEAV-ER码,一个节点可以同时存储冗余块和数据块,冗余块是通过操作数据库得到的,最后进行计算的过程对冗余块和数据块限制度数,就可以减少修复的成本。不过此方式有一个弊端,无法较好的利用存储空间,因为系统需要较高的读取性能,所以需要较大的存储空间来实现,在一定程度上增加了存储方面的开销成本。所以,根据函数概率密度来计算冗余块与数据块和度数的方法,虽然可以实现部分优化效果,但成功的译码次数不高,遇到分布式大规模存储时无法较好的完成。

另外一种是优化网络编码的方式,主要技术是依据网络编码来完成,技术相对成熟,在通信领域较为常用。信息量的大量传输,依靠编码转发的数据包来实现,可以整体增加网络传输的性能。这种优化方法最典型的就是纠删码,也叫再生码,无需对冗余块及数据块限制度数,只需利用固定的编码系数即可得到相应的矩阵。修复数据时,只需要将数据块从存储节点展开融合,就可以得到相应的数据修复,不仅大大降低了带宽成本,还减少了数据量的传输。

(二)容错技术之基于复制

研究者在这个技术领域一般研究两个方面,即数据复制策略和数据组织结构。主要方法是:第一种是数据组织结构。主要研究管理更多副本和组织更多数据的方法,目前研究的数据组织结构主要分为两种:研究组织结构P2P以及服务器是基于元数据。

研究组织结构P2P的核心是利用P2P本身的组织方式,管理并组织不同的节点,使节点之间处于平等的状态,不再另外区分存客户端以及服务器;存储数据的过程,主要的存储方式是哈希表分布式模式,当用户对数据进行访问时,要查询服务器上的数据,找到正确的哈希值以后,才能找到对应的数据存储位置,最后才能顺利获取数据。当前管理元数据的P2P结构最常采用Dynamo,Cassandra系统。这种结构的优点有:系统不会因为节点失效而不可靠,因为无需另外配置相应的中央服务器;缺点是:会有存储不均衡的副本位置现象的发生,因为不具备全局信息导致的。存储数据的组织结构是利用服务器元数据时,核心部位就是元数据服务器,元数据服务器可以存储副本的映射关系以及版本和位置等相关信息属性,可以统一管理诸多的数据。用户要进行数据访问时,必须先确定数据位置,主要方法是利用元数据服务器来确定信息,确定位置后才能根据相关服务器得到用户所需的数据。

另一种方法是数据复制,主要方式是依据存储资源和实时的网络状况以及当前的应用需求来确定。主要研究两各方面的策略内容:副本放置以及数据复制策略。数据复制策略可以分为动态和静态,主要用于创建副本的数量及时机。其中,静态策略的意思是,初始目的为了创建数据定量的副本,并在相应的节点存储这些副本。此策略具备的优点是简单,缺点是较差的灵活性,无法随环境变化同步进行有效的调整。

另外,动态策略的意思是,用户需求以及实时的存储状态,来决定副本删除或动态增加的动作,可以达到均衡的节点负载以及更加合理有效的利用资源。增加系统的容错力度是放置策略的最终意义。当用户无意间丢失了某个数据的副本后,数据的恢复方式可以通过其他副本的访问工作来实现。缺点是:创建的副本会大量占用带宽空间和速度,要大量的时间来完成,所以要综合不同的因素才能选择放置策略。

目前的放置策略主要有两种:随机放置以及顺序放置这两个策略类型。

其中,顺序放置策略的方法是,节点存储所需創建的副本数据时,必须采用特定的顺序才可以。主要优点是:系统具备较高的可靠性,存储数据不会因随机失效而丢失或中断,这种策略一般在哈希表分布式结构和反集群结构这两种模式中被广泛采用。

另外随机放置策略指的是,节点存储大量的数据时,存放数据的副本是被不同的节点随机而选择得,在需要大量数据进行放置的环境中,最常用道德就是这种策略。主要优点是:系统更具备可靠性,不仅可以减少关联失效产生的后果,系统还能获得均衡的节点负载。

三、结束语

当今社会,每个公司和单位在进行数据存储时,最常选择的平台就是云计算技术,随着这项技术的成熟和发展,云计算技术在大数据模式下,也被广泛应用于不同的领域及行业。本文针对云计算环境,研究了关键的分布式存储方法,仔细分析研究了这项技术的主要成果,针对不同的缺点制定相应的方案和措施,经试验,可以对同行业的研究人员提供一定的帮助与参考作用。分布式存储虽然在当前的云计算环境下获得了很多成果,但是大量增加的数据量,依然需要我们解决并研究随之而来的诸多问题,所以分布式存储技术的挑战依然不容小觑。

作者单位:孙斐然    苏州市吴江区融媒体中心

参  考  文  献

[1]郭雁玲.云计算核心技术的优势及其在广电系统中的应用研究[J].现代电视技术. 2019(09):32-34.

[2]游康泽.云计算环境下的分布存储应用及安全机制[J].电脑与信息技术. 2017(02):10-12.

猜你喜欢
数据中心云计算
关于间接蒸发冷机组在数据中心中应用的节能分析
2018年数据中心支出创新高
北京科创新型云数据中心
2017第十届中国数据中心大会榜单
志愿服务与“互联网+”结合模式探究
云计算与虚拟化
基于云计算的移动学习平台的设计
实验云:理论教学与实验教学深度融合的助推器
云计算中的存储虚拟化技术应用
新一代数据中心建设有“书”可循