集群存储技术的分析与研究

2011-02-08 02:13张振庆
中国传媒科技 2011年7期
关键词:视音频存储技术存储系统

文|张振庆

集群存储技术的分析与研究

文|张振庆

前言

随着科技的发展,传统视音频技术和IT存储技术的融合越来越深入。从早期的DAS直连架构,到后来的NAS架构和SAN架构,乃至后来出现的IP-SAN架构,存储技术正在不断向前发展。同时,多年来的视音频存储系统集成经验也让我们彻底熟悉了各种架构的优势及劣势,也积累了一些使用中遇到的问题,诸如:后期扩展复杂,以及扩展后性能不升反降的问题。在这个信息爆炸的时代,大量非结构化数据的引入,正在逐步蚕食我们宝贵的在线存储资源,如何轻松的实现存储扩展?如何使视音频存储系统满足业务不断攀升所带来的性能需求压力?如何实现高性价比的海量数据存储?这是今天我们将要面对的现实问题。集群存储技术的出现,为我们提供能了一种耳目一新的全新体验。

集群存储技术概述

众所周知,目前正在广泛使用的视音频存储大多采用控制器+JBOD磁盘柜的组合。存储的扩展多依靠购买全新的磁盘扩展柜以及硬盘来处理,我们称这种存储结构为Scale-In结构,即:纵向扩展结构。纵向架构就像传统的火车一样,动力机组只有一个到两个,随着客运以及货运车厢的增多,该列车的载客和载物量会有所提升,但是动力及速度将会变低。

随着技术的不断进步,借用动车组的设计理念,出现了集群存储技术,该技术的出现使得传统NAS架构和SAN架构发生了巨大的变化。集群存储架构成为Scale-Out架构,即:横向扩展结构。在这种体系架构下,不再只有两个或者有限数量的控制器发挥I/O处理作用,集群存储中的每一个节点既是存储节点也是I/O节点,数据打散分布存储在不同的存储节点中。就像动车组系统一样,每一节车厢既能载客也能发挥动力作用。采用这种先进的设计思想,使得存储系统的I/O能力得到了很大的提升,同时,此类系统又可以采用X86服务器架构,因此系统扩容更是成本低廉。此外,Scale-Out存储架构更具有扩展方便等特点,一旦发现容量或者性能无法满足业务系统的需要,可以轻松地添加“节点”,实现存储系统的动态扩展。

提供块级访问的Scale-Out集群存储有以下代表:DELL EQUALLOGIC,IBM XIV,Infortrend ESVA等。从图1可以看出,集群存储将多个存储节点进行池化处理,形成存储资源池或者资源组,并按照一定的颗粒度将数据分成小型数据块单位。数据存储时,控制器接收上层文件系统下发过来的数据并在控制器内将其分成固定颗粒度的小块,分布存储在不同的存储节点内,同时小颗粒数据间按照数据校验规则(RAID1/RAID3/RAID5)形成有效的数据保护。

提供文件级访问的Scale-Out集群存储有以下代表:EMC ISILON, HP IBRIX,OMNEON MediaGrid等。在文件级集群存储中,又分为如下技术派系 :

第一类:并行文件系统技术路线,如:OMNEON,龙存科技等;此类产品多采用非对称式单网架构,以PC服务器作为存储节点,由元数据管理节点掌管数据的存储地址,客户端主机根据从元数据管理节点上获取的地址,将一个文件切片然后分布在各个存储节点上。该类型的存储扩展采用Scale-Out的方式,通过扩展PC服务器的节点来扩展整个集群存储的存储空间。

图1 Scale-Out 的IP-SAN

第二类:集群文件系统技术路线,如:ISILON。该类产品对于客户端的存储访问来说具有集群文件系统的特性,即:通过负载均衡算法选择特定NAS网关进行数据存取;文件抵达某一存储节点后即刻进行数据分片,分片后的数据将通过后端的低延迟交换矩阵,上传到其他节点进行分布式存储。

集群存储技术特点

前文介绍了集群存储的技术路线,本节将从性能、安全性、扩展性、访问方式和安装方式以及数据传输模式来介绍集群存储的特点。

集群存储具有高吞吐量、高I/O带宽的特点

高吞吐量,高I/O带宽体现在:集群存储可以将多个不同节点上的磁盘组织成为全局的存储池或者存储命名空间,提供更大的存储容量和聚合I/O带宽,并可以随系统规模扩大而扩展。由于集群的每个节点都有I/O 通道,理论上,集群的节点数量增加,处理客户端响应的节点数量便增加,带宽性能和I/O性能会随之增加。性能不足时,可以继续添加存储节点,既提高了性能,又增加了存储容量。个别的集群存储可以添加专业的带宽加速器,提高性能。加速器可以看作是不带存储职能的集群存储I/O节点,只负责I/O输出输入。

集群存储具有较强的数据安全性设计

安全性方面,集群存储具有较好的保护方式。集群系统可以智能检测集群成员的健康状况,及时发现和剔除异常节点,当发生故障转移时,大部分客户端访问存储都不受影响,个别已经连接到故障节点上的客户端也只会出现短时间的I/O暂停,待存储故障转移结束后,这部分站点的I/O操作恢复正常。同时,集群存储的数据保存可以采用数据复制的保护方式,即每一个数据块都有1份或多份副本存在于其他存储节点。当出现坏盘或者节点损坏时,可以通过其他的磁盘或者其他的节点来恢复数据。

Scale-Out的系统架构,存储扩展方便

可扩展性表现在两个方面,一个是性能上,一个是容量上。性能之前已经提到了,增加集群存储的节点既可增加性能也可增加容量。对于客户端来说集群存储系统是透明的,客户端主机所看到的只是一块大容量的磁盘。当节点A性能不够或者存储空间不足时,可以添加新的节点B进入系统。节点B对于节点A来说,是独立的另一个新节点。但从客户端来看,对于整套系统来说,仅仅是性能和存储容量增大了。客户端依旧访问原来的集群系统,并不知道并行文件系统内部在硬件层面上发生了什么。基于Scale-Out架构的存储系统扩展,不仅保护用户的投资,也增加了系统的灵活性。此外,对于部分产品,其将所有的存储网格组织成大容量存储池(即:全局命名空间),存储池可以分为高性能节点和低性能节点,为不同的需求提供服务。而当有一个节点出现问题,被踢出集群时,数据保护机制可以确保数据的完整性,并不影响客户端使用。

部分NAS集群存储可以支持标准传输协议也可支持私有传输协议

NAS集群存储系统的访问方式分为两种方式:

一种为安装专用客户端程序,采用私有协议进行数据的存储访问。采用该访问方式的集群存储系统可以通过群集IP地址映射全局命名空间。存储空间在客户端操作系统中,可以表现为一块本地磁盘驱动器。

另一种为通过CIFS协议或NFS协议等标准的文件共享协议。在使用共享协议时,客户端主机采用群集IP地址挂载存储空间。客户端以网络磁盘驱动器的方式访问文件系统。

部分NAS集群存储既有文件级的访问方式,也有数据块级的访问方式

NAS集群存储数据输出主要分为两种方式,一种为文件级传输,另一种为数据块级传输。采用文件级传输时,在NAS集群存储中,有类似NAS网关的设备存在,所有的客户端不需要安装任何软件或者驱动,通过标准的以太网络共享协议来访问文件系统,客户端主机将文件交付于NAS网关,再由NAS网关上安装的集群文件系统存储到磁盘中。而采用数据块传输时,其类似SAN存储网络,客户端需要安装客户端程序,数据在以太网络中以并行文件系统的私有协议传输,不以文件形式,而以数据块的形式直接由客户端存储到存储网格的磁盘驱动器内。

集群存储技术在视音频系统中的应用

视音频领域对于存储的使用更关注高速数据迁移带宽以及稳定的视频流读写能力,集群存储系统的并行处理机制使得其较传统存储更具性能优势。而且随着高清时代的到来,视音频文件的体积越来越大,1小时百兆码率节目的体积在50GB~100GB左右。存储池初期设计过小,则很快会被写满,而存储池初期设计过大,则将面临着存储介质贬值的问题,不易于保护投资。采用集群存储架构后,初期的存储池设计不用十分巨大,日后可以随时进行方便地扩展工作。

目前,在视音频应用的业务场景下,考虑到技术的可行性和集成的性价比,播出二级近线存储和视频收录网,比较适宜集成NAS集群存储。而考虑到低延迟高带宽的应用需求,制作网和媒资网则更适宜使用SAN集群存储。

集群存储在播出系统中的应用

对于播出系统的二级近线存储而言,其承担着播出系统的节目备播存储任务。在节目播出的前三天或者一周内,播控系统的备播模块会利用ESB+EMB的互联平台,把制作域或媒资域的节目迁移到本域的二级近线存储。此后,播控系统的迁移工作站根据需要将二级近线存储体内的节目上传到播出服务器的本地硬盘内,以便视频服务器可以实现本地的安全播出。考虑到播出系统对安全生产的苛刻要求,二级近线存储系统的设计应本着架构简单和数据安全的原则。首先,应避免二级存储罢工导致的节目上传服务器失败;同时,应避免二级存储上的数据丢失影响节目播出;此外,一旦二级近线存储发生局部损坏,应具有较快的系统自愈能力,可以在较快的时间内完成不完整数据块的重建与校验。由于近线存储仅仅是数据的迁入迁出,和视音频的关联较弱,故在性能上对存储的要求不是非常苛刻。NAS集群存储可以很好的满足播出系统对二级存储的要求,而且考虑到未来系统的扩展能力,采用Scale-Out架构的集群存储可以为未来的系统扩展预留富有弹性的扩展能力(见图2)。

集群存储在收录系统中的应用

对于收录系统而言,其在线存储区需要具有较大的存储空间,以配合长时间的并发收录任务。目前高清收录一般采用IBP 50Mb/s或I-FRAME 100Mb/s,如果采用百兆码率进行收录,单进程每小时的节目存储量在45GB左右,如果收录站点数量较多,其节目存储量相当庞大。故采用NAS集群存储可以解决收录系统对同一命名空间的大容量需求,实际的业务网络拓扑如图3所示。此外,虽然采集应用属于实时性I/O操作,但单机任务并发少,一般都是单路采集或者双路采集,故收录网整体带宽需求不高,NAS集群存储可以胜任收录网的业务。

图2 集群存储在播出系统中的应用

图3 集群存储在收录系统中的应用

集群存储在制作系统中的应用

对于制作系统而言,目前大部分视频媒体机构都在采用非线性编辑制作网络。在非编网内,多用户可以协同工作,高效地完成节目制作和编辑。该业务系统需要一个全局存储空间,多台非编主机需要同时访问该存储空间内的数据。同时,在节目制作过程中,要有足够的带宽保证数据的传输。例如,使用PAL制式的视频,一个视频流每秒包含25帧数据片元素,那么每个数据片元素最低限度的传输时间是40ms。再配合上工作站点的编解码时间开销,要达到多个工作站点并行工作,对存储网络的延迟要求应该保证在20ms左右。此外,节目制作系统,特别是精编制作网,往往需要同时处理4层到5层的视频编辑和特技叠加,单站点多层实时编辑的需求进一步加大了节目制作系统对高质量大带宽的要求。采用SAN集群存储可以很好的满足制作系统对高带宽和低延迟的双重需求。同时Scale Out的SAN架构也可以从容应对制作系统业务扩展的要求,扩充存储容量的同时还扩展了存储输出带宽。在方案中,集群存储映射给所有主机逻辑卷,元数据服务器将该逻辑卷格式化成SAN共享文件系统,工作站主机进行SAN文件系统的映射。采集工作站首先将文件采集到共享文件系统,之后共享文件系统将数据最终写入逻辑卷。文件系统向低层的逻辑卷写入数据时,由集群存储进行控制将数据进行分片后,经过校验计算,再分布存储到其他存储节点。SAN 集群存储分为IP-SAN和FC-SAN,前者的代表性产品是DELL EQUALLOGIC ,后者的代表是IBM XIV和Infortrend ESVA。SAN集群存储为数据块存储,在视音频系统中仍要配合SAN共享文件系统软件来使用。

集群存储在媒资系统中的应用

媒体资产管理系统主要用于实现节目的数字化采集、编目索引、归档存储以及检索回调等功能。在媒资系统中通常采用双码流技术进行视音频资料的处理。高码流用于归档保存,低码流用于编目检索。对于高码流视音频资料,媒资系统采用分级存储技术进行资料的长久保存。考虑到节目归档需要一定的时间,故在线存储区要有一定的容量,且日后该空间会随媒资系统业务压力的增加而扩展。同时为了缩小节目归档的时间窗口,在线存储区的数据迁移带宽有很高的要求,目前单台磁带机的速度已达120MB~140MB/s,故如果实现较大面积的节目归档,在线存储区对迁移带宽要求是很高的。基于ScaleOut的SAN集群光纤存储将是很好的选择,利用高速的光纤通道,SAN集群存储可以提供更小的数据归档和还原时间窗口,大大提升媒资系统的业务运行效率。在实际运行中,SAN集群存储需要配合SAN共享文件系统软件来使用。采集工作站将基带信号进行数字化的采集,采集到SAN集群存储中,归档迁移服务器根据计划任务将视频资料由SAN集群存储中迁移到数据流磁带库中,长期保存。目前市面上的SAN集群存储均支持企业级SATA硬盘,数据存储的成本更低,所以高码流和低码流素材都可以存储在SAN集群存储内。

结束语

集群存储技术作为新兴的先进技术,除了具有使用简单,扩展灵活和安全可靠的优势外,同时也面临着负载均衡算法有待优化等问题。因此,在考虑选择新型集群存储之前,需要分析特定广电业务系统的特点,以此来确定该业务系统适宜集成哪种类型的集群存储。目前集群存储的造价相对较高,但随着信息技术的发展,集群存储将会逐步走进大部分使用者IT环境中。

工信部电子情报所声像研究中心)

猜你喜欢
视音频存储技术存储系统
分布式存储系统在企业档案管理中的应用
我国首个超高清视音频国家重点实验室在沪启动建设
中央广播电视总台启动建设国家重点实验室
天河超算存储系统在美创佳绩
中央广播电视总台与上海交大共建超高清视音频国家重点实验室
关于计算机网络存储技术分析
多级分布式云存储技术在公安领域的应用研究
数据存储技术的应用
华为震撼发布新一代OceanStor 18000 V3系列高端存储系统
基于内容结构特征的Flash电影视音频特征的提取研究