面向空间大数据的分布式存储策略

2019-03-21 11:35唐桂文韩嘉福李洪省
计算机技术与发展 2019年3期
关键词:存储设备分布式服务器

唐桂文,韩嘉福,李洪省

(1.北京市西城经济科学大学,北京 100035;2.中国科学院 地理科学与资源研究所,北京 100101)

0 引 言

现代社会已经进入了产生和使用空间大数据的时代。空间大数据具有数据量大、多源异构性、多时空尺度、多维度等特点[1],在总量上日益膨胀,使得空间大数据的存储逐渐成为一个更独立的技术问题。面对不断增长的空间数据利用与共享的需求,如何将这些空间大数据进行有效地存储和管理,以更好地进行数据共享,成为了一个急需解决的问题。

针对大数据存储,目前主要技术手段有基于Hadoop云计算、基于NoSQL数据库、基于分布式等。

Hadoop以其高可靠性、高扩展性、高效性和高容错性,特别是在海量的非结构化或半结构化数据上的分析处理优势[2],为大数据的处理提供了一种思路。但是Hadoop使用的MapReduce模型更适合简单的统计,无法支持更多复杂的数据分析及可视化展示。

近年来以BigTable、HBase、MongoDB为代表的NoSQL数据库发展迅速,它采用key-value的数据存储模式[3-5],很好地弥补了关系型数据库在海量数据存储中存在的不足,且部署过程简易。此类数据存储方式不用事先为数据建立字段,随时可以自由添加字段,但会增加数据结构解析难度且会产生数据冗余。

基于分布式系统的存储方式主要有分布式数据库和分布式文件系统两大块。分布式数据库是数据库技术与计算机网络技术结合的产物,利用现有成熟的关系数据库技术,将数据存储于数据库中,数据可以分布在多个节点上[6],分布式数据库适用于结构化的数据存储;分布式文件系统是指网络中普通分散的存储节点组成一个逻辑集中的存储设备,存储节点之间通过网络相互通信与控制的文件系统[7-9],分布式文件系统适用于非结构化的数据存储。基于上述大数据的研究,文中提出一种结合分布式数据库和分布式文件系统来存储空间大数据的解决方案。

1 空间大数据分布式存储策略

提出了一种基于iSCSI(Internet small computer system interface,网络小型计算机系统接口)技术构建分布式数据库和分布式文件系统的策略。利用计算资源、网络资源、存储资源等构建数据库服务器集群和文件服务器集群,提供空间大数据的分布式存储环境,并分别结合iSCSI网络存储技术,构建分布式数据库和分布式文件系统,将不同类型数据以不同的数据库表或文件形式进行管理,实现对空间大数据的分布式存储。能够满足结构化数据与非结构化数据的存储,并且具备可扩展性,能满足动态无限增长数据的存储、查询及分析等需求。

1.1 iSCSI网络存储技术

iSCSI是工作在TCP/IP之上的SCSI传输协议,SCSI是块数据传输协议,在存储行业应用广泛,是存储设备最基本的标准协议[10]。iSCSI将现有的SCSI接口与以太网技术相结合,使同一个网络上的多种操作系统平台的服务器可以与使用TCP/IP网络的存储设备互相交换存储资料[11]。iSCSI的体系结构是基于发起端/目标端模式,发起端将SCSI命令和数据封装到TCP/IP包中,再通过网络转发,目标端接收到TCP/IP包之后,将其还原为SCSI命令和数据并执行,完成之后将返回的SCSI命令和数据再封装到TCP/IP包中,再传送回发起端。其体系结构如图1所示。

图1 iSCSI体系结构

1.2 分布式文件系统存储技术

分布式文件系统管理的物理存储资源是通过计算机网络与计算节点相连,每个计算节点可以分布在不同的地点,通过网络进行节点间的通信和数据传输。存储节点也可以分布在不同的地点,其中的存储资源可以是本地硬盘或通过虚拟技术提供的网络块存储设备。其架构如图2所示。

图2 分布式文件系统架构

1.3 空间大数据分布式存储策略

采用分布式数据库存储矢量数据、影像和其他数据索引,分布式文件系统存储影像及其他数据,实现对空间大数据的分布式存储。

矢量数据的传统存储方式有文件、文件与数据库混合、数据库等集中式模式[12]。随着矢量数据规模的不断增大,单节点的处理能力会逐渐成为瓶颈,单点故障的问题也逐渐变得严重。Oracle RAC作为Oracle提供的一个并行集群系统[13],具有两个或两个以上的数据库节点协调运作能力,可提供强大的数据库处理能力。该集群系统中所有数据库服务器采用共享磁盘的方式共享事务与数据,其实现方式有多种,其中最常用的是磁盘阵列,但磁盘阵列价格昂贵,对存储设备的性能要求较高。文中采用iSCSI技术构建分布式Oracle RAC,可将分散的普通服务器的存储设备集中起来,创建数据库共享磁盘,实现分布式数据库,完成对空间大数据中矢量数据、影像和其他数据索引的存储。

在存储节点的服务器上使用iSCSI技术将存储资源通过网络输送到Oracle RAC计算节点,再利用Oracle RAC将存储资源创建成共享磁盘并进行管理,集群内部自动实现分布式存储设备的维护。通过配置共享存储管理空间大数据,在计算节点上分别创建数据库实例,节点之间通过网络通讯,相互监控其他节点状态,所有节点都可以读取数据。其架构如图3所示。

影像及其他数据作为空间大数据的组成之一,具有单个文件大,且整体数据量大的特点,对设备的容量有较大需求,其存储方式由传统的集中式发展到目前的分布式文件系统。常见的分布式文件系统包括NFS、AFS、CODA、GFS等[14],这些分布式文件系统一般需要在Linux操作系统下搭建,而大多数的空间数据应用都在Windows平台下。文中利用iSCSI技术构建分布式文件系统来存储影像及其他数据,能够充分利用零散的存储空间,实现跨平台的分布式文件系统。

图3 基于iSCSI技术的分布式数据库架构

在分布式文件系统的主服务器节点上通过挂载分布式集群,使用文件共享服务软件为选定的目录建立网络共享,将存储空间提供出来,以供网络内的其他服务器进行共享访问,就像访问本地文件一样访问数据。在分布式文件系统架构中影像及其他数据存储在各个节点上,数据能根据相应的规则进行分布。影像及其他数据的索引数据存储在分布式数据库中,与存储在分布式文件系统中的数据本身建立联系。

1.4 空间大数据管理系统

基于上述空间大数据分布式存储的策略,设计了一套空间大数据管理系统。该系统按照四层架构设计,分为基础设施层、数据资源层、组件服务层和系统应用层。总体架构如图4所示。

图4 空间大数据管理系统总体架构

(1)基础设施层:是支撑整个系统的基础设施,主要包含计算资源、存储资源、网络资源以及安全设备等基础设施资源。

(2)数据资源层:是整个系统的数据资源层,提供数据的存储和管理能力。数据资源层基于数据库服务集群,实现空间大数据的快速存取与高效计算,满足空间时空信息浏览、高效分析处理与应用的需求。

(3)组件服务层:是系统基本服务能力的体现,通过功能组件和服务接口向上能支撑应用层的应用构建,向下通过统一数据访问接口能操作数据层的数据资源。

(4)系统应用层:基于组件服务层提供的功能组件和服务接口,面向桌面端、Web端,面向不同接入模式进行应用构建。其中桌面应用主要包括数据更新维护、系统安全管理等,Web应用主要包括二三维数据浏览、信息查询检索、成果数据展示等。

2 试验案例

2.1 数据准备与分布式环境搭建

选用某地区的空间数据作为试验数据,包括高低空遥感获取的影像数据、导航定位数据、外业实测数据、社会经济专题数据、从基础测绘成果提取与整合的数据等,涉及测绘、国土、交通、水文、林业、电力、医疗等多种行业。该试验数据体现了数据量大、多源异构性、多时空尺度、多维度等特点。数据总量约35.0 TB,矢量数据约117 GB,共48个图层,表1列出了其中8个要素多、结构复杂的图层;影像及其他数据约34.9 TB,包括351 GB的DEM、33.8 TB的DOM,769 GB的图片、文档、表格等其他数据。

表1 要素多、结构复杂的8个矢量图层

采用两台服务器构建分布式数据库系统;一台服务器作为分布式文件系统的主节点,十台服务器作为分布式文件系统的子节点,构建分布式文件系统;一台计算机作为系统运行的客户端。

2.2 试验评价

基于上述试验数据和分布式环境,开发了一套空间大数据管理系统。该系统能够有效完成矢量、影像数据的入库,浏览展示,数据投影变换、格式转换等处理,空间数据提取及制图等操作。

基于该管理系统,分别在单节点和集群环境下进行了矢量数据入库、影像数据入库、矢量数据浏览展示的耗时试验,结果如表2所示。

表2 耗时试验结果

试验结果表明,分布式环境下的数据入库与浏览效率远高于单节点环境;并且通过连接更多的计算节点,能够有效提升数据的入库效率,性能得到了明显提升,有助于提高空间数据的分析能力,解决复杂计算的性能瓶颈。

综上所述,该策略能通过网络分布式连接多台普通计算机设备,利用已有的分散的普通计算资源,完成对空间大数据的有效存储。通过这种方式使管理系统具备灵活的分布式体系结构,支持存储资源的动态无缝扩展,能够满足日益增长的数据存储需求、数据二维和三维可视化及复杂空间分析,并且降低了硬件成本。

3 结束语

从空间大数据的存储、应用方面出发,基于iSCSI技术实现了成本低、技术成熟、高稳定性的分布式数据库和分布式文件系统。今后的工作中需要从空间大数据大规模并发访问、并行空间计算、空间大数据的数据挖掘、时空数据管理等角度出发,研究一种更加适用于空间大数据的存储管理机制。

猜你喜欢
存储设备分布式服务器
新一代分布式母线保护装置
山西公布首批屋顶分布式光伏整县推进试点
分布式空战仿真系统设计
基于深度学习的分布式安全日志分析方法
2018年全球服务器市场将保持温和增长
浅析计算机硬件发展史
浅析铁路视频监控存储设备设计
用独立服务器的站长注意了
定位中高端 惠普8路服务器重装上阵
防止USB接口泄密