海绵数据推出大数据操作系统Sponge

2015-06-17 21:48

中国信息化周报 2015年20期

海绵数据近日宣布推出其第二代大数据操作系统产品Sponge。Sponge是一个简单多层，兼容完全POSIX兼容的分布式NFS、Hadoop，支持对象存储、云存储、SDS（软件定义存储）、容器机制，集成Spark为计算引擎，基于内存计算技术的分布式系统，将大数据的存储、管理和计算有机融合，具有实时一致性，易于兼容现有系统，相比10年前诞生的第一代产品Hadoop更加简单易用，易于扩展。仅仅有作为计算平台的Spark不足以应对大数据的挑战，整合后的Sponge技术框架，能够同时支持大数据、云存储、结构化、半结构化和非结构化数据的处理，代表了大数据的发展方向。

简单高效可靠经济

今天已经没有人再怀疑大数据的价值，云计算、移动互联、物联网、机器学习、无人机等前沿技术的普及与大数据的发展相得益彰，不论在美国还是中国，大数据已经在很多的IT企业和传统企业开始落地，譬如互联网金融公司的反欺诈流程，电信运营商的客户服务分析，都贯穿着大数据和机器学习技术的应用，这也刺激着初创企业在这个领域寻找新的商业机会。

目前普遍被采用来应对大数据的是开源软件与廉价的x86服务器的组合，这些开源产品包括Hadoop、Spark、Storm、NoSQL等。传统存储和数据库当然也针对大数据的需求升级，用来存储价值密度低的大量非结构化数据却不现实。这些原本被Google、Facebook、Yahoo等大公司验证在某些场景很成功的开源项目，也存在问题：不同功能模块对应多个相互独立的开源项目，为不同的目的而设计，其关系很复杂，缺乏通用性，系统部署和使用复杂而低效，二次开发困难，并且难以统一管理和监控，维护成本高，所以，需要有一个统一的平台。

李东认为，第二代大数据操作系统和第一代产品的最本质区别在于设计理念的不同，由此架构和实现方法也不一样。第一代的系统即使再打补丁，因为架构的原因也存在无法添加的功能。海绵数据相信，随着社交媒体、智能设备的普及，Hadoop在其诞生环境下自然采用的传统批处理的方式，已经跟不上现在的交互式处理、实时处理的需求，现在我们需要多样化的处理方式，如果部署Hadoop就可能需要并行的两套系统来提供两种处理模式。另一方面，Hadoop版本众多，现在就有1.0、1.1、2.0，生态系统项目的使用也不是一件简单的事情。

简单、高效、可靠、经济，这四个词，是海绵数据对第二代大数据操作系统的价值的追求，以及Sponge产品设计的理念。

满足大量文件数据读写IO的高需求

不同于以往以磁盘计算技术为核心的文件系统，SpongeFS将集群内存管理提升成为文件系统的重要组成部分，以满足大量文件数据读写IO的高需求。SpongeFS基于分布式设计，上文说的Masterless结构，以及模块化架构，正是由SpongeFS来操盘的。

SpongeFS主要由集群管理层、文件管理层和存储层构成。当数据进入SpongeFS，就被分成一个个数据块，每个数据块通过文件管理层先存入缓存层，被加入集群间复制队列，一击加入到持久队列等待存入持久层，CDR则把持久层数据块复制到目标集群（目标群数据块也优先存到缓存层）。文件管理层的基本管理单位是Volume，每个Volume可以有不同的管理设置，如容错性、安全性、物理资源的使用等。