大数据在网格环境下提升访问速度的研究

2016-05-19 13:30李明马梅娟禹伟
电脑知识与技术 2016年7期
关键词:大数据

李明++马梅娟++禹伟

摘要:网格是当今信息社会一种基础的网络设施,它的功能是实现互联网上所有资源的互联互通,把物理上分散在各地的服务器联合成一个抽象的整体,并转化成一种随手可得、统一标准,并且经济上可行的能力。随着时代发展,同时具有海量的数据规模、迅捷的数据传输、复杂多样的数据类型和价值密度低为主要特征的大数据如雨后春笋般出现,而网格恰恰提供了这样一种平台,能提供身份授权识别、多数据资源的分配共享、进程动态调度。

关键词:大数据;网格服务;大数据资源

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)07-0014-02

随着大数据时代的到来,各种应用数据存储的不断增大。在生物计算、天文研究、天气预报等科学研究领域,涉及的文件数量甚至达到TB或者PB量级,如何减少访问时间和提高访问的效率,在普通网络环境下对同时具有海量的数据规模、迅捷的数据传输、复杂多样的数据类型和价值密度低为主要特征的大数据进行访问、并集成到应用工作流变成一种不堪重负的包袱。当要使用分析这些Big Data Source时,用来进行数据查询、访问和集成的数据结构机制不再适应现实工作的需要,出现了一些应用系统一直处于超负荷状态,数据信息之间的交换和硬件资源的共享也存在缺陷,有些软件和硬件资源得不到有效的应用。本文通过设计新型层次结构模型和访问通道,较好的屏蔽底层计算处理的复杂性,更好的实现对大数据、海量数据的快速访问和存储。

1 构建网格环境下的数据库系统

网格[3]是作为当今信息社会最基本的一种基础网络设施,能把物理上分散在不同区域的服务器联合成一个抽象的整体,并转化成一种随手可得、统一标准,并且经济上可行的能力。它支持身份授权识别、多数据资源的分配共享、进程动态调度。

构建在网格中应用数据库系统[1],需要设计提供一个中间件,各种不同的应用管理系统包装成不同的Grid Service[1],方便网格应用存取网格数据库,并根据数据的访问标准,设计出统一调度使用的数据接口(Data Interface),提供用统一方式来命名的关系数据库、XML数据库和文件数据库中数据资源,提高了数据库访问的速度和效率。

2 数据访问方式的新型层次结构方案设计

从系统应用的角度来看,网格环境下的大数据资源共享由网格数据服务(Grid Data Service)[1]为基础,最底层由SQL Server、Oracle、计算机等网络硬件资源,第二层由相关各种应用系统数据库、文件系统等数据资源组成;第三层是实现海量大数据资源共享功能的关键,该层对外提供的服务,都是由上一层GDS接口来对外发布。第四层是资源服务层及汇集层,能提供网格数据服务(Grid Data Service,GDS)[3]、网格数据仲裁服务(Grid Data Mediation Service,GDMS)[3] 、网格虚拟数据服务(Grid Virtual Data Service,GVDS)[3]及副本选择,第五层应用层为用户提供高级的抽象服务,实现大数据资源的共享和查询,具体的网格环境下大数据访问方式服务模型如下。

1)构造层:新型层次结构的最底层是以SQL Server、Oracle、计算机等位基本组成元素,为数据快速访问提供物理资源保证。

2)资源层:该层由各种Application System Database和File System等组成,这些Big Data Resource都统一定位为抽象资源,具有独立、不同形式的访问方式。

3)接口层:该层主要是对各种访问Grid Servers接口进行描述,为用户提供统一的访问的大数据资源(Big Data Resource)接口,它包括各种不同应用系统提供的接口。

4)资源管理服务层:本层功能是管理多个BDR,提供数据访问和副本管理功能。包括GDS、网格数据仲裁服务(Grid Data Mediation Service,GDMS)[3],网格虚拟数据服务(Grid Virtual Data Service,GVDS)[2-3]。

5)用户应用层:第五层是与BDR共享应用最为密切相关的一层,其核心作用是为客户端提供更高级的抽象服务,并且根据客户端需求,通过GDS接口层向网格服务层提出查询请求,查询到满足请求的结果并返给客户端,更好的实现数据资源及相关数据资源间查询和共享。

3 访问速度提高解决方案

为了实现对BDR透明、开发的管理,快速访问数据资源接口,每次运行都需要不断地重复读取和连接BDR,造成用户要访问该BDR时,虽然BDR空闲然而数据连接却经济被占用,造成了BDR 已经被使用的现象,影响了整个数据库的服务和运行性能,形成了BDR访问效率不高的现象,这个问题可以通过Cache technology得到有效的解决。

在绝大多数不相同技术环境条件下,BDR的用尽,并不是由于应用的正常负载过高,而是在于其他不同数据库应用系统使用共同一个资源的原因。在BDR之间的传递和共享过程中,BDR大部分是主要环节资源,各种不同的应用系统都会使用相同的BDR,假设某个应用用光了全部的BDR后,意味着其他的应用程序也无法有效的进行工作。在现在的OGSA-DAI数据存取和集成(Open Grid Services Architecture-Data Access and Integration)[1,3]集成中间件中,并没有设置对不同数据库进行连接和访问的缓冲区,只提供了对关系型数据库和XML数据库的直接连接接口。在OGSA-DAI集成中间件[2]在网格数据服务组件支持下实现对BDR的控制,如果我们在Grid Data Service的读取数据端建立一条访问通道,就可以实现对BDR的控制,并有效提升访问的速度和利用空闲的数据资源。具体方法如下:

1)我们通过继续保留使用原来Grid service访问数据源的通道。

2)在获取该BDR的通道上,我们需要开辟一条虚拟的指向数据连接缓存的通道。

3)连接缓存区一边指向BDR服务,一边指向其他不同的Physical Data Resource。

4)我们设计的通道间构成“并联”的关系,能有效提升访问速度。

5)访问不同数据源时,可首先访问Data source connection cache,只有当缓存池中“数据连接”查询不到或者不存在时,才能直接查找Application DB信息。

6)对BDR数据访问结束后,保存数据连接并进入缓冲池,以获取对缓存池中短时间没有运行过或刚刚被关闭的BDR的访问,通过这种访问方式,极大提升了对BDR使用效率,访问方式如下图所示:

4 发展展望

网格环境下对大数据存储、管理和分析存在诸多挑战,其中大数据存储和访问已成为数据研究的热点方向之一。如何在网格环境下,提升大数据访问的速度和准备高效的应用分析能力是数据管理的关键问题。本文针对大数据进行分析,提出了一种新型的层次结构模型和数据访问速度提升的方法,提升强大的海量数据处理能力,有效解决数据庞大、数据不精确带来的诸多问题。

参考文献:

[1] 李明. 网格中机构代码数据访问方式的研究与实现[D]. 东营: 中国石油大学, 2010.

[2] 毛华坚. 云环境中的移动文件存储和时空数据分析关键技术研究[D]. 北京: 国防科技大学, 2013.

[3] 公剑. 基于网格的异构数据访问与集成的研究与实现[D]. 上海: 上海大学, 2006.

猜你喜欢
大数据
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路