云计算环境下的大规模图数据处理技术

2015-12-01 03:31
决策与信息 2015年30期
关键词:处理技术云计算



云计算环境下的大规模图数据处理技术

王欣

广州工程技术职业学院 广东广州 510000

[摘要]随着不断发展科学技术,已经逐渐进入到高科技时代,大力发展计算机技术,经过数年的发展得到了很大成果。云计算技术是完美结合互联网技术和计算机技术的一种技术形式,引发IT行业的改革和进步,此外,经过不断深入研究生物信息网络技术等,已经能够广泛应用大规模图数据处理技术,充分符合社会发展实际需求。本文主要分析了云计算环境下的大规模图数据处理技术。

[关键词]云计算;大规模图数据;处理技术

计算机技术中比较常用的抽象数据结构就包括图,相比较树和线性表来说,语言以及结构变得更复杂,存在一定表示能力,实际生活中不少领域都在合理应用图结构,到处都能发现与图有关的应用以及处理,例如传统应用,科技文献引用、预测疾病爆发路径、确定最合理运输线路等。新应用,生物信息网分析、分析语义Web、分析社交网路等。虽然已经过很长时间的发展和应用,但是随着不断发展科学技术,使得出现更多、更大的图规模,需要不断完善理论基础,确保可以高效处理大规模图。

一、云计算简介

在高速发展互联技术的基础上形成了云计算技术,属于全新计算方式,主要核心就是互联网。在2007年云计算被美国IBM提出,这也是第一次提出云计算,依据此,云计算主要就是用来描述一种类型或者一个系统平台中的应用程序,具备数据存储量大、处理能力强、灵活性高以及可扩展性和通用性的优势和特点,目前已经得到广泛应用[1]。

二、云计算环境下大规模图数据处理技术的

图实际上是非线性数据结构,具备一定多对多关系,在图数据中,可以通过零个或者多个直接后继和直接前趋构成相关元素,相比较其他形式结构来说,图数据具备相对更加丰富的语义,已经被大量运用到工程、科研等方面,因为图数据具备非常多的数据量,因此,分析和研究对大规模图数据处理技术已经逐渐发展成为广泛关注的重点。通过不断的研究和分析,已经具备一定水平的图处理技术,日益完善相关技术理论,为应用大规模图技术提供基础和保障,但是由于不断发展信息技术,促使快速发展多种多样的信息,导致存在越来越大规模的图数据,因此,需要适当提高研究而大规模图数据处理技术的力度,为有效处理大规模图数据提供平台[2]。可以从以下几方面进行分析:

(一)云计算环境下存储图数据的方式

在充分研究和分析大量资料和文献之后得到,目前,在应用以及管理大规模图数据处理技术的时候,其中主要包括超图数据模型、单图数据模型两种常用数据模型,上述两种数据模型都可以在一定程度上对无向图和有向图进行相应处理,但是两种方式最根本区别就是不同的存储格式。大规模体数据进行存储的时候,最基本的就是云计算分布式存储系统,可以把云计算分布系统分为分布式数据库以及分布式文件系统两种形式。分布式文件系统中最重要就是HDFS和GFS,能够直接存放临接矩阵和对接表;分布式数据库,也就是说NoSQL,其中最重要的就是Hbase和Big Tabl。分布式数据库可以分为以下将基本数据模型:主要包括KV存储模型、CFS列族存储模型、DS文档存储模型。DS模型具备方便、灵活的优势,比较适合使用存储结构化数据,此模型不适合对图数据进行存储。经过大量数据分析研究表明,KV存储模型十分适合存储大规模图数据,KV存储模型存在支持哈量存储、高并发查询以及模式结构简单的特点,在处理Page Rank等图数据的时候,一般情况不会出现复杂操作,能够符合数据处理的基本需求,如果是利用邻接表的方式形成图数据,Key就是图的源顶点,Value就是出边信息和点的值,可以更加方便的迁移和合并数据,增加空间局部性,大幅度降低处理查询过程中读取数据的次数,可以在一定程度上提高效率[3]。

(二)云计算环境下分割图数据

一般来说,云计算环境中处理大规模图数据,处理方式应该是分布式并行,因为图计算存在一定强耦合性、图数据具备连通性,为了能够更加高效的处理图数据,应该适当降低子图数据之间耦合度,图分割是有效实现目标的主要方式。基本流程是:首先需要分给具备相对比较完整逻辑结构的大图,然后在分布存储系统节点中分别放置分割部分,进行适当处理,并且每个子图启动以后都需要能够具备与之对应的计算服务,在处理完子图以后,就达到处理大图的目的。在上述处理过程总,分割大图以后,能够得到相对比较好的分割效果,但是在对大图进行分割的时候,需要重合分析图规模均衡性以及内部连通性,保证能够降低子图连通性,增加内部连通性,可以在一定程度上影响分布并行处理大数据机制的运行。此外,也应该降低子图规模均衡性,不能形成比较大的偏斜,避免由于过大时间差距影响系统同步性[4]。

(三)云计算环境下的图数据计算模型

现阶段,基于云计算基础上具备两种应用广泛的模型,包括BSP模型以及Map Reduce模型。

1、Map Reduce模型

Map Reduce模型主要包括由多个reduce、map共同形成的并行处理方式,可以把执行任务阶段分为两部分,一是Reduce阶段,在此过程中,Reduce任务会聚集处理接收到的数据,从而得到相关输出结果,并且能够在分布式文件中保存数据。二是Map阶段,此过程中,Map任务会合理计算分配到系统的数据,输出与之对应的key值,然后在reduce任务中映射出相对应的数据信息。

2、BSP模型

BSP模型主要就是说在并行执行消息通信的时候,具备好、数据竞争以及免锁死的运行特点,在云计算环境下处理大规模图数据需要合理使用上述模型,在迭代处理的时候,相比较Map Reduce模型来说,BSP模型具备相对比较高的执行效率。

(四)云计算环境下处理查询图数据

基于云计算基础上,主要存在两种能够支持处理查询大规模图数据的驱动模式,也就是被动遍历模式和主动遍历模式。上述两种模式具存在图顶点是操作对象的共同特点,也就是说操作处理技术的基本关键就是图顶点。第一,被动模式。上述处理模式能够不进行调用处理函数,可以适当降低处理不必要顶点,大量节约资源。第二,主动遍历模式。上述处理模式,具备比较强实用性,但是应用在特定情况下,会形成浪费资源的问题。

结束语

总之,依据云计算为基础,充分分析和研究大规模图数据处理技术,可以发现,在处理大规模图数据中应用云计算技术,能够有效提高处理效率。

参考文献

[1]于戈,谷峪,鲍玉斌等.云计算环境下的大规模图数据处理技术[J].计算机学报,2011,34(10):1753-1767.

[2]李健,黄庆佳,刘一阳等.云计算环境下基于粒子群优化的大规模图处理任务调度算法[C].//2012年第三届中国计算机学会服务计算学术会议论文集.2012:1-8..

[3]赵小换.云计算环境下的大规模图数据处理技术分析[J].中国外资(下半月),2012(5):275.

[4]李东升.云计算环境下的大规模图数据处理技术[J].信息与电脑,2015(8):35-35,40.

猜你喜欢
处理技术云计算
浅议大数据的产生与发展现状
简析常用园林生态水处理技术
浅析城市生活污水处理技术现状及发展趋势
Java千万级别数据处理与优化
志愿服务与“互联网+”结合模式探究
云计算与虚拟化
基于云计算的移动学习平台的设计
实验云:理论教学与实验教学深度融合的助推器
云计算中的存储虚拟化技术应用