大数据时代地理信息系统的应用分析

2022-02-18 06:33宋富玲
科技创新与应用 2022年5期
关键词:嵌套空间数据海量

宋富玲

(山东建材勘察测绘研究院有限公司,山东 济南 250000)

新时代背景下,大数据的衍生有效突破了传统数据存储与处理技术的局限性。而地理信息系统受海量空间数据属性和数据处理快速响应需求的限制,对大数据的应用有着迫切需求。但传统专家学者对大数据在地理信息系统中的应用进行研究时更倾向于整体方向,忽视了将大数据应用到地理信息系统时的技术研究。对于此,围绕着数据存储和数据处理2 个方面对地理信息系统中大数据的应用进行探究时,还需要根据大数据的MongoDB 和Dremel 2个功能提出具有针对性的解决策略,以此有效推动地理信息系统应用的创新与改革,真正为大数据时代下地理经济系统的应用提供技术层面的支持。

1 地理信息系统应用大数据的必要性

受传统数据存储技术不发达的影响,地理信息系统在初期阶段主要是依靠RDBMS 进行数据处理,或者将文件和RDBMS 进行有机结合实现综合管理,如GIS 软件GeoStar 就是通过这种方式进行管理,其属性数据仍以RDBMS 管理模式进行处理,而图形、音像、DEM 则是利用文件系统进行管理[1]。但GIS 软件原本就涵盖了空间数据和海量数据的特征,在数据处理方面也有着快速响应的迫切需求。这意味着基于RDBMS 的传统数据存储和以统计学、数据挖掘为主的传统数据处理技术已无法满足新时代发展需要,也无法适应GIS 数据存储和处理需求。而大数据时代的到来为地理信息系统提供了全新的改革思路,并且大数据处理方式与传统数据处理方式还存在以下几点差别。首先,大数据面向的是所有数据,也就是全样本数据,而非通过抽样的方式进行数据处理。但传统数据处理方式无论是站在统计学的角度还是数据挖掘的角度,都需要抽取一定的样本进行数据研究与分析。其次,传统数据处理方式更依赖于统计学中的数据因果关系,而大数据可以完全忽视数据的因果关系,只需要参考数据信息的关联性。与此同时,传统RDBMS 处理技术对精确度和一致性提出了较高的要求,但在可扩展性上却具有一定的弊端,而大数据包含了形式多样的数据类型,因此其必须具备良好的可扩展性,在计算结果的精确性上并未提出较高的要求。此外,尽管RDBMS 的数据处理方式也有着并行计算的功能,但其过度追求一致性和容错性的特点决定了这种数据处理方式注定无法如同MapRduce 这类大数据并行处理技术一样,具备秒级计算的可用性和可拓展性功能。最后,相比于以结构化数据为主的传统数据处理方式,大数据处理方式下的数据类型综合涵盖了数字、字符等结构化数据、员工简历信息这类半结构化数据以及音频、视频等非结构化数据,在数据实际处理过程中不但面临着较高的难度和庞大的任务量,还极大地提高了数据处理能力和效率。

从以上4 个角度着手将大数据和传统数据处理方式进行对比分析可知,大数据更能满足地理信息系统在空间数据、海量数据和数据处理快速响应等方面提出的要求,因此在新时代背景下将大数据灵活运用到地理信息系统已成为紧跟时代发展潮流的必然选择。

2 地理信息系统应用大数据时存在的问题

2.1 数据存储问题

由于地理信息系统原本就具有良好的空间数据存储特点,因此在数据存储过程中既体现出了非结构化特征,又使其数据呈现出明显的大数据优势,也就是所谓的海量数据规模、数据快速流转以及动态数据体系、多元化数据类型、高速变化的数据模型、高价值低密度和高复杂度的大数据特性。现阶段我国市场对地理信息系统提出了迫切需求,尤其体现在空间数据存储爆炸性增长、数据处理响应速度愈发快捷、数据描述需求逐渐趋于多元化等方面,而这些需求均对地理信息系统的大数据应用提出了严格要求。最后,在大数据应用过程中还面临着地理信息系统在数据传输与保护方面的问题,并且大量重复数据的处理也给大数据的应用带来了一定的挑战。

2.2 数据处理问题

尽管地理信息系统在实际应用过程中已可以通过多种渠道对海量空间数据进行集中处理,但在海量空间数据的组织、加工、存储等技术的应用上仍存在明显弊端。特别是应用数据处理技术时,非结构化的海量空间数据还与传统SQL 数据处理技术之间存在一定的矛盾和冲突,在某种程度上弱化了海量空间数据的加工和处理效果,阻碍了数据增值产品的生产进度,这也是限制我国地理信息系统朝着市场化发展的主要原因。在激烈的市场竞争下,由于用户的现实需求愈发迫切,在地理信息系统空间数据采集过程中必须达到实时更新的目的,还需要在客观层面上提高数据的计算能力和效率。因此,在地理信息系统中应用大数据既是顺应新时代发展趋势的必然结果,又是推动海量空间数据优化与改革的客观需要。

3 大数据时代地理信息系统的具体应用

3.1 利用大数据存储方式,优化地理信息系统存储模式

尽管GIS 软件在实际应用过程中可以借由对象关系模型拓展RDBMS 的性能,使其实现对图形、属性数据、DEM 数据的并行管理,还能达到多比例尺空间数据存储的目的。但这种数据存储方式无法通过当时现有的技术实现,并且这种方式在某种程度上还限制了地理信息系统空间数据的自动综合能力。与此同时,基于C/S 架构的GIS 系统还会受到自身封闭性的影响,使其数据共享能力过于薄弱,无法保证批量数据处理后的存储和同步更新能力,这也是借由大数据存储方式革新传统地理信息系统数据存储方式的主要原因。

在数据信息存储过程中,传统数据处理方式主要是通过RDBMS 进行存储,而大数据处理方式是以NoSQL为主,这也是2 种数据处理方式存在差别的根本原因。传统数据处理方式中的RDBMS 在结构化数据存储方面具有明显优势,但大数据处理方式可以有效应对非结构化数据与半结构数据化的存储问题,并且利用大数据进行数据存储时还可以实现分布式计算集群或分布式数据库等多种方式,而这种数据库存储形式就是所谓的NoSQL云存储技术。实际上,尽管传统RDBMS 也包含了分布式数据库,但其仍以结构化数据为主,并且还有着较高的精确度和一致性要求,在一定程度上弱化了其拓展功能。而NoSQL 存储技术则并不过多地要求精确度和一致性,在功能拓展方面也有着明显优势[2]。

相比于RDBMS,NoSQL 的连接特性并不强,因此在NoSQL 数据存储过程中其有着良好的可延展性,极大地提高了数据存储模型的灵活多样性,还节约了数据存储和更新过程中可能产生的开销。例如,MongoDB 存储方式就是将RDBMS 中“行”的概念用“文档”模型进行替换,以此为文档数据库管理奠定了良好基础,使其存储形式达到了多元化和可兼容的目的,还形成了良好的拓展性功能。实际上这种文档形式的替换为数据存储过程中数组或文档的嵌套创造了良好的先决条件,真正意义上实现了复杂层次关系单一存储记录的目的。与此同时,这种存储方式下的数据还具有结构松散的特点,有效提高了该数据存储模型的灵活性和多样性,还极大地简化了其数据模型的复杂层次关系,使得复杂属性下的数据查询和索引功能有着良好的简便性,真正为RDBMS 查询功能的实现提供了大力支持。

基于此,文档型NoSQL 存储技术才能真正满足地理信息系统对空间数据的存储需求,还能有效避免地理信息系统应用传统数据存储方式时面临的各种问题,如海量空间数据存储过程中产生的数据压缩与转换系统开销。因此,依托于全新的数据存储方式可以有效提高地理信息系统在数据读取和同步更新方面的效率。

3.2 借助大数据交互处理方式, 革新地理信息系统的数据处理模式

传统空间数据库利用地理信息系统提高数据处理的响应速度时,通常需要构建多种比例尺的空间数据库,并结合实际应用需求调整比例尺数据库中的数据,但这种数据处理方法在实际应用过程中,无法满足地理信息系统对数据处理的要求,并且其矢量数据的综合能力也有所欠缺[3]。但在大数据时代背景下,利用大数据交互式数据处理方式就能有效解决地理信息系统在空间数据处理方面的问题。

3.2.1 大数据交互处理方式

大数据交互处理方式指依托于人机交换及时处理和调整相关数据信息,并将处理结果实时共享给用户。目前现有的大数据交互处理系统主要由Dremel 和Spark 组成。其中Spark 系统指高效分布式计算系统,这种系统的性能远高于Hadoop 系统的数据处理效率,还有着性能优良的API。最重要的是,Spark 的代码也较为简洁,但Hadoop 若想表达出相同的功能代码,还需要付出超十倍甚至百倍的代码长度。与此同时,Dremel 还能以秒为单位快速处理PB 级别的海量数据,利用上千个规模的集群共同组建完成。实际上Dremel 的设计原本就是基于MapReduce 衍生而来的,因此其有着优越的规模和交互查询能力。此外,Dremel 同步处理半结构化与非结构化数据时,通常需要以嵌套式数据模型为基础进行处理。

3.2.2 大数据列式存储

Dremel 系统主要是通过列式存储的方式保护相关数据信息,其在数据分析和处理过程中,只需要针对某些数据进行集中处理,这种方式极大地减少了磁盘及CPU 的访问量。与此同时,在实际应用过程中还可以将Dremel与Web 搜索、DBMS 技术进行有机融合,依托于Web 搜索中的“查询树”这一功能,就能有效分割查询搜索中的庞大数据库,并将其科学分布到各个批量节点上,以此提高数据查询处理的简便性。例如,以HBase 为基础的嵌套式数据存储系统,就是基于HBase 原有的分布式存储构架,充分发挥其可用性强、延展性良好的优点。利用HMaste 对数据存储系统进行管理时,还可以将HRegion-Server 作为载体对每个子节点进行数据存储管理,同时优化原有的列式存储格式,以此构建成全新的嵌套式数据存储格式。而基于Dremel 的嵌套式数据存储文件格式还能达到数据持久化的目的。另一方面,以HBase 为基础的嵌套式数据存储系统中的存储和读取模块还有着良好的读写功能,使读写模块中的查询功能发挥出明显优势。实际上这种交互式数据处理方法还优化了查询功能和分片存储数据功能,从整体上提高了海量数据的处理效率。

综上所述,传统地理信息系统主要是通过列式存储Dremel 嵌套式模型来存储多比例尺数据库,利用类似于Web 搜索的数据处理方法查询与整合分片数据,以此充分满足数据的实际处理需求,进而有效优化与处理空间数据,节约数据搜索的系统开销,最大限度地提高了地理信息系统的响应速度。

4 结束语

随着现代科技手段的日益完善,大数据技术逐渐在各行业领域中得到了广泛应用,因而在地理信息系统中科学运用大数据已成为迎合新时代发展需要的必然选择。在地理信息系统中正式应用大数据前,还需要从数据存储和数据处理两方面着手,研究地理信息系统应用过程中存在的实际问题,并在此基础上依托于大数据存储方式革新地理信息系统的数据存储方式。与此同时,在大数据交互式处理方式的支持下,还可以从地理信息系统的处理和更新两方面着手对其应用进行创新。

猜你喜欢
嵌套空间数据海量
一种傅里叶域海量数据高速谱聚类方法
兼具高自由度低互耦的间距约束稀疏阵列设计
GIS空间数据与地图制图融合技术
海量快递垃圾正在“围城”——“绿色快递”势在必行
论电影嵌套式结构的内涵与类型
嵌套交易如何实现逆市盈利
一个图形所蕴含的“海量”巧题
一种海量卫星导航轨迹点地图匹配方法
连续批加工过程中嵌套自相关数据的控制图设计
网格化存储的几项关键技术分析