ArcGIS Spatial ETL工具在数据整合中的应用

2022-04-01 14:16刘文军
地理空间信息 2022年3期
关键词:数据格式数据模型语义

刘文军,黄 瑶

(1.江西省测绘应急保障服务中心,江西 南昌 330002)

数据是地理信息系统(GIS)的灵魂。测绘数据的整合加工是基础测绘生产中一项常见的工作。整合加工得到的成果数据质量直接影响整个项目质量。目前,ESRI公司推出的AcrGIS软件是最成熟的商业GIS软件,在基础测绘生产中的数据处理、整合和建库方面都得到了广泛应用[1]。ArcGIS Spatial ETL是AcrGIS软件下一个具有强大数据互操作能力的工具,即用户从指定的数据源中抽取自己感兴趣的空间数据,再按照事先制定的清洗和转换规则进行数据清洗和转换,最终装载到目标数据模型中。本文提出了一套行之有效的作业方法,即基于FME的语义映射原理,利用ArcGIS软件自定义Spatial ETL工具进行空间数据的模型构建,自动批量处理矢量数据整合过程中的数据转换和多数据库合并。

1 传统的数据整合方法与问题

在基础测绘成果数据中,1∶10 000数字线划图是最常见的产品之一。对该产品的整合改造以及合并检查是基础测绘生产中一项必不可少的工作。目前,将多个数据库合并为一个数据库的方法主要包括:①图层合并,即将数据类型相同的多个输入数据集合并为新的单个输出数据集;②数据融合,若要基于一个或多个指定的属性聚合要素,可采用该方法;③数据追加,即将多个数据集中的新要素或其他数据添加至现有数据集;④数据联合,用于计算任意数量的要素类和要素图层的几何并集。上述方法均在人工操作下完成,对于大数据量的数据合并显得费时费力、效率低下,且容易出错。

2 FME语义映射原理

从数学角度来讲,映射体现的是一种集合间的对应关系或集合中每个要素与另一个集合中相应要素的对应关系[2]。语义映射则可认为是源数据类在目标数据类的重分类,即对从源数据类中寻找满足目标数据类定义要求的数据进行分类[3]。FME语义映射基于OpenGIS组织提出的“语义转换”的思路,不仅提供了不同格式数据之间的相互转换功能,而且实现了数据结构的重新构造[4-5]。FME语义映射具有一个引擎,能对输入数据和输出数据进行重新定义,在数据模型的基础上完成从输入和输出的数据模型到该引擎模型的映射,重构数据结构后,最终完成数据模型之间的转换。

3 基于ArcGIS Spatial ETL工具的数据整合与实现

3.1 ArcGIS Spatial ETL工具介绍

ETL技术包括3个重要环节[6]:①数据抽取,即从不同数据库或仓库中读取数据,这是一个数据读取的过程,是ETL技术的前提;②数据转换,即按照预先制定的清洗和转换规则,对读取的数据进行属性字段合并、融合、排序、赋缺省值等操作,这是一个数据清洗和转换的过程,是ETL技术的核心;③数据装载,即对清洗和转换后的数据进行装载入库,这是一个数据入库的过程。详细流程如图1所示。

图1 ETL技术流程图

ArcGIS Spatial ETL是ESRI公司推出的AcrGIS软件下一个具有强大数据互操作功能的工具。从Spatial ETL的字面意思可理解为空间数据的抽取、转换和装载的过程,即用户从指定的数据源中抽取自己感兴趣的空间数据,再按照事先制定的清洗和转换规则进行数据清洗和转换,最终装载到目标数据模型中,供本部门使用。

Spatial ETL工具是用户创建的地理处理工具,能提供的流程和数据流范围很广,可实现简单的格式转换,也可实现重新构建几何和属性的复杂转换;可将其用作独立的地理处理工具,也可利用ArcGIS for Server在工具箱中发布为地理处理服务或导出为自定义格式并在FME阅读器库中使用。该工具的主要功能包括:①过滤属性并将属性与其他要素类合并;②利用属性值动态创建唯一要素类;③利用测试条件分离数据;④根据坐标值创建线要素。本文采用Spatial ETL工具的第一个功能,即通过过滤属性并将属性与其他要素类合并进行矢量数据整合。具体步骤为:①创建Spatial ETL工作空间;②设置模型参数;③实现模型运行。

3.2 Spatial ETL工具创建[7]

Spatial ETL工具是在ArcGIS软件环境下创建的,在创建前需配置好ArcGIS软件系统环境。具体步骤为:安装ArcGIS 10.1和ArcGIS Data Interoperability for Desktop模块,并在ArcGIS扩展模块中将Data Interoperability选中勾上。

首先在ArcGIS软件中调出ArcToolbox工具箱,在工具箱空白处右击选择“添加工具箱”,重命名为“矢量数据整合工具”;然后右击“矢量数据整合工具”图标,选择“新建—Spatial ETL Tool”命令,如图2所示。

图2 Spatial ETL工具创建流程

3.3 模型参数设置

模型参数设置包括源数据格式和路径的选择以及目标数据格式和路径的选择。由于Spatial ETL工具是FME和ArcGIS软件的集成,提供了近百种不同数据格式之间转换,因此本文源数据格式选取Personal Geodatabase,目标数据格式选取File Geodatabase。设置完成后,得到Spatial ETL Tool工作台画布如图3所示。画布将显示用来定义Spatial ETL工具的数据源、链接、转换器和目标要素,默认情况下是从左到右进行处理,从源数据对象入手,通过链接器将输出链接到输入来引导数据流,然后在目标要素处结束整个流程。

图3 Spatial ETL Tool数据流示意图

3.4 模型运行实现

本文需将75个MDB数据库合并成一个GDB数据库,要保证合并前后数据库中的数据结构、属性信息以及空间投影信息保持不变,确保数据的质量不降低,实现无损合并转换。因此,本文基于FME语义映射原理,在源数据集与目标数据集之间建立映射关系,需实现一对一的映射关系,即所有源数据集中各要素层与目标数据集中要素层一一对应,属性字段可一一对应,也可根据自己的需求进行字段重命名和字段类型更改等操作,如图4所示。点击运行,将数据装载到目标数据库中,即自动将75个MDB数据库中各要素层载入GDB数据库中相应的要素层;执行完成后,可保存该工具,作为ArcGIS地理处理工具使用[8],也可利用模型构建器对工具参数进行个性化设置,使其界面更友好、应用更方便。

图4 FME语义映射

4 不同方法对比分析

本文分别利用人工操作和Spatial ETL工具将75个MDB数据库合并为一个GDB数据库,两种方法在相同配置的计算机平台下操作。通过对比发现,人工操作方法完成所耗时间为8 h,Spatial ETL工具方法完成所耗时间为2 min 16 s,如表1所示,可以看出,利用Spatial ETL工具执行的效率远高于人工操作,需要合并的MDB数据库数量越多,Spatial ETL工具执行方法体现的效率越高。

表1 不同处理方法的对比

5 结语

基于FME语义映射原理,本文利用ArcGIS软件自定义了Spatial ETL工具。该工具通过简单易用的图形化操作界面,定制了流程化的数据转换模板,自动批处理将75个MDB数据库合并为一个GDB数据库,节约了时间成本,提高了测绘数据整合效率,在一定程度上减少了数据库重复建设工作。另外,利用FME语义映射原理,还可避免属性信息和投影信息的丢失。本文研究的数据整合方法为测绘数据加工提供了一个很好的思路,尤其是对测绘一线生产具有一定的参考价值。

猜你喜欢
数据格式数据模型语义
真实场景水下语义分割方法及数据集
基于区块链的微网绿电交易数据模型研究
基于Pro/E 的发射装置设计数据快速转化方法
关于PowerDesigner软件工程技术的研究
MIT—BIH心率失常数据库的识读
基于RFID的户外广告监管系统的设计与实现
一种融合多业务的信息化系统框架研究
“吃+NP”的语义生成机制研究
汉语依凭介词的语义范畴