地理数据关联研究进展

2019-01-19 15:32刘朋飞崔铁军
关键词:空间数据尺度语义

刘朋飞,崔铁军

(1.天津师范大学 地理与环境科学学院,天津 300387;2.天津师范大学 天津市地理空间信息技术工程中心,天津 300387)

自然在人类的面前是“黑箱”的,人类只能通过现象探索事物的本质.人类本能地具有将各种器官所探测的信息(视觉、声音、气味和触觉等)与先验知识进行综合的能力.在科学研究中,人们依据感知到的一些现象,或得到的一些实验数据,对这些材料进行分析和综合,通过概念、判断、推理的形式,认知客观事物的本质属性和运动规律;然后,利用各种实验对这种学说进行检验,以证明其真实性.地理学的核心是研究人地关系问题,解释地球表面区域差异现象,预测这种现象的发展趋势及相互影响.由于地理区域差异现象不遵循严密的因果关系,只遵循统计规律,难以用数学语言描述,以至于地理规律无法实现精确的科学预测.随着空间信息技术在地学研究中的应用和发展,使得地球观测探测仪器研发、 地球观测系统构建和各种遥感数据处理等研究取得突破性进展.观测的多源时空地球数据是对地理事物或现象观察的结果,也是自然和生命现象的一种表示形式.挖掘海量地球数据的关联关系是探索宇宙规律、 生命规律,寻找人类行为规律、寻找社会发展规律的一种重要手段.要正确认识地理现象的动态变化的规律,必须对分布于统一时空基准上的不同表达模式、表达尺度、语义和时段的瞬间断片的地理数据进行关联分析,发挥多源地理数据的综合优势,从而克服人类对地理信息感知、认知和表达等方面的局限性.在大数据时代,地理数据关联已成为地理信息智能分析和推理研究的热点[1],并已有效应用于空间决策分析、突发事件应急管理、智慧城市建设等领域.

1 地理数据关联的内涵

人类探索在地球表面的生存环境,产生了地理的概念.地球表面是“自然-社会-经济”的复合体系,是一个非线性、复杂的巨系统.地球表面的事物(现象)都具有区别于其他位置上的事物(现象)的特点,有其存在于空间的必然性、 关联性和异同性.空间位置的隔离,造成了地物之间的差异(空间异质性定律,Law of Spatial Heterogeneity)[2-4].“所有的事物或现象在空间上都是有联系的,但相距近的事物或现象之间的联系一般较相距远的事物或现象间的联系要紧密”[5].在空间统计学中,相似事物或现象在空间上聚集的性质称之为空间自相关.这种空间上的相关性或关联性是自然界存在秩序与格局的原因之一.

人们对地理要素之间的关联特征的描述是匮乏的,在地理语言中只能定性描述各地理要素之间的联系,如河流对地形的影响,流速大的山区侵蚀作用强烈,流速较小的平原地区沉积作用显著,等等.地图只能表达空间分布,无法表达地理要素之间的关系,地理要素之间的关系只能由读图者解译得到.

在计算机中,人们用地理数据描述和记录地理物体和现象.地理数据仅是地理信息本体的某种“瞬间的断片”记录.地理客观存在有不同的地理信息本体描述[6].地理数据是按照应用主题的要求,突出而完善地表示与主题相关的一种或几种要素,其内容侧重于某种专业应用,对于不同的应用,地理数据存在不同的属性,一个属性只能从某一个(些)侧面或角度描述地理事物的特征,其中不仅有表达内容的取舍,同时还存在表达模式的选择.因此,一个地理客观存在本体可以用不同模式、不同尺度、不同语义和不同时段的瞬间断片的地理数据进行描述,相关数据在空间、语义、尺度和时序上存在显式的或内在隐含的关联信息.但是,目前的地理空间数据模型只能表达简单的、显式的地理现象联系,通过关系表、数据结构和指针等技术表达简单的地理要素之间的关系,包括空间拓扑关系、空间顺序关系和空间度量关系等,而对于地理空间位置及动态时空过程中隐含的地理现象的关联性关系的表达则具有局限性,这成为地理数据挖掘和地理信息智能服务的主要瓶颈.

地理数据关联就是基于两种或多种分布于统一时空基准上相应尺度的地理数据,利用计算机挖掘数据之间的相关性和依赖度,得到多源地理数据之间的内在联系,将相互影响、相互制约、相互依存的地理要素构成一个有机整体,从而实现区域内自然和人文地理要素的整体全息关系表达.

任何地理感知手段只能记录地理变化的某种瞬间状态或关注某种地理表面现象.在实践中,为了满足综合地学分析、防灾减灾、政府决策等重大需求,需要利用不同学科、专业和应用的地理数据,基于地理实体对象间的空间几何关系、语义属性关系和时空序列关系等,建立相关算法搜索和挖掘地理对象及其属性之间的关联关系,从而发现地理数据之间的关联,进而实现基于多源海量地理数据的地球表面信息重构.

2 地理数据关联研究进展

基于地理现象分布的特征以及具体应用的角度,地理数据的关联研究主要分为基于空间特征的多维关联、基于尺度特征的多尺度关联、基于时间特征的时序关联和基于语义特征的语义关联等4 类.前2 类主要是基于空间特征,从不同角度对数据进行关联性分析; 时间特征是从时间的角度对地理数据进行分析,从而实现基于时间序列的分析和预测;语义特征则是从地理实体的语义描述出发,建立地理数据模型,从与以往GIS 不同的角度描述地理现象的分布和发生发展过程.

2.1 基于空间特征的多维关联

地理实体的空间特征主要包括几何形态特征和空间关系特征.几何形态描述地理实体的结构和形状,对于发现并关联目标数据、 解决地理数据异构有重要的意义[7].基于各种空间关系在多源地理数据间建立空间关联以获得更为详细和全面的检索是当前地理信息领域的研究热点.

吴烨等[8]通过分析多源地理实体的空间关系、属性关系及语义关系,构建了一种集语义、空间、视觉等多维关联的多源地理空间数据关联模型(MSGCM),实现了空间信息的一体化查询和分析,有效提升了多源地理数据关联检索的全面性和有效性,但该模型的不足之处在于没有充分考虑用户的偏好,其智能性还有待于进一步提升.韩邦生[9]通过提取多源海量遥感影像的文本信息、 影像内容信息和空间位置信息,并计算各自的关联度,构建关联图模型,同时基于关联库提出了融合影像多特征信息的检索机制,提高了检索结果的丰富度和有效性.姜伟[10]从海量数据的检索出发,研究了广义空间数据的组织管理方法,分别提出了基于文本和基于GeoSOT 空间编码的空间数据关联模型,其中,基于空间编码建立关联关系能更好地表达和判断空间实体间的空间关系.姜伟的研究在构建关联的基础上提出了2 种广义空间数据的关联检索方法,有效实现了海量广义数据的高主题相关度的检索.国外相关学者以提高多源数据的检索效率为目的进行了一系列数据关联研究,当前主要的方法包括SimRANK 方法[11-12]、语义模型M-LSA[13]、聚类模型Link-Clus[14]、融合模型CRF[15]等.但这些方法大多只关注空间数据某一维度的信息,普遍缺乏对地理数据各维度特征的全面利用.

2.2 基于尺度特征的多尺度关联

多尺度是空间数据的重要特征,不同尺度上的地理实体具有对应的约束体系,适应于不同的模型[16].人们在管理空间数据时,由于获取手段、 数据库不同等原因产生了尺度割裂,从而出现了跨尺度空间数据的一致性描述和动态查询的问题.实现多源数据的匹配、构建不同尺度实体之间的关联是提高多源数据检索效率的关键.

陈俊杰[17]利用同名实体匹配的方法实现了不同尺度下的地理对象间层次连通关系的提取.蓝秋萍[18]从几何形态、时空关系和语义内容等方面对不同尺度下的同名地理实体进行了匹配研究,提出基于Hausdorff距离的线目标匹配方法和基于综合考虑的多尺度面目标匹配.栾学晨[19]提出了一种基于模式识别的多尺度道路网整体匹配方法.姚驰[20]和Zhu 等[21]从空间相似性原理出发,探索了基于几何形态特征的多尺度地理实体的关联方法.张婷等[22]和江浩等[23]对多尺度下地理空间线状目标的相似关系的描述和度量做了研究,基于Douglas-Peucker 算法,研究了多尺度下折线目标几何形态相似性的度量方法.王超超等[24]从地图信息论出发,综合点群目标的各个信息的相似度给出了多尺度地理空间点群目标相似度的计算公式.张桥平等[25]研究了面状地理实体的几何描述方法及其特征变化和多尺度下的面实体匹配方法.赵彬彬[26]从地理空间数据现势性出发,研究了多尺度面目标的匹配方法,用于地图数据的变化探测.凌翠明等[27]从基础空间数据的更新出发,提出空间实体之间的几何关联算法,并开发了交互式地图关联软件ConMap,提高了地图关联的智能性.

由于尺度代表人类认知世界的概括程度,因此不同尺度的数据在地图综合和数据采样中具有一定的不确定性,目前的研究多是针对地物在多尺度数据中某一方面的特征,完全通过固定的规律实现多尺度数据关联和检索面临许多困难.

2.3 基于时间特征的时序关联

地理空间数据可看作是某种“瞬间的断片”,不同时段的瞬间断片的联结,构成对地理现象的动态认识.通过在时间维度上对这些强时序地理信息进行组织和规律提取,可以提高对关联信息的发现能力,从而更加有效准确地实现智能化管理.目前,人们运用各种测量手段和工具采集的地理空间数据仅是地理现象变化瞬间的快照记录,传统地理信息系统也仅能对单一版本的地理空间数据进行采集、处理、存储、分析与显示,难以对时间序列的海量地理空间数据进行挖掘和地理知识发现,因此海量数据的时序关联是地理信息科学研究亟待解决的问题之一[28].

俞松等[29]和姚春雨等[30]研究了多时态数据的动态关联,分析不同时态下地理实体的各种特征,对空间位置、形态特征和属性等要素进行多时态数据变化监测和动态关联,并将其应用于动态数据库的建设.沙宗尧[31]提出了时空关联规则挖掘方法,并将其用于监测土地覆盖类型的变化.Abraham 等[32]提出利用时空泛化、时空聚类、时空元规则和关联规则来描述地理实体的时序变化.夏英等[33]和张俊[34]提出了时空关联

规则挖掘算法:Spatio-Temporal Apriori 算法,并将其应用于智能交通领域.Li 等[35]利用时空关系谓词建立事件与影响域中目标之间的时空关系.陈新保等[36]研究了多源关联模式的时空数据挖掘,构建了包含时态关系、方向关系、距离关系和拓扑关系的空间关联模式.

目前,在地理信息更新过程中,大多研究强调地理信息的现势性,而忽略了历史地理信息的有效保存,这阻碍了对地理信息变化规律的分析和变化反演的实现.因此,有必要进行历史数据与现势数据空间实体之间的关联[29].

2.4 基于语义特征的语义关联

地理数据是按照应用主题的要求,突出而完善地表示与主题相关的一种或几种要素,内容侧重于某种专业应用,面对不同的应用具有不同的属性,而属性只能从某一个(些)侧面或角度描述地理事物的特征.地理空间数据语义异构是实现数据关联、精确发现的主要瓶颈[7].语义关联特征语义本体上的关联网络,挖掘地理实体间存在的潜在关系[37].目前,基于语义特征的关联研究分为3个方向:基于关键字匹配、基于RDF地理语义数据和基于本体概念领域.目前大多基于关键字匹配的检索技术通过借助于目录、索引和关键词匹配等方式实现,忽略了数据本身丰富的语义特征,无法有效解决由语义异构带来的数据检索问题[38].基于RDF 的地理语义数据采用资源描述框架RDF(Resource Description Framework)的三元组(主语、谓语、宾语)[39]描述数据并构建关联模型,利用SPARQL[40]语言(Simple Protocol and RDF Query Language)进行查询[41],从而更高效地获取海量数据中的有用信息[42].本体概念可用来描述数据的语义信息、领域概念和相互关系[43-46],使多源异构数据之间的隐性知识显性化[46],使不同数据集之间的各种联系能够为应用系统所识别,实现领域知识的重用,因此基于本体概念领域的研究成为目前解决数据语义异构的重点.郭黎[1]研究了基于水系本体的地理空间数据语义集成方法,很好地解决了多源数据间的语义异构问题.赵红伟等[47]利用RDF 构建了以元数据为节点、元数据之间的语义关系为边、语义相关度为权重的关联网络,并将其应用于空间数据语义关联查询、语义关系度量排序和语义推荐等.虞为等[48]建立参照本体来描述空间对象间的语义关系,提高了地理空间语义网上的异构数据查询的智能度.宁小敏[49]提出了语义关联数据模型RSS,该模型可充分挖掘海量数据中丰富的语义关联,并可利用知识评价方法进行查询结果的排序.

数据关联技术能够将信息中隐式的语义信息明确地描述出来,并在此基础上进行有效的语义推理,使得这些相关联信息能够快速地全面检索和定位,从而极大地提高了网络服务的智能性和准确性.现有的语义关联研究大多还是停留在模型的构建方法上,较为智能完整的关联网络原型系统较少.此外,如何提高基于海量地理空间语义数据检索机制的效率也是亟待解决的问题.

3 结论与展望

随着大数据思想的崛起和智能时代的到来,海量空间数据的管理和组织模式面临更大的需求和挑战.地理空间数据的关联是解决海量、多源、异构的地理空间数据被发现、检索、共享等问题的有效手段.针对当前地理时空信息数据量大、利用率低,无法满足地理信息行业发展的应用需求的问题,本文分析了现有地理空间数据关联组织模型,结合地理时空数据特点,对现有的海量信息和知识的处理方式进行梳理后认为,地理数据关联在以下几个方面仍需进一步研究.

(1)研究提取更为全面的空间数据信息的算法和系统.目前相关研究在提取文本、 内容和空间位置等信息方面较为深入,但更为系统、 更加丰富而细微的特征则鲜有涉及的.

(2)语义关联研究有待进一步深入.语义代表了对地理现象的更为全面和底层的认识,是突破当前GIS 以主题为核心而不是以地理现象或者地理实体为核心的模型瓶颈的一个重要方向,但是现有的语义关联研究大多还是停留在模型的构建方法上,较为智能的、 完整的语义描述模型比较少,相关的关联网络原型系统则更少.

(3)需要研究更为复杂的多源、 多尺度地理数据的关联.目前,多尺度关联研究大多只是针对同几何类型、同坐标体系的地理实体数据进行几何形态方面的描述和匹配等,但在实际应用中要面对的地理数据远不止此.而且,随着目前观测手段的更新,获得的信息更多,对各种数据源数据的处理速度远远落后于对其获取的速度,更不用说对于多源数据的关联应用.

(4)研究地理数据的时空关联,解决从数据关联的角度理解时空数据的问题.目前的GIS 主要面对的数据是单一版本的地理空间数据,关于时间序列的研究主要面向数据的管理方面,而针对时间序列的海量地理数据的挖掘和知识发现则涉及较少.

(5)研究基于海量关联数据的空间检索.地理数据关联的一个重要应用就是数据检索,而目前大多研究针对的数据量不大,大数据量的检索涉及较少.因此,提供地理数据关联结果的高效的海量数据检索,也是大数据时代地理信息科学亟待解决的问题之一.

(6)研究地理数据与其他专题数据系统的关联,进一步促进地理数据的深度应用.地理数据通过地理位置将现实世界的所有事物都关联起来,很多非空间数据也蕴含了空间上的相关性,通过对这类数据的挖掘,可极大促进GIS 的扩展研究及其在不同领域的应用深度.这不仅是大众化GIS 的深度应用的强烈需求,同时也是目前GIS 实现自我突破的一个重要趋势.

猜你喜欢
空间数据尺度语义
真实场景水下语义分割方法及数据集
财产的五大尺度和五重应对
语言与语义
GIS空间数据与地图制图融合技术
宇宙的尺度
“吃+NP”的语义生成机制研究
汉语依凭介词的语义范畴
9
网格化存储的几项关键技术分析
室外雕塑的尺度