大数据在复杂生态环境中的应用研究

2019-08-01 01:52宋蕾
数字技术与应用 2019年4期
关键词:信息融合数据采集大数据

宋蕾

摘要:近年来,生态多样性的保护已上升到国家战略层面。大数据是融合了云计算、物联网等互联网技术的产物。如何有效地将大数据系统与生态多样性研究结合起来是当前研究的热点。本文重点探讨在云南省这种复杂生态环境中构建大数据平台,以及应用大数据过程中所面临的挑战。最后,分析了深度学习及知识图谱在生态大数据中的潜在应用价值。

关键词:大数据;生态多样性;数据采集;信息融合

中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2019)04-0064-02

随着社会的发展,人类生活的范围在不断地扩大,对自然资源的过度开发也在日益增加,这些行为都对生态环境造成了严重的破坏,使得生态系统越来越脆弱。任何一种资源的枯竭或动物的灭绝都会对生态系统中的其他物种产生级联效应。因此,对生态系统进行监控以及保护,是人类刻不容缓的头等大事。近年来,国家已将生态多样性的保护上升到了国家战略层面[1]。

云南省地处中国西南边陲,由于其特殊的地理位置和地貌分布,云南省气候兼具季风气候、低纬气候和山原气候等,从而导致了云南具有复杂多样的植被和物种分布[2]。然而,由于信息化的相對落后,目前云南省的生态多样性保护仍然是个难题。大数据是一种新兴的互联网技术,它是云计算、物联网、机器学习等技术的融合产物[3]。相对于传统的数据分析技术,大数据处理的数据对象多为非结构化数据,且需要更为快速、高效的分析。本文重点讨论如何在生态多样性保护中建立大数据平台,以及应对挑战的策略,为读者提供一个思路。

1 生态多样性与大数据概念

首先,分别阐述生态多样性及大数据两个领域涉及的基本概念和作用。

1.1 生态多样性

生态多样性(Ecological diversity)没有一个较为完整的定义,核心内容主要涉及到诸如物种多样性,景观多样性和HLZ生态系统等,是众多研究对象在空间分布的综合[4]。换句话说,生态多样性可以理解为生物多样性的最大规模。

生态多样性与人们生活密不可分,人类从生态多样性中获取价值的方式大致分为两种:

(1)直接获取。生态系统为人类提供了食物、材料和药物等,保障了人们的生活及健康。另外,动植物的多样性以及秀丽的山河不仅可以陶冶情操,还为人类的艺术创作提供了灵感。

(2)间接获取。生态系统中包含各种动植物以及微生物,它们都是不可或缺的组成部分,与人类生存构成一个良性循环的整体。某个组成部分的破坏(如,物种灭绝)都可能引起更多的自然灾难。此外,空气和水源通过大气流动及土壤过滤,能保证人类生活在一个干净的环境中。

1.2 大数据

2011年,国际数据公司IDC对大数据(Big data)的定义是:“大数据技术是全新的一代技术和架构体系,该技术通过高速采集、分析,从各式各样的庞大数据量中提取出经济价值”[5]。而维基百科对大数据的描述是“大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合”。虽然学术界和工业界对大数据的定义仍存在争议,但是提出大数据的目的是解决问题,而非如何界定。因此,本文认为如果数据满足以下5个特性(如图1所示),就可利用大数据的相关技术来解决问题。

如图1所示,相对于传统数据集,大数据具有规模大(Volume)、多样性(Variety)、高速性(Velocity)、价值密度低(Value)和在线产生(Online)五个特性,具体而言:(a)规模大,相对于传统数据集,大数据的规模大刻画的是单位时间内的增量大;(b)多样性,指的是产生数据的设备多种多样,以及数据格式的多样性(如,结构化与非结构化数据);(c)高速性,表达的是处理速度快,一般在秒级内就要给出分析结果;(d)价值密度低,虽然产生的数据量极其庞大,但是真正有价值的信息相对来说范围极小;(e)在线产生,相对于传统的数据分析技术,大数据的数据集必须是实时在线产生的,并且数据的收集、分析也需要在线完成。

2 生态大数据平台

大数据平台能将现有的互联网技术集成起来,基于庞大的数据集来快速提取出有价值的信息,从而促使生态多样性的保护工作从业务驱动的功能形态转为数据驱动的智能形态。表1统计了web of science数据库上关于大数据、生态多样性以及两者结合的主题文章数量。

从表1可得,近五年各个领域关于大数据的研究都是热点。生态多样性的研究也在逐年上升。同时,把两者结合起来的研究也日益得到重视。接下来,本文重点讨论生态大数据的特点以及针对云南特殊气候如何布局生态大数据平台。

2.1 数据特点

生态是一个涉及范围相当广泛的集合,若要建立生态大数据平台,各个领域的数据整合是第一步,也是最为重要的一步。当前,统计的数据类型有:

(1)环境类数据。环境对生态的影响最为直接,所以需要实时地、全方位的跟踪区域的环境变化。这类数据主要有:水资源、土资源、空气质量、噪声污染,植被覆盖情况,固体废弃物,以及不同生态数据情况等。

(2)气象数据。经过多年的生存演化,整个生态群体对当地的气候都已适应。但是,随着社会的发展,气候也在发生改变,而且变化的速度也在增加。所以,很有必要收集气象数据,包括日照、温度、气压和湿度等。

(3)社会统计数据。人类的活动会对生态造成一定影响,因此需要统计农药施用强度、土地垦殖率和人口密度等。此外,对动物的迁徙及种群分布也要统计。

(4)其他数据。社会舆论、科学研究以及政策导向都会让一个地区的生态发生变化。这些数据的统计,主要通过互联网实时收集。

综上分析,生态大数据的特点是涉及面广、数据类型极其复杂、数据增量庞大以及不断更新。

2.2 平台部署

由于云南特殊的地理位置及气候原因,其气候著有“一山分四季,十里不同天”之說。如果盲目地将各个地区的数据收集统计在一起,不仅代价高,而且数据的价值极低,容易适得其反。为此,本文提出了边缘分区来解决此问题。

如图2所示,相对于传统大数据平台,本文主要增设了边缘分区来处理局部地区的生态数据。每个边缘分区既是整个平台的组成部分,又可以看成单个大数据平台的缩减版。具体而言,边缘分区主要包括三层架构:第一层是数据采集层,主要来源有监控摄像头、无线传感器以及分区中的数据中心(包括当地的政府、科研部门数据中心等);第二层是数据收集层,不仅要存储数据,还要对数据进行简单的抽取、转换及分析处理;第三层是服务层,除了对中心平台提供数据外,还应包含一些简单的查询、统计应用服务。

2.3 面临的主要挑战

大数据平台的架设都会遇到一些如数据采集过滤以及安全等经典问题[6],而本文重点讨论云南省部署生态大数据主要面临的挑战。具体包括:

(1)部门数据交换困难。由于云南省信息化相对落后,不同的生态数据分散在不同的部门,而且部门之间的信息交换几乎是人工完成,没有完整的信息化平台。其次,部分单位虽然建设了信息化平台,但是数据收集及统计手段相对落后,导致数据不全,格式混乱等。

(2)大数据人才稀缺。总体来讲,全国的大数据人才都是供不应求的。而云南省由于经济相对落后,真正数量掌握大数据的人才基本留不住,导致了该领域的储备人才极其稀缺。

(3)区域资源分配不平衡。云南省面积较广,包含不同的气候带。对于生态多样性的研究需要统计及分析不同地州的生态数据,然而由于贫困差距较大,部分地州没有足够的资源(如,资金、人力、信息化设备等)用于支撑该领域的研究。

针对以上三个难题,本文给出的建议是:

1)数据分散问题,应采用局部到整体策略。即,先引导企业与企业之间,单位与单位之间分别建立好信息交换平台。再,进一步深化推进单位与企业之间构件大数据平台;

2)人才稀缺问题,可以从两方面入手:第一,给予优惠的政策,引进该领域的专家、企业家等,推动大数据领域发展;第二,鼓励高校及科研机构,重点培养大数据方面的人才,为云南省提供后备人才;

3)资源分配问题,需要政府相关部门多进行宣传,让部分地州重视大数据行业的发展。其次,提供便利的服务,鼓励企业和科研单位入驻地州进行工作推广。同时,加大地州对于大数据科技产业的财政投入。

3 应用前景

随着社会发展,人们对生活质量的要求也在不断提升。生态多样性的保护涉及到每个人的生活和健康。而生态大数据可以为人们提供更加多元化的服务,更加便捷生活体验。比如,在生态大数据的基础上,结合深度学习[7]和虚拟技术,可以让人们足不出户就能领略到大好河山的美丽。在科普教育上,利用生态大数据平台,可以构建出动植物的知识图谱[8],提高人们对生态多样性的保护意识。

无论是深度学习还是知识图谱,只要构建好生态大数据平台,就能让新兴的技术大方光彩,更好地服务于社会,服务于人类。

4 结语

本文首先阐述了生态多样性及大数据的相关概念,然后重点提出了如何在生态多样性中构建生态大数据平台。最后,列出了平台部署及应用的挑战,并给出了相应的策略建议。同时,阐述了新兴技术在生态大数据平台基础上的应用前景。

参考文献

[1] 马克平,朱敏,纪力强,等.中国生物多样性大数据平台建设[J].中国科学院院刊,2018,33(8):80-87.

[2] 李俊梅,樊林,段昌群.全球气候变化条件下云南生态环境变化趋势研究[J].云南地理环境研究,2012,24(5):67-73.

[3] 程学旗,靳小龙,王元卓等.大数据系统和分析技术综述[J].软件学报,2014(9):1889-1908.

[4] 马胜男,岳天祥.中国西部地区遥感数据生态多样性多尺度模拟[J].地球信息科学学报,2006,8(1):97-102.

[5] 张引,陈敏,廖小飞.大数据应用的现状与展望[J].计算机研究与发展,2013,50(S2):216-233.

[6] 王珊,王会举,覃雄派等.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10).

[7] 余凯,贾磊,陈雨强等.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804.

[8] 官赛萍,靳小龙,贾岩涛等.面向知识图谱的知识推理研究进展[J].软件学报,2018,29(10):74-102.

猜你喜欢
信息融合数据采集大数据
大数据背景下的信号处理分析
多传感器图像融合技术
基于开源系统的综合业务数据采集系统的开发研究