面向水污染防治的大数据技术框架*

2020-03-25 07:34廖方圆张宇光
通信技术 2020年1期
关键词:污染源水体污染

李 屹,廖方圆,张宇光

(1.生态环境部环境发展中心,北京 100029;2.中国电子科技集团有限公司,北京100846 ;3.中国电子科技集团公司第三十研究所,四川 成都 610041)

0 引 言

《“十三五”生态环境保护规划》专项针对生态环境监管明确提出,要加强生态环保信息系统建设,提高智慧环境管理技术水平。近年来,我国在水污染防治领域注重提升水污染治理工艺自动化、智能化技术水平,建立了水污染数据共享机制与产品服务业务体系,防污治污工作取得了一定进展。但是水资源管理和水环境保护的形势仍然很严峻,水污染粗放式治理成本高、效率低等问题依然突出。现实环境保护工作中越来越多的信息业务系统依赖于水污染监测数据和水环境数据,对于数据的采集种类、采集频率、处理效率等要求越来越高,然而数据处理工作的规范化和标准化相对滞后,开放式数据采集与精细化业务管理需求不匹配,业务系统封闭重复建设、数据处理自动化程度低使运维成本过高等一系列问题导致我国在水污染防治过程中的数据采集利用、信息化建设等方面与发达国家存在一定差距。因此亟需以城市水污染治理为重点,结合智慧城市建设进程,整合城市信息基础设施资源,以物联网应用为基础建设大数据分析与云计算平台,对水污染防治手段进行体系升级。

刘凯[1]等人结合成都市水环境业务需求和信息化基础,提出了面向成都市的水环境信息化顶层和重点业务系统设计方案。张达敏[2]通过建立大数据采集、大数据汇聚和大数据应用三大模块,构建了漳州生态环境网格化监测、监管、智慧与应用。李晨子[3]等人对京津冀地区水资源分布及水污染防治现状进行了研究,提出京津冀水污染防治大数据技术应用的若干建议。史丹[4]等人基于大数据技术分析公众关注度与政府治理污染投入的关系,提出建立健全我国生态环境监督和预警体系的建议。温玉波[5]通过引入智能数字遥感多层分析技术,对海洋水质进行多维度监测分析。薛思怡[6]提出通过创建全区域监测体系、共享品牌、数据处理平台、联合使用新媒体和互联网技术、构建空气预报系统、动态分析污染演变等手段,促进环境污染防治管理。许小燕[7]提出了一种将环境保护与环境检测进行融合的环境保护方案。朱逸凡[8]等人提出了基于船舶自动识别系统数据的船舶交通排放估算模型,并建立了2017年长江江苏段船舶排放清单。黄坚[9]等人提出了基于大数据的环境污染源防治管理模型,并对数据监测、数据汇集、数据传输、数据处理、标准执行和决策应用等关键技术进行了研究。曹曼[10]提出了引入大数据思维来分析环境工程的发展趋势。石峰[11]等人采用基于互联网开放信息的大数据技术,对污染水体进行数据搜索和统计分析,得到全国重污染水体和黑臭水体的总体分布情况。林庞锟[12]提出了基于环境保护大数据的检测和诊断方法。胡平昌[13]等人基于自然资源督察与环境污染治理工作相关时空信息数据,建立了环境污染督察时空信息数据库,并以此研发环境污染督察平台。谭宇翔[14]等人提出了一种基于业务中台的河道综合信息监管系统框架。蔡国祯[15]提出了基于云计算和大数据的生态环境信息化体系架构。刘宝玲[16]根据水污染事故风险需求,提出了根据风险的动态精细化管理模式的风险评价体系。陈少波[17]分析了大数据技术在水污染治理中应用的必要性,并对水污染治理运营中大数据技术的实际应用进行了研究。上述论述表明,国内学者在水污染防治领域已经开始关注和利用大数据技术,在关键处理环节采用大数据技术对水污染防治进行信息挖掘和辅助决策,但当前的研究主要着眼于利用大数据技术进行水污染防治单一环节的处理,缺少水污染防治全链条的大数据技术应用研究。

本文首先介绍大数据技术的相关概念和主要特点,结合水污染治理的基本需求,提出基于大数据的水污染治理体系,从基础设施、数据采集、数据管理、数据挖掘和数据应用五大维度,对应用于水污染防治的大数据技术要点进行梳理和分析,最后对基于大数据的水污染治理体系的主要特点进行总结。

1 大数据技术

1.1 概 念

大数据是指数量庞大、结构复杂、在一定条件下无法采用常规工具软件进行捕捉、管理和处理的数据集合。而大数据技术是大数据的应用技术,涵盖针对数据的采集、预处理、储存、管理、分析、挖掘以及呈现等一系列相关技术和基础支撑技术。

1.2 主要特点

大数据技术具有如下四个主要特点:一是数据体量大。通常大数据的体量可以达到PB级,传统技术手段和处理能力难以应付。二是数据产生速度快。主要体现在数据采集点多、产生密度大,对系统的数据采集与处理性能要求高。三是数据多样化。大数据时代数据的来源、格式不再单一,具有多源异构的特点。四是数据价值高。通过分析挖掘大数据背后隐藏的信息,可以发现事物的潜在特征和发展规律,为商业决策、政府治理等应用提供支撑,产生直接或间接的经济、社会价值。

2 基于大数据的水污染治理体系

本文根据水污染防治的实际特点与需求,利用大数据技术的优势,提出基于大数据技术的水污染治理体系,如图1所示。该体系主要围绕数据的产生、存储、处理、呈现等过程,分别从基础设施、数据采集、数据管理、数据挖掘、数据应用这五大方向进行大数据技术体系布局,通过对水资源进行多维度数据监测采集,汇聚挖掘数据背后隐藏的污染种类、趋势等有价值的信息,实现污染事件的快速识别、跟踪、处置,构建从传感器到数据应用的水资源全面数字感知网络,打造从数据采集到精准治污的有效处理平台,为水资源全面数字化管控提供技术支撑。

图1 面向水污染防治的大数据技术框架

2.1 基础设施

基础设施是指为水污染数字化治理提供服务的物质工程设施,包括传感器、智能芯片、云平台、采集设备、通信光缆、边缘计算平台、5G通信等,是基于大数据技术的水污染防治技术体系的基础。上述基础设施主要是为数据采集、传输、存储提供硬件设施支撑。水污染数字化治理作为城市信息化建设的一部分,其基础设施是城市信息基础设施的重要内容,与其他城市信息化应用项目的基础设施共建共享,在数据传输、存储等方面可以使用公共信息基础设施,无须重复建设。

2.2 数据采集

数据采集主要是联合城市气象、水文等单位,通过传感器自动采集、人工定点定时采集、资料联查、网络通信等方式,面向地表水、生活污水、地下水、城市供水、工业污水、降雨等水体,采集水质、流量、污染成分等重要指标,形成水污染防治的大数据,采集的数据类型包括表格、文本、图片和视频等,如表1所示。

表1 采集数据项及类型

2.3 数据管理

数据管理是通过建立分级数据库,存储、管理和共享采集到的各类水体数据。数据管理要处理的信息包括水体复杂的空间数据信息和非空间数据信息、确定信息和不确定信息等。重点内容包含数据清洗、数据存储、数据抽取、数据索引、标准管理、共享交换等。其中数据清洗是针对在数据采集过程中由于录入错误、传感器失效等原因所导致的数据错乱问题,采用数据校验、冲突检查等手段,剔除采集数据中的无效项、残缺项、错误项、重复冲突项,确保数据的准确性、完整性、一致性和唯一性。数据存储主要针对水体监测数据数据量庞大、异构复杂等问题,采取分级建库、数据融合等技术手段,对异构数据进行多级、汇聚和融合存储。数据抽取与数据索引主要解决数据访问性能低的问题,针对业务系统实际请求需要,在空间数据信息和非空间数据信息等多种类型的数据上进行处理。从存量数据库中抽取特定格式的数据表,预先建立数据索引,满足大量业务数据请求的访问需求。共享交换主要解决数据多域共享交换的问题,通过建立数据权限管理、数据交换标准、数据审计等功能,实现数据跨域按需交换共享。标准管理是面向数据处理过程建立数据清洗、存储、抽取等一系列标准化操作流程,实现数据标准化存储与访问。

水污染治理领域的数据管理工作较为复杂,处理的数据信息多种多样,需要一些关键技术的支持。例如,污染源、水域和监测点的空间信息关系的组织和处理即是一个底层基础问题。污染源、水域和监测点数量众多,针对其空间数据信息的复杂性,我们引入高效的空间索引结构R树(如图2所示)来对相关的空间数据信息进行组织和处理。R树是一种多级平衡树,它是B树在多维空间上的扩展。在R树中存放的数据并不是原始数据,而是这些数据的最小边界矩形,空间对象的最小外包矩形被包含于R树的叶节点中。在二维空间数据集中,R树中的各层节点以递归的方式对数据集空间进行划分。R树中每一个非叶节点本身代表数据集空间中的一个矩形,该矩形为其子节点所代表矩形的最小外包矩形。

图2 空间对象和R树结构示例

近邻关系的查询分析方法[18-20]在数据信息处理领域较为重要。图3展示了利用近邻查询方法查询的有关污染源和水域的近邻关系。图3中,受污染源q1影响最大的两个水域分别为p1水域和p2水域,而受污染源q2影响最大的水域则为p3水域。

2.4 数据挖掘

数据挖掘是从海量、结构复杂的实际水体采集数据中,利用机器学习、数据统计等大数据分析技术,提取水体数据中隐含的水体污染类型、污染趋势、水体流量变化等信息,为基于大数据的水污染监测识别提供决策支撑。此外,除了对复杂的水体数据信息本身进行细致分析外,我们利用数据挖掘技术还可智能处理和分析不同污染源对水体的影响情况和影响趋势,从整体角度分析污染源和水体的空间位置信息及演变规律,从而做出智能决策。具体的数据挖掘对象包含污染源和各水域的空间关系分析、污染影响范围分析、趋势预测、污染识别、污染溯源、水质建模、动力分析、污染数据可视化等。其中趋势预测是根据当前水体污染各项监测数据生成污染综合态势,建立水体污染变化模型,预测将来一段时间内水污染的变化情况。污染识别是根据历史水质监测的各项关键指标、水体监测视频等数据,建立水体污染专家系统,开展深度学习模型训练,对当前水质监测关键指标与监测视频数据进行污染研判,确定水体污染类型与危害程度。污染溯源是根据当前水体污染信息、当地水文信息、企业工业排污数据,生活污水处理数据等相关数据,对当前跟踪的污染事件进行追踪溯源,判定污染来源及污染源地理位置。水质建模是通过各类水体监测的物理、化学、生物菌落等指标,利用统计分析技术,建立水体质量综合分析模型,对水体污染范围与程度进行综合研判。动力分析主要是从水体动力学角度,综合考虑城市排污、降雨、表面蒸发、截面监测数据等信息,建立水体截面动力模型,对水体污染流速、有害物质扩散等进行科学评估。

图3 污染源对水域影响情况查询示例

如聚类分析[21-23]等数据挖掘技术在水污染各类数据信息的智能分析和决策中具有较为重要的作用。针对众多的数据处理和分析问题,我们在技术层面运用了聚类分析、关联规则分析和分类分析等关键技术。其中,经典的K-means算法是我们经常运用的一个重要方法。

图4展示了运用聚类方法分析污染源对水源的影响情况的示例,示例中水域分别被不同数量和不同位置分布的污染源所影响。图4(a)中展现被8个污染源所影响的水域的聚类分析结果,图4(b)中展现被6个污染源所影响的水域的聚类分析结果,图4(c)中展现被3个污染源所影响的水域的聚类分析结果。先进的聚类分析方法还可用于对水体本身海量指标属性数据信息的分析之中。

2.5 数据应用

数据应用主要是面向城市水污染监测与治理的实际业务需求,基于统一的水污染数据采集、管理与挖掘,订制水污染防治信息化处理系统。从应用功能上可以分为污水处理、河湖治理、饮水安全、精准供水等。通过与大数据技术的深度融合,可以优化业务系统的处理流程,提升当前业务系统的精确度和使用价值,改善水污染治理业务系统的使用体验和效果。

图4 污染源对水域影响情况聚类分析示例

2.6 主要特点

本文提出的基于大数据技术的水污染防治体系主要有两大特点。一是建立从传感器到业务应用的全面数字感知。基于大数据技术的水污染防治体系,围绕数据的产生、存储、处理和利用过程,针对水体污染分层分级挖掘数据背后隐藏信息,对数据处理过程进行全面信息感知,最大限度地体现了大数据处理技术的信息提炼效果与价值发现能力。二是从水体监测到业务应用实现精准有效处理。本文提出的基于大数据技术的水污染防治体系,从水污染防治实际应用角度梳理凝练数据采集、存储和处理需求,按照需求设计数据处理的各项环节,实现功能与需求的精准匹配,从而达到水体监测数据高效利用与水污染精准治理。

3 结 语

本文通过对大数据技术的应用特点进行分析,结合水污染防治的数据处理需求,提出一种基于大数据技术的水污染防治体系。该体系分别从基础设施、数据采集、数据管理、数据挖掘和数据应用五大方向进行大数据技术布局,通过对水资源进行多维度数据监测采集,汇聚挖掘数据背后隐藏的污染种类、趋势等有价值的信息,实现污染事件快速识别、跟踪与处置,构建了从传感器到数据应用的水资源全面数字感知网络,打造从数据采集到精准治污的有效处理平台,为水资源全面数字化管控提供技术支撑。

该技术体系有望应用于城市水体数据监测与处理应用系统开发中,能进一步提高水污染防治的数据采集与利用效率,提升水污染防治的效能,为保护绿水青山、建设美丽中国做出贡献。如何将该技术与现有业务深入融合,实现技术落地应用将是下一步的研究方向。

猜你喜欢
污染源水体污染
农村黑臭水体治理和污水处理浅探
农村黑臭水体治理与农村污水处理程度探讨
生态修复理念在河道水体治理中的应用
陆良县档案局认真做好第二次全国污染源普查档案验收指导工作
坚决打好污染防治攻坚战
本市达到黑臭水体治理目标
坚决打好污染防治攻坚战
试论污染源自动监测系统在环境保护工作中的应用
刍议污染源在线监测管理问题及对策
对抗尘污染,远离“霾”伏