大数据时代:数值天气预报的机遇与挑战*

2024-03-01 00:58郭亚楠曹小群周梦鸽彭柯澄
网络安全与数据管理 2024年1期
关键词:天气预报气象数值

郭亚楠,曹小群,周梦鸽,彭柯澄

(1.国防科技大学 气象海洋学院,湖南 长沙 410073;2.海军航空大学,辽宁 葫芦岛 125001)

0 引言

大气系统是一个高度复杂的系统,包括大气运动、辐射传输、湍流等多个物理过程的相互作用,数值模式成为深入理解和研究这些复杂过程的有效工具。通过模型的建立和改进,可以揭示天气系统中的非线性、时空耦合、不确定性等特征,为深入研究气候变化、气象灾害等提供基础。数值天气预报从20世纪50年代进行了首次成功尝试以来,经过七十多年的发展,已经成为一个跨学科的复杂系统性工程,使得天气预报从传统的以统计和经验为主的天气图方法转变成为客观定量的科学[1-3]。

近年来,大数据技术的出现,深刻改变了现代科学技术的发展,极有可能引起新一轮的技术变革[4-7]。在地球科学领域,新一代地球观测系统的不断完善,对地观测数据迅速增加,正逐渐积累形成独具特色的地球大数据。对数值天气预报研究而言,如何高效合理地利用气象海洋大数据,对于提高预报的精度有重要意义。随着大数据的出现以及算力的提升,以深度学习为代表的人工智能技术蓬勃发展,成为了联系气象海洋大数据与数值天气预报模式的关键技术。随着大模型技术的兴起,大数据驱动的天气预报快速发展,涌现出大量气象预报大模型。其中,针对部分预报任务,华为盘古气象大模型的预报精度已超过传统数值预报方法,并且其预报速度相比传统数值预报提速10 000倍以上。目前,盘古气象大模型能够提供全球尺度的天气要素预报,其时间精度可达秒级,其气象要素预报产品包括温度、海平面气压、湿度、风速、位势等,可以直接服务于天气预报业务,并且已被欧洲中期预报中心所应用。

本文从论述气象海洋大数据的起源、概念和本质开始,介绍了气象海洋大数据的分类,阐述了气象海洋观测数据、模式数据以及再分析数据特点,针对气象海洋大数据与数值天气预报融合发展中面临的关键问题,其中包括大气海洋资料同化、物理过程参数化、数值预报产品订正以及机理与数据融合的模式开发等前沿方向,对相关研究进行了深入探讨和展望,以期为气象海洋大数据与数值天气预报的融合发展提供参考依据。

1 气象海洋大数据定义及特征

地球大气与海洋系统是一个极其复杂的非线性系统,涉及大气物理、大气化学、大气探测学、物理海洋学等诸多学科。目前,气象海洋大数据可以定义为基于多源观测手段,其中包括卫星、飞机、船舶浮标等方式,对大气和海要素进行观测得到的一类大数据[8-10]。

传统大数据特征主要表现为海量性、快速性、多样性的特点,具有高维度以及动态性的特征。根据来源不同,气象海洋大数据可以分为观测大数据、模式大数据以及再分析大数据等。气象海洋观测大数据是指基于卫星、飞机、雷达、浮标、气象站、气球等观测手段获取的海量数据,目前一体化的地球观测体系如图1所示。

图1 一体化的地球观测系统

数值预报模式产生了模拟数据产品,在气象海洋大数据占据重要位置,成为气象海洋大数据的基础来源之一。与地面观测、雷达探测以及卫星探测等观测手段相比,数值模拟产品具有时空连续性的优势,图2给出了2019年9月1日在巴哈马登陆的飓风“多利安”的数值模拟信息(云层结构)。

图2 飓风“多利安”的数值模拟结果(云层结构)

再分析数据是利用数据同化等技术,将不同来源及不同结构的观测数据与数值模拟数据进行融合,从而得到满足时间与空间上连续的数据集。再分析数据在地球科学研究中具有重要的价值和地位,图3给出了一类再分析产品(地表空气温度)的可视化结果。

图3 再分析产品(地表空气温度)

通过分析可以看出,气象海洋大数据具有明显的异构性,一方面表现为观测系统异构,即不同的观测系统和观测手段具有较大差异,例如卫星观测与站点观测存在明显不同;另一方面表现为数据格式的异构性,即不同类型数据的存储形式及结构差异较大,这些特性成为了气象海洋大数据的应用巨大挑战。

2 数据驱动的数值天气预报研究与展望

2.1 数据同化

目前,数据同化方法主要有变分同化方法和集合卡尔曼滤波方法,借助先进的数据同化技术能够将高质量的大气和海洋观测有效地集成到预报场(第一猜测场)[11-14],从而提升初始条件的精度,图4展示了一个数据同化循环的流程。目前,数值天气预报系统借助数据同化技术广泛吸收了地面、卫星、船舶等大量观测数据,提供了大气、海洋和陆地表面的重要信息(例如A-train等卫星观测的大气要素信息)。随着观测数据质量的改善,特别是来自卫星的观测数据不断增加,以及地球系统模型和数据同化技术的不断升级,现代中期天气预报水平得到了大幅提升。然而,随着高时空分辨率的地球系统观测数据呈指数级增加,以及物联网背景下全新观测系统的应用,传统的数据处理技术已经捉襟见肘。为应对气象海洋观测大数据的挑战,以深度学习为代表的数据驱动方法成为了资料同化领域研究人员关注的热点。

图4 数据同化流程图

近年来,深度学习算法快速发展,在观测数据质量控制、观测偏差校正等方面表现出巨大的潜力,为改善数据同化技术提供了新的途径和手段[15-17]。相关研究表明,机器学习和传统数据同化方法在数学上具备等价性,使得神经网络在数据同化领域的应用具备了坚实的理论支撑。有关学者利用神经网络模型代替传统数据同化算法(例如三维变分同化、集合卡尔曼滤波以及粒子滤波),结果表明,在训练数据充足且准确性高的情况下,基于神经网络的数据同化模型能够获得理想的分析场,其同化质量接近于传统的同化方法,但其计算效率更高、实现过程更加简单。然而,基于神经网络的数据同化模型存在的问题也不可忽视,即神经网络模型对于观测数据的质量极其敏感,当观测数据存在噪声干扰以及观测数据量不足时,同化质量将会明显降低。因此,如何提高神经网络模型的鲁棒性,高效利用不同程度噪声干扰的观测数据,提升数据同化效果,充分挖掘气象海洋观测大数据的潜在价值、发挥深度学习的优势,仍面临诸多挑战,需要进一步加强理论研究和实践探索。

2.2 物理过程参数化

近年来,数值天气预报模式不断向着精细化方向发展,模式分辨率显著提高。然而,即使最先进的数值天气预报模式仍然难以描述许多小尺度天气过程,图5展示了地球系统模式中的次网格过程。目前,为了解决上述小尺度天气过程难以描述和预报的问题,一般采取次网格物理过程参数化方法。对于无法被模式解析的次网格过程,例如大气系统内部以及与外界的小尺度辐射、对流和扩散过程,研究人员开发了各种参数化方案,通过这些参数化方案描述次网格过程中的热量和动量收支,从而提升数值预报的质量。

图5 地球系统模式中的次网格过程

相关研究表明,借助海量的气象海洋大数据,深度学习能够显著改善数值预报模式物理过程参数化效果,有效提升计算效率及精度[19-20]。在训练数据充足的情况下,深度神经网络模型能够有效地刻画次网格物理过程,与传统的次网格物理过程参数化方案相比,大数据驱动下的深度神经网络参数化方案能够显著提升模式预报效果,且计算效率得到显著提升。然而其劣势也不可忽视,由于缺乏物理规律的约束,基于神经网络的参数化方案往往不满足能量守恒等物理性质。尽管存在诸多问题,但采用数据驱动的神经网络模型替换传统的参数化方法依然方兴未艾。

2.3 数值预报产品订正

由于大气系统的混沌特性,数值天气预报产品质量严重依赖于初始场的准确性。此外,数值模式中存在对大气与海洋系统的近似假设,导致模型预测结果不可避免地存在误差,因此量化天气预报的误差及其不确定性是一项极其重要的任务,特别是对于预测极端天气事件。集合预报是目前解决大气与海洋预报不确定性问题的重要手段,由于集合预报系统由加入不同扰动的数值天气模式组成,因此计算量巨大。鉴于集合系统高昂的计算成本,并且经常涉及大量的统计学后处理过程,寻求简单且廉价的数值产品订正与后处理方式成为了现阶段的重要任务。

目前,机器学习算法已经被广泛应用于预报模式产品的校正与后处理[21-23],如基于支持向量机的海雾预报校正、基于深度神经网络的风速预报校正、基于对抗神经网络的降水位置订正等。研究表明,深度学习方法能够从数值天气预报的海量模拟数据中挖掘隐藏的高维信息,从而构建数值天气预报产品偏差特征,为数值天气预报偏差订正研究和业务实践开辟了新的方向。在足够多的训练数据支撑下,机器学习模型的结果普遍优于传统的统计后处理方法。可以预见,在气象海洋大数据的驱动下,通过不断改进神经网络模型以及优化算法,将显著提升预报产品的质量,进而提升对灾害性天气气候的预警能力。图6给出了一个气象海洋大数据驱动下的智能化数值天气预报产品订正模型。

图6 气象海洋大数据驱动下的智能化数值天气预报产品订正模型

2.4 机理与数据融合的数值预报模式研发

在天气预报领域,数据驱动的深度学习模型具有设计方法简单的优势,且相比于庞大的数值天气预报模式,其计算成本大大降低,并且可以利用GPU资源进行加速,因此研究人员致力于开发数据驱动的天气预报模型[24-26]。基于再分析数据或观测值进行训练,数据驱动模型可以避免数值预报模型中存在的限制,例如对流参数化方案中的偏差将严重影响降水预报。此外,与只能包含少量集合成员的传统数值天气预报模型相比,大数据驱动的集合可以改善次季节到季节的预测。大集合有助于改善短期和长期预测中极端天气事件的预测水平。

深度神经网络代理模型的预报水平严重依赖于训练数据集的大小以及天气过程的时空尺度。不可忽视的是,纯数据驱动的预报模型的预报结果往往缺乏物理可解释性。地球系统作为一个复杂系统,受到不同时空尺度物理规律的制约。在过去几十年里,关于多尺度物理过程相互作用的研究取得了巨大进展,通过使用有限差分、有限元以及谱方法数值求解偏微分方程(PDE),取得巨大成功。如何将物理规律融合到数据驱动的机器学习模型,成为了当前数值天气预报发展的挑战与机遇。图7给出了预报模型对数据及物理规律的依赖。近年来,内嵌物理神经网络的发展为机理与数据融合的数值天气预报研究提供了重要方向[27-29]。图8给出了基于内嵌物理神经网络求解大气运动方程组的示意图。未来,通过深入研究内嵌物理约束的人工智能框架,发展出数据驱动与物理驱动相互支撑的新一代数值天气预报系统,可以保证数值预报产品的准确性、实时性以及可靠性要求。

图7 预报模型对数据及物理规律的依赖

图8 基于内嵌物理神经网络求解大气运动方程组的示意图

3 结论

随着大数据和新一轮人工智能技术的兴起,数值天气预报模式正在发生革命性转变,不断向以数据驱动为核心的新范式发展。本文针对气象海洋大数据在数值天气预报中的应用这一重要课题,对气象海洋大数据的内涵、分类及其特征进行简要介绍和分析,论述了气象海洋大数据在资料同化、物理过程参数化、数值预报产品订正等方面的应用现状及巨大潜力。相信在未来气象海洋大数据将广泛应用于数值天气预报领域,人工智能与大数据挖掘技术将成为推动数值天气预报发展的重要驱动力。最后,仍需要高度重视数据驱动模型的可解释问题,深入研究内嵌物理约束的人工智能框架,发展数据驱动与物理驱动相互支撑的新一代数值天气预报系统,保证数值预报产品的准确性、实时性以及可靠性。

猜你喜欢
天气预报气象数值
用固定数值计算
气象树
数值大小比较“招招鲜”
《内蒙古气象》征稿简则
测不准的天气预报
天气预报的前世今生
大国气象
美丽的气象奇观
中期天气预报
基于Fluent的GTAW数值模拟