气象资料数字化进展及应用

2018-04-02 10:54范邵华余予鞠晓慧任芝花
关键词:报表降水气象

范邵华 余予 鞠晓慧 任芝花

(国家气象信息中心,北京 100081)

0 引言

气象资料就是使用各种观、探测手段获取的关于大气状态、天气气候现象及其变化过程的记录以及各类衍生记录[1]。这些长期积累的气象观测资料是进行现代化气象业务建设和深入开展气候科学研究的基础性关键资源,也为其他行业发展提供了重要的科学支撑。我国历史气象观测资料数量庞大、种类繁多、格式多样、记录方式不统一,在2000年左右自动站建立以前,气象资料多以纸质记录为主,有以文字、数字、符号为主的观测簿表、记录报表,也有以曲线形式图形记录某段时间内气象要素信息的自记纸类资料。在长期保管过程中,中国气象局及各省市气象档案馆保存的部分纸质气象档案已经出现纸张老化、变脆、破损、字迹模糊退化情况,因此亟需实现数字化。

所谓历史气象资料拯救和数字化就是使用多种技术修复资料载体,保留其信息记录,以维护资料原貌[1],同时使用手工录入或计算机软、硬件技术将资料载体上的信息提取出来转换为可编辑、可处理、符合一定格式和质量要求的数据文件并存储在电子介质上,以便进行信息检索利用、加工制作成数据产品提供数据服务[2]。这样既可以保护资料原件,维持其历史凭证价值,又能突破基于原有载体服务的局限性,极大提高了历史气象资料的应用效率。

在历史气象资料拯救与数字化实施过程中,为保证资料安全及数字化质量、节约成本,需遵循安全性、真实性、内容选择、全程规范化管理等原则[3]。其中内容选择原则即是因大批量资料载体数字化成本高昂,需根据保存状况和资料利用需求,来确定数字化资料范围和优先级,优先拯救破损严重、价值重大、用户需求相对较多的历史气象资料,避免重复建设;而全程规范化管理是指由于历史气象资料具有种类繁多、数量巨大、格式繁杂等特点,工作流程复杂、产品质量控制困难,需制定详尽的工作流程、技术标准规范来对数字化过程中的每个工作环节进行把控监管来保证各环节的质量、进度及与下一环节的顺利衔接。

为贯彻上述基础原则,多年来气象资料数字化工作一般在中国气象局预测减灾司的统一规划和组织领导下开展[2],由中国气象局气象档案馆作为牵头单位联合各省(区、市)气象局资料业务部门共同建设,按照“统筹规划、分工建设、统一标准、有效集成”的原则具体实施。作为数字化实施主体的中国气象局档案馆、各省(区、市)气象局需根据统一规划确认数字化建设内容、制定具体实施方案;中国气象局气象档案馆除完成自身馆藏的数字化任务外,还需要对各省定期汇交的气象观测记录数字化成果进行收集、整理、集成建设和质量检查、质量评估并统一归档管理,以确保数字化成果的完整性、准确性和可靠性并积极推动数字化成果转化应用,为各业务科研单位及决策部门提供服务。

另由于我国省际间的数字化技术储备差别较大,不太均衡,为加强监督管理保证数字化质量,近年来一般由国家级气象资料技术人员联合部分省级优秀资料专家共同组成全国历史气象资料数字化工作组或技术组,负责分区(如华北、西南等片区)进行数字化情况摸底预研,明确数字化任务的人、财、物需求,制定各类工作流程、技术规范,指导推动各省(区、市)气象局标准、规范化地有序开展数字化工作。

1 气象资料数字化发展进程

20世纪70年代末以来,为满足气象资料处理电子化需求,我国开始初步投入人力、物力和财力探索进行气象资料数字化工作[2],几代气象资料工作者的持续努力为我国气象资料数字化工作打下了良好的基础。回顾我国的气象资料数字化发展进程,依据不同时期数字化技术发展水平、业务组织管理方式和数字化成果的数据量增速来综合考量,气象资料数字化建设大致可分为奠基、稳步推进和快速发展这三个阶段。

1.1 数字化奠基阶段

1949年以后,我国开始建立统一的气候资料报送制度,各省编制好各类气象记录报表定期报送到中央气象局气候资料室[2],但由于技术发展水平限制,直至20世纪70年代末我国才开启气象资料数字化进程。

1978年12月,中央气象局业务处下发《全国基本站地面气象资料信息化基本模式暂行规定》(中气函[1978]第212号文,后编号为A0模式[4]),按此要求各省气候资料室开始使用纸带穿孔方法对1979年前纸质气象记录报表进行信息化,至1990年各省基本、基准站及一般站地面观测月报表数字化全部完成。后续对这部分记载地面气象观测信息的纸带资料又进行了重新整理和录入,转换成了A0文件归档保存和服务[2]。1978年—20世纪90年代中期成为历史资料数字化的奠基阶段

在此期间,数字化工作主要由中央气象资料管理部门推动,以各省气候资料室为执行主体,取得了一定成果。中国气象局先后制定和颁发了国家基本站、一般站地面气象记录报表(A0文件)、国家基准站地面气象记录报表信息化格式(A1文件),为后续的气象资料数字化发展奠定了基础。

1.2 稳步推进阶段

20世纪90年代中期至2008年期间,各省定期报送到中国气象局气象档案馆的主要纸质气象报表见表1,气温、湿度、降水、风向风速等自记纸类气象记录只在省级气象档案馆存档,不进行汇交上报。

为有效实施数字化拯救与利用,中国气象局气象档案馆联合部分省级气候中心积极制定多种数字化格式[2,4](表1),这些格式涵盖了常见的地面、高空、辐射、农业等气象观测记录报表,保障了数字化工作的规范性实施,推动数字化标准建设进程。

另外,基本基准站降水自记纸的彩色图形数字化处理也是本阶段数字化工作的突出成果:2001年5月中国气象局投入专项经费用于开展基本基准站降水自记纸数字化处理[2],中国气象局气象档案馆和广东省气候中心共同研究开发了一套自主产权的降水自记纸彩色图形数字化处理系统[5],截至到2008年全国各省使用该软件成功地完成了我国680个基本基准站1961—2000年降水自记图形曲线跟踪和坐标提取、数据转换,相关成果已汇交到中国气象局气象档案馆归档服务。

表1 主要数字化格式制定与修订Table 1 Digitizing formats and revisions of the main historical meteorological data

这一时期中国气象局气象档案馆还进行了部分馆藏解放前气象记录月报表、海关月总簿、国外珍贵档案的数字化拯救修复,并完成了1951—1990年高空风记录月报表(高表-1)和高空压温湿记录月报表(高表-2)的图像扫描和数据录入,气候资料数字化数据量稳步上升。

1.3 快速发展阶段

2009年以来,随着气象业务和社会发展水平不断提高,信息技术日新月异,现代化设备不断更新换代为大批量纸质气象资料档案的数字化提供了可行的物质基础;各界对时间序列长、空间和时间分辨率更高的气象资料需求越来越迫切,气象资料数字化工作得到了管理部门的持续关注和更多经费支持,采购专业数字化公司服务成为工作常态,缓解了资料技术人员短缺的压力,采购服务后只需要少量技术人员监管其按照相关标准和规定要求在指定的场地和工期内完成数字化工作,并对数字化成果进行质量审核和整理集成,气象资料数字化进入了高速发展的快车道。

目前我国历史气象资料拯救与数字化工作完成和计划开展情况见表2,这些成果已在或将在气象业务、科研和其他社会部门中广泛应用,发挥重要的数据支撑作用。

2 气象资料数字化技术简介

历史气象观测资料具有种类多、数据格式差异大、不同时期资料质量不均衡的特点,大部分采用人工誊录方式记录数据,其中早期解放前资料种类繁多、质量相对较差,而自记纸类图形记录较难整理提取。针对这些资料特点,采用单一的技术手段实现全部历史气象观测资料的数字化十分困难,也不切合实际[6]。

目前气象资料数字化工作中采用的主要技术包括:图像扫描技术、数据录入技术、图形提取技术、数据集成和质检技术。可根据现有技术发展水平和资料特点,按照业务需要的迫切性,以先易后难的顺序综合确定不同类型气象资料的数字化技术路线。如手工抄写誊录的地面、高空、辐射和农气常规报表,记录内容延续性好,可人工录入后采取强制人机校对方式,能保证识别数据的准确率[6];而自记纸类彩色图形记录目前只开展了降水自记纸的图形提取,其过程主要为利用迹线色彩和深度差别及曲线变化特点将降水曲线从彩色背景图像分辨凸显出来[1],人机结合地进行曲线跟踪,得到迹线特征点的坐标数据,完成降水曲线图像到小时、分钟级标准数据文件的转换[7]。

2.1 图像扫描技术

图像扫描技术是实现档案原文存储和档案数字化转换的途径和手段之一。它的原理是利用扫描仪将档案原件以图像方式存储在计算机内或其他存储介质上。纸质气象档案的图像扫描步骤和流程[1]主要有:

1)预处理。按照纸质气象报表的卷册详细登记报表种类、站名、区站号、年、月、版面规格和数量,对破损或脆化厉害的应进行备注。装订成册的自记纸需要拆分为单页;解放前纸质档案一般不拆分,破损档案一般先修复再行扫描。报表或自记纸背面如有相关备注记录要一起扫描,自记纸更应在扫描前进行换纸时间、订正情况的预处理。

2)扫描设备的选择。扫描设备的选择取决于资料幅面和纸张状况。纸质气象档案涉及的幅面大小一般为A3和A4,扫描设备可选用A3幅面平板扫描仪、非接触式书刊扫描仪、滚筒式扫描仪等。

表2 气象资料数字化目录Table 2 Catalog of digitized meteorological data

3)扫描参数的设定。扫描参数根据纸质气象档案原件的质量状况和应用需求来确定,主要包括扫描分辨率、色彩模式和存储格式等。一般扫描分辨率设为150-300dpi,存储为JPG格式。

4)扫描图像后期处理。避免重张、倾斜、模糊等图像质量问题,尽量去除扫描过程中造成的图像杂点和脏点;进行图像纠偏处理,以达到视觉上基本不感觉偏斜为准;按照技术标准规定对图像进行正确命名等。

2.2 录入技术

档案数字化的主要技术途径有两种, 一是通过电脑键盘手工输入, 二是基于电子图形文件,利用光学字符识别技术(optical character recognition,OCR)进行数据提取[6]。目前,气象档案的数字化录入主要使用的是手工键入形式。数据录入的步骤和流程主要有:

1)制定数据录入格式。为保证数据质量,方便数据录入,针对各要素报表特点,统一制定数字化录入格式。

2)数据录入。严格按照录入格式进行录入处理,一般采取“两遍录入”的方式,以确保录入数据和原始气象档案的一致性。

3)录入数据文件校对。对数字化数据录入文件应进行严格的校对检查,包括程序检查和人工审查两部分,要求至少两人各自独立开展校对,称为“两校”。

2.3 图形提取技术

图形提取技术是从图像中分离记录着气象数据的曲线信息的数字化技术,主要针对自记纸类气象档案。目前中国气象局降水自记纸图形数字化工作依托“降水自记纸数字化处理系统”进行。“降水自记纸数字化处理系统” 由王伯民等[5]开发,其文中给出的系统结构如图1,数据流如图2。

如图1和图2所示,降水自记纸图形数字化的步骤和流程主要有:

1)自记纸预处理

包括降水自记纸完整性检查、无降水或缺测自记纸的处理、命名正确性检查等。

2)迹线数据提取

使用降水自记纸数字化处理系统提取降水自记纸数据,生成降水曲线数据文件。

3)数据转换

使用降水自记纸数字化处理系统将降水曲线数据文件转换为降水标准数据文件、分钟降水文件和小时降水文件。

图1 降水自记纸数字化处理系统结构[5]Fig. 1 The structure of processing system for precipitation record paper

图2 降水自记纸数字化处理系统数据流和数据产品[5]Fig. 2 Digital flow and products of processing system for precipitation record paper

4)迹线跟踪效果的检验

使用降水自记纸数字化处理系统的效果回放模块和降水自记纸数字化成果质量检查评估软件对迹线跟踪效果和形成的各类数据文件进行质量检查。

5)降水数据产品制作

进行降水自记纸图像文件数据集、降水曲线数据集、降水强度数据集(分钟降水和小时降水数据)的制作。

该项技术也为风、温等其他类型自记纸的数字化处理提供了开发思路,奠定了良好基础。

2.4 数据集成及质检技术

即基于扫描图像及录入、图形提取数据文件,按照《气象资料分类与编码》[8]及相应的数据集制作技术规范的要求进行数据集制作,编写数据集说明文档及元数据等。数字化成果按上述标准集成后要进行人机结合的质量检查以进一步保障数据质量,具体如下:

1)完整性、规范性检查

依据相关标准规定及数据清单对数据集产品进行完整性检查,还要检查文件是否规范存储和文件命名是否正确;

2)质量检查

扫描图像的质量直接影响到资料数字化录入或图形提取的效果,因此必须对图像文件进行严格的质量把关,保证数字化扫描图像的清晰、完整、有序,图片不能歪斜、颠倒、扭曲变形,黑边与污点有条件尽量处理;

对于录入数据也要开发软件进行格式和质量检查,不合格的及时返工;

自记纸图形识别产品目前使用专用软件进行曲线贴合度和数据处理质检。

3)质量复查

通过随机采样或条件筛查的方式,按一定比例对结果进行复查,确保质量检查效果。

4)编写数据集评估报告,根据归档要求编写数据集相关文档。

3 气象资料数字化成果应用

3.1 基础数据产品支撑

20世纪70年代末以来,全国陆续完成地面气象记录月报表、高空风记录月报表和高空压温湿记录月报表的数字化,建立了中国第一批数字化基础气象资料集。又通过资料整编工作,形成了1951—1980年的气候标准值产品,提供气象业务科研应用。此后气象辐射记录月报表中辐射日值、小时值观测记录的录入工作也相继完成,形成辐射基础资料集。上述3类基础资料集在气象事业发展过程中长期发挥着重要的支撑作用。

2011—2013年,国家气象信息中心牵头31省开展的“基础资料专项工作”,对地面、高空、辐射基础资料集中存在的数字化数据质量问题进行了系统检测,使其完整性、可靠性和准确性进一步提升。在此基础上,国家气象信息中心已陆续研制完成基础数据产品、气候整编产品、均一化产品、网格化产品等4类22个气象数据集(表3),满足了用户对不同时空分辨率数据的需求,也为预报预测、极端气候监测、气候变化检测与评估、决策气象服务及科学研究提供了重要的数据保障,促进气象业务发展、获得社会效益效果显著。

3.2 气候变化研究应用

由于在政治、环境、经济上的特殊意义及其在科学上的不确定性,气候变化一直是学术界的研究热点之一。已有研究指出,过去100年特别是过去50年全球陆地表面气温比海洋表层水温明显升高,包括我国东北、华北、西北和青藏高原在内的亚洲中高纬地带是气候变暖最显著的区域[9]。因此,对中国区域表面气温的长期变化趋势进行监测和检测,成为气候变化领域的一项重要基础性工作,这不仅可为我国气候变化监测业务提供理论和方法支持,也为国家制定应对气候变化策略和行动方案提供决策依据。

长年代的气候序列是研究和深入认识气候变化趋势和规律的基础。为进一步推动珍贵历史气象观测资料的应用,挖掘早期器测资料的科学价值,国家气象信息中心在全国范围内选取有代表性的60个城市,对1949年以前及20世纪50年代初期观测记录档案中降水和气温数据进行了手工录入,初步形成60个主要城市降水气温数字化资料。图3为1840—2010年北京1月、7月月平均气温逐年变化,其中1950年之前数据均为解放前和解放初期气象观测资料数字化成果。尽管1950年前序列出现了数次中断,但这些宝贵的观测资料仍是气候变化研究不可或缺的重要组成部分。

表3 基于地面、高空、辐射基础资料数字化成果研制的数据产品Table 3 Table 3 The datasets based on historical meteorological data digitizing

图3 北京1月、7月月平均气温逐年变化(1840—2010年)Fig. 3 Annual variation of monthly mean temperature in Beijing for 1840-2010: (a) January; (b) July

基于上述数字化成果,曹丽娟等[10]利用数据质量控制、序列插补以及均一化等技术,完成了我国中东部地区18个城市的地面月平均气温均一化序列的构建,并为国际同行所公认。研究表明,1909—2010年我国中东部地区增温趋势为1.52 ℃/100a。

3.3 建立更高时间分辨率要素序列

长期以来地面台站人工定时观测降水量(20—08时、08—20时)是气象业务科研中使用最广泛、最准确的降水资料。但随着极端降水事件、暴雨洪涝灾害研究、海绵城市建设等的深入研究,对更高时间分辨率降水资料的需求越来越突出。通过整合气象观测报表录入数据、降水自记迹线提取数据等数字化成果,形成了一套虹吸式和自记式翻斗雨量计小时资料集。将上述自记仪器观测资料与自动气象站观测资料衔接,国家气象信息中心完成了“中国国家级地面气象站逐小时降水数据集”的研制[11],并在国家气候中心东亚季风监测、全国气候影响评价和《重要气候信息》编制等业务工作中发挥了重要作用,气候中心还基于此数据集编制出版了《中国极端降水气候图集》。

风对于地球上的热量和水汽的水平输送起着很重要的作用,它既是气候模式的重要输入参数,也是大气污染物扩散模型中的必要参量,同时风能也是一种资源。此外,在桥梁、高层建筑等设计中,需要考虑当地的风场和风频次分布等,作为设计依据以保证建筑安全。因此,长序列逐小时风向风速观测资料不仅是气候分析和大气环境研究中不可缺少的要素,也为其他行业如风电、光电和建筑设计等提供了重要的科学支撑。2016年国家气象信息中心基于报表数字化录入的2400余个国家站建站至自动站正式运行前一年的地面风自记观测数据,与2001年以来自动站小时风数据进行拼接整合,完成包括日界、方式位、风向表示法等方面的格式统一,并对数据进行多项格式检查。在借鉴以往质量控制技术基础上,针对小时风向风速数据制定了质量控制方案,包括气候界限值检查、时间一致性检查、内部一致性检查等,完成“中国逐小时风数据集”研制,并通过中国气象局业务内网向全国气象部门和大院业务科研单位正式发布。赵煜飞等[12]基于该数据集,对青藏高原地区各季节风速日变化进行了分析,结果表明春季风速最大。青藏高原东部、西部地区分别在16、14时风速最大,且东部地区16时风速明显大于西部地区14时风速。

4 展望

30多年来,随着现代气象业务快速发展,气象资料数字化也经历了从无到有,并不断发展创新的历程,取得了较丰富的数字化成果并得到广泛应用。目前正在开展的一般站降水自记纸图形数字化工作采用了创新性的业务流程,将过去每年定期汇交、依靠人力手工审核的传统流程转变为按月及时汇交和人机结合的近实时审核,提前数月更早地介入数字化现场有效地实施全程监管,提升数字化成果质量和服务时效。同时国家气象信息中心正探索提升历史气象资料数字化产品在线管理和服务能力,选取全国1951年以来地面、高空、辐射、农气等4大类19小类常用历史气候资料报表(约2700万页,数据量超过10 TB),试建了基于国家气象业务内网(http://idata.cma/)的气候资料数字化图像在线查询、检索服务专栏。

但由于历史气象资料载体和记录状况的繁杂性、技术发展成熟度制约、数字化人才缺乏等种种因素,数字化工作与其他气象业务相比在现代化水平方面还存在着较大差距。“十三五”气象信息系统发展规划现代化目标明确提出,要提高数字化气象资料在线管理服务率,更便捷、高效、全面地提供长年代气候背景数据产品。信息中心计划依托现代信息技术,安全、科学、高质量地进行气象资料数字化拯救和产品研发,在已推出的国家级气象观测站降水、风要素长序列逐小时数据产品外,进一步加强气温、气压、相对湿度等常规要素的长年代历史观测数字化成果转化和产品研制;同时推动数字化业务收集、质量检查、整合集成、归档存储、安全备份、在线管理服务一系列全流程标准化规范化建设,保障数字化质量,积极响应用户需求不断丰富数字化成果服务内容、改进服务方式,持续提升用户体验以满足气象预报预测研究、应对气候变化能力建设、决策服务分析、预防灾害风险及其他业务科研领域方方面面的需求。

[1]臧海佳, 吴显中, 李星玉, 等. 气象资料拯救指南. 推荐性行标. QX/T 201-2013.

[2]吴忠义. 中国气候资料工作概况. 北京: 气象出版社, 2005.

[3]臧海佳, 吴显中. 气象记录档案数字化工作实践与分析. 中国档案,2008(5): 34-36.

[4]中国气象局预测减灾司. 常规气象资料信息化模式文本汇编. 北京: 气象出版社, 2001.

[5]王伯民, 吕勇平, 张强. 降水自记纸彩色扫描数字化处理系统. 应用气象学报, 2004, 15(16): 737-744.

[6]兰平, 臧海佳. 历史纸质气象档案数字化技术策略初步分析. 应用气象学报, 2006, 17(4): 478-482.

[7]王伯民. 彩色扫描图形数字化处理技术的研究─气象历史档案拯救技术探索之一. 应用气象学报, 2003, 14(6): 763-768.

[8]熊安元, 王伯民, 王颖, 等. 气象资料分类与编码. 推荐性行标. QX/T 102-2009.

[9]任国玉, 任玉玉, 李庆祥, 等. 全球陆地表面气温变化研究现状、问题和展望. 地球科学进展, 2014, 29(8): 934-946.

[10]Cao L, Zhao P, Yan Z, et al. Instrumental temperature series in eastern and central China back to the nineteenth century. J Geophys Res, 2013, 118: 8197–8207.

[11]张强, 赵煜飞, 范邵华. 中国国家级气象台站小时降水数据集研制. 暴雨灾害, 2016, 35(2): 182-186.

[12]赵煜飞, 张强, 余予, 等. 中国小时风速数据集研制及在青藏高原地区的应用. 高原气象, 2017, 36(4): 930-938.

猜你喜欢
报表降水气象
气象树
四川盆地极端降水演变特征及拟合
《内蒙古气象》征稿简则
Cloud seeding
大国气象
美丽的气象奇观
镇长看报表
“SEEPS”降水预报检验评分方法在我国降水预报中的应用试验
ESSENTIAL NORMS OF PRODUCTS OF WEIGHTED COMPOSITION OPERATORS AND DIFFERENTIATION OPERATORS BETWEEN BANACH SPACES OF ANALYTIC FUNCTIONS∗
月度报表