海洋浮标表层环境要素质控流程和方法的研究

2022-08-25 02:16雷发美商少平陈剑桥
海洋技术学报 2022年4期
关键词:数理统计浮标观测

雷发美,万 艳,商少平,陈剑桥

(1.厦门大学海洋与地球学院,福建 厦门 361005;2.厦门大学海洋观测技术研发中心,福建 厦门361005;3.福建省水产设计院,福建 福州 350003;4.福建省海洋预报台,福建 福州 350003)

随着国家对海洋的重视,我国的海洋开发和管理日益加强,海洋经济日益繁荣,极大地推动了海洋观测系统的发展,也促进了海洋观测仪器的技术革新及海洋观测数据种类和数据量的快速增长。多源海洋观测数据的融合和同化将成为准确描述和预测近岸和开阔大洋的物理、生物、化学状态的关键技术,进而服务于科研和社会的多种应用。在海洋环境预报、海洋工程建设、海洋灾害应对、海洋权益保障等方面,海洋环境观测资料提供了重要的基础信息,是不可缺少的依据,尤其是高质量的监测数据能够科学地反映海洋环境,而这一切的前提是对多源数据的质量有清晰明确的认识,即要求对各种海洋观测系统和平台所获取的数据有简便、可靠的质量描述与控制。然而,在实际观测过程中,数据采集、传输、保存、仪器故障、采样地点的偶发事件等一系列因素都可能对观测结果产生影响,导致数据出现异常。目前,对来源众多、格式不一、数据量越来越大、时效性越来越高的多源观测数据,实行准确有效的数据质量评估和控制是海洋工作者面对的重大挑战之一。海洋观测数据的获取更新、整合处理、管理应用和共享服务等工作已经成为社会各界共同关注的议题。

20世纪末开始,美国环境保护署(United States Environmental Protection Agency,EPA)建立了一系列标准化的数据质量控制和质量评估方法,即《数据质量评估导则》[1-2],对环境监测数据进行质量评估[3]。美国海洋政策委员会(United States Commission on Ocean Policy)于2012—2016年完成实时海洋数据的质量保证与质量控制计划,该计划针对26个物理、化学和生物等方面核心要素的实时海洋观测数据建立了标准化的质控流程[4]。日本海洋学会(The Oceanographic Society of Japan)也将海洋数据质量控制作为重要的工作内容[5]。我国海洋监测数据的质量控制主要依据GB 4883—2008《数据的统计处理和解释 正态样本离群值的判断和处理》[6]、GB/T 14914.6—2021《海洋观测规范第6部分:数据处理与质量控制》[7]、《海洋监测质量保证手册》[8]和HY/T 0315—2021《海洋观测延时资料质量控制审核技术规范》[9]。

为了保证海洋监测数据的代表性、完整性、精密性、准确性和可比性(即“五性”),近年来国内外都将数据质量控制和评估作为海洋观测的重要内容来考虑,并陆续建立一系列标准化的质量控制或评估流程和方法[10]。海洋监测数据具有多源性、多态性、多样性和区域性等特征,这就决定了对数据质量的控制和评估不能一概而论,需要结合具体的观测方式、观测平台和观测区域等要素来综合考虑。虽然在海洋数据质控方面存在大量研究成果,但主要是围绕质控共性理论方法的探究[11],专门针对浮标表层环境要素数据质控流程和方法的研究较少[12]。本文主要研究海洋浮标表层环境要素数据的质控,并对质控结果进行分析,以此来建立一种可靠且实用的数据质量控制流程和方法,该方法流程清晰,简洁实用,正常情况下不需人工干预就可以有效检出异常数据,质控过程中采用误差控制,可最大限度防止误删,并且质控后对每个值进行质量标识,根据质量标识可以快速追踪数据异常的原因,为最终获得完整、准确、质量可靠的海洋观测数据提供保障。

1 数据和方法

1.1 海洋浮标观测数据

海洋浮标包括大型海洋环境监测浮标和小型海洋环境监测浮标,两者观测要素基本相同,数据格式也基本相同[13],主要包括剖面流速、剖面流向、有效波高、平均波高、最大波高、1/10大波波高、有效波周期、平均周期、最大波高周期、1/10大波周期、平均波向、波数(测波个数)、平均风速、平均风向、最大风速、气温、气压、能见度、相对湿度、表层水温、电导率、表层盐度等表层环境要素和溶解氧、溶解氧饱和度、叶绿素、浊度、pH等生化要素,另外,数据中还包括浮标名称或编号、时间、经度、纬度、仪器状态等信息。本文仅对大浮标表层环境要素进行质控,但不包括海流。

1.2 质控流程和方法

质控流程一般分为计算机自动质控和人工审核两部分,其中计算机自动质控部分包括数据前处理质控、数理统计质控、局地质控和误差控制等4个部分,人工审核包括剔除未自动识别出的异常值和恢复被误删的正确值。质控过程中根据每步质控结果对数据进行质量标识,标识出正确数据、未评估数据、可疑数据、错误数据和缺失数据等。

1.2.1 前处理质控

在浮标表层环境要素数据记录中,空白值一般为特殊符号或者缺省值,该值的存在严重影响数据的处理和后续质控的进行,应优先剔除。在某些情况下,仅从数据本身很难判断该值是否为需要的测量值,比如跑标,因此要从时间、地点和日志等多方面进行检验,基本属性错误的数据直接剔除。若获取的数据明显超过该区域历史观测资料的范围,也判定为错误值,直接剔除。因此,前处理质控主要包括空白值检验、时间检验、位置检验、设备日志检验和阈值检验等。

(1)空白值检验

空白值检验包括空格和缺省填充值检验,海洋观测资料一般是按照规定的格式进行记录的,对缺测数据的填写都有相应的要求,一般用预先设置的值(明显区别于正常值)进行填充。检验时,空格不处理,缺省值直接剔除。

(2)时间检验

时间检验包括时间范围和时间连续性检验。数据的观测时间应在质控数据的起止时间范围内,观测时间不合理的判定为异常值;依据数据的观测频率进行连续性判断,删除不在理论采样时间点的数据,同时补充缺失的理论采样时间点的数据记录,要素观测值设置为空格。对于时间间隔不规律的观测,不进行连续性检验。

(3)设备日志检验

根据设备的工作情况记录,对仪器维护、故障等非正常运行期间的数据,各要素观测值直接剔除。

(4)位置检验

若浮标位置信息缺失,一般问题不大(浮标通常比较固定),将缺失经纬度的观测要素值标识为可疑值,参与后续处理。若某一时刻浮标位置明显超出预先设定的范围,该位置及其对应的要素值均判定为异常值。若一段时间内浮标位置不断变化,则可能发生移标(跑标或人为移动),位置变化过程中的所有数据判定为异常值,稳定后数据保留。

(5)阈值检验

对监测参数在该区域历史观测资料中的范围进行统计,找出该监测参数的取值变化范围,指导参数阈值范围的划分,超出阈值范围的数据判定为异常值,但要注意边界值,比如波高和风速记录值为0的时候,有可能是正确值。

1.2.2 数理统计质控

数理统计是以概率论为基础研究大量随机现象的统计规律性的一门数学学科[14]。数理统计检测数据异常的方法一般具有普适性,应用范围广泛,但需要满足一定的数据量,且该数据具有随机性,这样才具有稳定性和准确性。对于浮标数据来说,数据量一般不是问题,长时间观测获得了大量的数据,在随机性方面,基于成本考虑,一个变量同一时刻一般只有一个测量数据,等到下一个时刻再次测量时,环境参数可能已经发生了变化,无法对同一参数进行多次独立重复测量,也就是说,随着时间的推移,获取的变量数据不是随机的。为了使用数理统计理论,需要做一个假设:在t时刻测得某个变量值,在时刻之前测n个数据,在t时刻之后测m个数据,把这些数据视为一个整体,看成是对同一个变量的多次测量,环境引起的变化视为随机变化造成的,于是可以对该数据使用数理统计方法。基于该假设,对浮标数据进行质控时,时间窗口的选择尤为重要。

基于以上假设,可以用数理统计的方法来检验数据,数理检验的方法很多,各方法基本原理大同小异,但不同情形下采用的准则有所不同[15]。选取数理检验方法时,遵循简单易用并且大家都比较熟悉和公认的方法,同时参照国家标准[6]和行业标准[9],选择几种适当的方法对各种要素进行多次检验,防止漏检。本次采用的数理统计质控方法主要有莱特检验(三倍标准差)、奈尔检验、格拉布斯(Grubbs)检验、狄克逊(Dixon)检验、峰度检验等。

(1)莱特检验

莱特准则是一种正态分布情况下判别异常值的方法,比较适用于样本n>10的情况,具有普适性。σ为已知的总体标准差,为样本均值,若第i个测量值xi对应残差的绝对值满足式(1),则判定该测量值xi为异常值。

(2)奈尔检验

当已知标准差时,使用双侧奈尔检验法,样本量为3≤n≤100,该检验主要针对短时间内高频测量数据,此时可以把仪器的精度当作标准差来使用。

确定检出水平α后,从国家标准[6]查表A.1得出临界值R1-α/2(n),当Rn>Rn′且Rn>R1-α/2(n)时,判定xn为可疑值;当Rn′>Rn且Rn′>R1-α/2(n)时,判定x1为可疑值。对可疑值确定剔除水平α*,从国家标准[6]查表A.1得出临界值R1-α*/2(n),当Rn>R1-α*/2(n)时,判定xn为异常值;当Rn′>R1-α*/2(n)时,判定x1为异常值。

(3)Grubbs检验

未知标准差时,可以使用双侧Grubbs检验法,样本量为3≤n≤100。

对样本最大值计算统计量如下。

确定检出水平α后,从国家标准[6]查表A.2得出临界值G1-α/2(n),当Gn>Gn′且Gn>G1-α/2(n)时,判定xn为可疑值;当Gn′>Gn且Gn′>G1-α/2(n)时,判定x1为可疑值。对可疑值确定剔除水平α*,从国家标准[6]查表A.2得出临界值G1-α*/2(n),当Gn>G1-α*/2(n)时,判定xn为异常值;当Gn′>G1-α*/2(n)时,判定x1为异常值。

(4)Dixon检验

未知标准差时,可以使用双侧Dixon检验法,样本量为3≤n≤100。

对样本最大值xn和最小值x1计算统计量Dn和Dn′,计算公式见表1。

表1 Dixon检验统计量计算表

确定检出水平α后,从国家标准[6]查表A.3′或C.2得出临界值D1-α(n),当Dn>Dn′且Dn>D1-α(n)时,判定xn为可疑值;当Dn′>Dn且Dn′>D1-α(n)时,判定x1为可疑值。对可疑值确定剔除水平α*,从国家标准[6]查表A.3′或C.2得出临界值D1-α*(n),当Dn>Dn′且Dn>D1-α*(n)时,判定xn为异常值;当Dn′>Dn且Dn′>D1-α*(n)时,判定x1为异常值。

(5)峰度检验

分析样本观测值,发现样本主体来自正态总体而极端值较明显偏离样本主体时,可以使用峰度检验法。峰度统计量公式如下。

确定检出水平α后,从国家标准[6]查表A.5得出临界值b1-(αn),当bk>b1-(αn),判定离均值最远的值为可疑值。对可疑值确定剔除水平α*,从国家标准[6]查表A.5得出临界值b1-α(*n),当bk>b1-α(*n)时,判定距离均值最远的值为异常值。

1.2.3 局地质控

浮标观测数据是多样的,有些数据通过数理统计方法不能有效地检出,比如短时间内整体漂移或者长时间数值不变,因此,引入局地质控检验[12],主要包括梯度检验、卡值检验(粘滞检验)、尖峰检验、滤波检验和关联性检验等。

(1)梯度检验

梯度检验主要是针对短时间内数据的整体漂移,该部分漂移值用数理检测方法难以检出,而使用梯度检验效果较好。对同一个站位某一要素的连续观测数据计算梯度(即观测要素的时间变化率),计算公式如下。

式中,t为观测时间;ξ(t)为时刻的观测值;gradξ(t)为梯度。

对梯度进行三倍标准差检验,在一个梯度数据序列中,如果两个梯度数值都超出三倍标准差并且这两个数据相隔时间较短,则认为该段数据出现了整体偏移,这两个数值之间的整段数据判定为异常值,剔除后继续对剩余数据检验,直到没有异常数据检出。

(2)卡值检验

观测仪器灵敏度和精度足够的情况下,海洋观测要素受流体动力因素的影响,在一定时间或空间内不会恒定不变,若恒定不变,则数据可能异常,需要进行卡值检验,具体方法如下。

找出某段时间中要素最大值xmax和最小值xmin,两者之间的差值应大于一定的值,否则该段数据判定为异常数据。

式中,H为卡值检验参数,根据要素类型、观测时间和区域等确定,通常取值接近0。

(3)尖峰检验

在数据量较少时,数理统计方法比较难以判断是否为异常值,可以采用尖峰检验,计算公式如下。

式中,β是临界系数,根据不同的观测要素进行设置,并且默认前一时刻值xn-1和后一时刻值xn+1均为正常数据,大于临界系数的判定为异常值。

(4)滤波检验

滤波方法有很多种,根据不同的变量可以采用不同的滤波方法,比如限幅滤波法、中位值滤波法、算术平均滤波法、递推平均滤波法、中位值平均滤波法、限幅平均滤波法、一阶滞后滤波法、加权递推平均滤波法、消抖滤波法、限幅消抖滤波法、卡尔曼滤波等。每种滤波方法有各自的优缺点,根据质控变量数据本身的性质,选择合适的滤波法,可获得较好的效果,该方法主要用于海流检验。

(5)关联性检验

根据观测资料数据间的相互关系进行检验,例如电导率、盐度和水温之间的关联性,这三个变量之间存在函数关系,水温异常会导致电导率、盐度异常,电导率的异常会导致盐度异常等。风、浪和流之间也有关联性,风速增大会导致波浪变高、流速变快等。当风速突然变大为确定事件时,例如台风天,对浪和流检出的异常值要引起注意,很可能是正确值。

此外,由于矢量包括大小和方向,两者分别进行质控,若其中一个量为异常值,则判定该矢量为异常值,对质控后的矢量再分解为东分量和北分量,若其中一个分量为异常值,则判定该矢量为异常值。

1.2.4 误差控制

在数理统计质控中,做了一个随机的假设,但事实上观测数据并不是随机的,因此基于该假设的计算结果无法保证准确性,甚至有可能是错误的,需要进一步对结果进行检验,检验方法主要采用误差控制法,把检测结果与相邻数据进行比较,超过误差控制值的才判定为可疑值或者异常值,该检验可以有效防止因仪器本身误差而造成的过度删除。

式中,xE为xn前后时刻的相邻值(也可以取平均值);Er为误差控制值。Er可以分为理论误差值和经验误差值,理论误差值是基于仪器自身精度来计算的,根据误差传播定律[16],两次独立测量的差值最大允许范围为仪器精度的倍,即Er可取对应仪器精度的倍;经验误差值则是根据实际经验,认为一段时间内差值要大于某一特定值(或者百分比)才算异常值,该值可以根据不同时间、不同地点、不同变量而设不同的值。一般来说,经验控制误差值要大于理论控制误差值。当xn与xE差值不大于误差控制值时,判定xn为正常数据,不能剔除。误差控制部分不单独使用,在每个异常数据检出后均进行误差控制检验。

1.2.5 人工审核

由于数据的多样性和环境变化复杂性,通过以上质控步骤不能完全达到质控要求,可能有部分错误数据没被检出,也有可能会误删部分正确数据,比如过于稀疏的数据、台风过境的数据等,因此还需要进行人工审核。人工审核一般通过绘制可视化的图形进行对比,观察挑选出遗漏的错误数据,同时恢复误删的正确数据。

1.2.6 质量标识

参照美国海洋政策委员会开展的实时海洋数据的质量保证与质量控制计划[17],对各观测要素质控后分离出的数据进行质量标识,正确数据标识为1,未评估数据标识为2,可疑数据标识为3,错误数据标识为4,缺失数据标识为9,在此基础上,为了便于区分和追踪质控过程,对每种质控检验方法也都给定相应的编号,两两相互组合,详细情况见表2,根据质量标识就可以快速了解可疑值和异常值的检出原因。

表2 检验方法及质量标识

由于质控是按固定流程进行的,异常值第一次检出时就会被剔除并进行标识,而可疑值会继续保留参与质控直到流程结束,所以异常值的标识为第一种检出异常值的方法,而可疑值的标识为最后一种检出可疑值的方法。比如质控后某个异常值标识为4.23,表示该值在Grubbs检验时未通过,判定为异常值,虽然该值在Dixon检验时也可能是异常值,但Grubbs检验在前面,该值已经被判定为异常值,不参与后面的Dixon检验。同样的,如果质控后某个可疑值标识为3.25,表示该值在峰度检验时判定为可疑值,当然在Grubbs和Dixon检验时也可能是可疑值,但只保留最后一个检验出可疑值的方法。

1.2.7 质控流程

根据浮标数据的特点,采用了前处理质控、数理统计质控、局地质控、误差控制、人工审核及质量标识等步骤,其中误差控制只有在数理统计和局地质控未通过时才使用,质量标识在每个数据检验完成之后进行,整个质控流程步骤见图1。质控时,不同要素质控流程会有所不同,有些要素无法使用数理统计或者局地质控。

图1 质控流程示意图

2 结果和讨论

2.1 数据来源

本文使用的海洋浮标数据来源于福建省海洋观测网的海洋1~5号大浮标和海峡1~2号大浮标(该浮标命名在行业标准[18]执行之前,故未按标准命名),数据时间从2017/01/01 00∶00开始至2017/01/15 23∶50结束,采样间隔均为10 min,各浮标数据信息见表3。

2.2 质控参数设置和结果

采用以上质控流程和方法,对海洋1号大浮标数据按要素逐一进行质控,时间窗口约为1 d(数理统计部分每次检验最大为100个数据),质控参数的选取参考浮标观测的时间、地点、历史资料等,控制误差均设置为经验误差,各要素阈值范围和控制误差见表4,其中波向、风向、波数、能见度等几个要素未进行数理统计检验,不设控制误差。

表4 质控参数设置

一般来说,前处理质控对所有要素均适用,只是参数的选择有所不同,但数理统计和局地质控对不同要素质控时应当选择适当的检验方法。比如能见度,在一段时间内大部分数据为固定值,但也可能存在突然变化的情况,因此,不能使用数理统计质控检验方法。矢量中的方向也要注意,由于方向取值范围为0°~360°,但0°和360°是同一个方向,所以方向数值未做处理时,一般的异常值检测方法都不适用。针对各要素的特点,以海洋1号大浮标为例,海洋表层环境不同要素质控方法的选取和异常数据检出情况见表5,质控前后对比见图2至图7(仅给出部分图,无数据或者无效数据过多者略)。

图2 海洋1号大浮标有效波高和平均波高质控前后对比图

图7 海洋1号大浮标相对湿度和表层水温质控前后对比图

表5 海洋1号大浮标各质控方法检出异常值情况

从表5质控结果来看,海洋1号浮标理论记录为2 160个,实际记录为2 087个,缺失73个,波数和表层盐度数据基本缺失。检出的异常值中,阈值检出占大部分,主要是因为空白部分数据记录为0,这些空白值通过阈值检出。平均波高和平均波向、平均风速和平均风向则通过关联性检出部分异常值,但需要注意的是,由于测量原理和仪器不同,该矢量可能不是严格意义上的关联矢量(大小和方向分别测量),可根据需要选择关联性质控。日至15日7个大型海洋浮标各要素数据质控统计结果见表6,该表中的异常值个数不含缺测数据,空白值(包括空值和填充值)在异常值后面用括号单独列出。

图3 海洋1号大浮标平均波向和最大波高质控前后对比图

图4 海洋1号大浮标1/10大波波高和平均风速质控前后对比图

图5 海洋1号大浮标最大风速和气温质控前后对比图

图6 海洋1号大浮标气压和能见度质控前后对比图

表6 各个大浮标表层环境要素异常值个数统计

对7个海洋浮标质控检出的异常值进行人工审核时,发现平均风速误删较多,删除标识为4.34,表明是关联性检验时删除,进一步查询原数据,发现是浮标数据记录的问题,当风向为0°的时候记录为空白,导致质控时风矢量被判为异常值。对于该异常值,风速大小通过数理统计未出现明显异常,但缺少对应的风向,可以根据需要是否保留使用。

2.3 质控结果分析

一般来说,通过质控处理后如果还有未被剔除的异常数据,很容易通过作图比较看出,但是如果有误删则比较难以发现。在引入误差控制后,误删的可能性较小,从质控结果来看,误删一般发生在极端天气或者有效数据太少的情况下,另外有些临界值也不容易判定是否为异常值。

以海洋1号大浮标有效波高为例,实际数据记录为2 087条,以个人经验判断,原始数据图8中红线以下部分的数据都可能是异常值,共81个值。通过以上质控检出79个异常数据(表5),有2个数据未被判定为异常数据,见图8中A、B两点。通过查看数据发现,2017年1月2日21点40分(即A点)有效波高值为0.3 m,两侧邻近值为0.7 m,其对应的质量标识为3.25,表明该值被判定为可疑值;另一个出现在2017年1月7日23点10分(即B点)有效波高值为0.4 m,两侧邻近值为0.7 m,其对应的质量标识为1,表明该值判定为正确值。究其原因,在质控过程中,把控制误差设定为0.5 m[19],只要不超过控制误差都判定为正确值,由于A、B点与两端的差值均没有超过控制误差,所以不会被判定为异常值。因此,通过质控后A点被判定为可疑值(数理统计判定),B点被判定为正确值。从图8中也可以看出,A、B两点与其他异常值所处的环境条件是不同的,这两点处于波谷,环境的变化加上仪器测量的误差,这个测量值可能是真实的,所以这个质控结果是合理的。

图8 海洋1号大浮标有效波高原始数据图

通过对7个浮标各海洋表层环境要素质控前后数据和图形对比可以看出,该质控流程和方法达到了预期的目标,异常值均被检出并且剔除,没有发现明显异常。基于以上质控结果,采用该质控流程和方法对小浮标、渔排基、潮位站等同类型观测站点获取的海洋表层环境要素数据进行质控,同样可得到满意的结果,但由于不同站点的观测要素不完全相同,在输入、输出和前处理等方面要做出相应的改变。

3 结 论

针对福建省海洋观测网的7个海洋大浮标表层环境要素数据,通过前处理质控、数理统计质控和局地质控后可以有效地检出异常数据,再通过人工审核对一些特殊数据进行处理,最后可根据数据的质量标识,追踪数据质量的判断依据。本文对海洋浮标表层环境要素数据质控流程和方法的研究结论如下。

(1)前处理质控很有必要,因为浮标数据不可避免地会有空白值及仪器维护和故障等,这些值严重影响数理统计质控。数理统计质控是质控的核心部分,可以有效地检出异常数据,使用多种数理统计方法检验,防止漏检。

(2)误差控制是质控过程中的重要环节,数理统计和局地质控检出的每个异常值都要进行误差控制,能有效防止误删,人工审核为漏检和误删做最后把关。

(3)质控后对每个值进行质量标识,根据质量标识可以快速追踪数据异常的原因,后期也可以按照质量标识根据实际需要使用数据。

(4)本文质控流程和方法思路清晰,简洁实用,由于在不同质控环节使用多种质控方法,一般情况下不需人工干预,但是在特殊环境下,存在误删的可能。

(5)本文质控是基于大型海洋浮标表层环境要素延时资料提出的,但也适用于其他同类型海洋观测平台获取的延时或实时资料。

猜你喜欢
数理统计浮标观测
线上线下混合教学模式在概率论与数理统计课程中的应用
浅谈浮标灵敏度的判断
浅谈浮标的吃铅比数值
一种浮标位置修正算法*
数学实验在概率论与数理统计中的教学应用
提问:冬钓轻口鱼如何选择浮标?
天文动手做——观测活动(21) 软件模拟观测星空
2018年18个值得观测的营销趋势
可观测宇宙
概率统计教学中培养学生创新思维和实践能力的探索与实践