内河AIS数据有效性分析方法对比

2016-10-12 03:25初秀民刘兴龙
中国航海 2016年2期
关键词:经纬度曲线拟合均值

聂 阳, 初秀民, 刘兴龙

(1.武汉理工大学 智能运输系统研究中心,武汉 430063;2. 水路公路交通安全控制与装备教育部工程研究中心,武汉 430063;3. 武汉理工大学 能源与动力工程学院,武汉 430063)

NIE Yang1,2,3, CHU Xiumin1,2, LIU Xinglong1,2,3

内河AIS数据有效性分析方法对比

聂 阳1,2,3, 初秀民1,2, 刘兴龙1,2,3

(1.武汉理工大学 智能运输系统研究中心,武汉 430063;2. 水路公路交通安全控制与装备教育部工程研究中心,武汉 430063;3. 武汉理工大学 能源与动力工程学院,武汉 430063)

为确定内河AIS数据有效性分析的方法,分析内河AIS数据特性,构建内河AIS数据分析试验平台。同时,分别使用曲线拟合法和模糊C均值聚类法对采集的典型河段的内河船舶AIS数据的有效性进行归类分析,并对测试结果进行对比分析。结果表明:AIS错误数据很少时,模糊C均值聚类法和曲线拟合法对AIS数据分类的效果相似;但涉及到海量AIS数据时,曲线拟合法优于模糊C均值聚类法。

水路运输;船舶自动识别系统;曲线拟合;模糊C均值聚类;错误率

NIEYang1,2,3,CHUXiumin1,2,LIUXinglong1,2,3

Abstract: In order to find rational methods for analyzing the validity of AIS information, the characteristics of inland AIS information are analyzed and an inland AIS information analysis experiment platform is constructed. A set of typical AIS information collected from real inland water traffic is grouped on the effectiveness basis by means of curve fitting method and the Fuzzy C-Means (FCM) clustering respectively. The analysis of the results from both processing methods indicates that the two methods give similar results when the rate of wrong AIS information is low, but when the rate is higher, curve fitting method is superior to FCM algorithm.

Keywords: waterway transportation; AIS; curve fitting; fuzzy c-means clustering; error rate

船舶自动识别系统(Automatic Identification System,AIS)数据是监控船舶航行和优化水上交通管理的基础。AIS由岸基设施和船载设备组成。在当前的港口船舶引航和船舶航行监控系统中,AIS已得到充分应用。AIS信息可显示在电子江图上,供使用者直观地获取船舶信息,提高船舶航行的监控效率。

由于AIS没有完整的信息验证机制,实际应用中大量的错误AIS数据需依靠经验来判断,工作量极大,因此需找出一种适用于AIS数据有效性分析的方法。关于数据的有效性分析,常用的方法有曲线拟合法、模糊聚类法和一阶差分法等。郑琳等[1]在对海洋监测数据进行质量评估时,运用曲线拟合法判别数据异常值,依据数据分布情况拟合曲线并设定阈值,有效检验出极端异常的数据。对基于船舶轨迹的AIS数据的研究,张文娟等[2]提出用一阶差分法去噪,实际验证结果表明该方法是可用且有效的,但没有实际应用到海量的AIS数据分析中。目前模糊聚类算法的应用已较为广泛和成熟,其中模糊C均值聚类[3]的应用最为广泛,但应用于海量数据聚类分析中的较少。

WANG等[4]采用AIS数据在仿真平台重现船舶碰撞事故,为处理水上交通事故取证。PAN等[5]建立AIS数据可视化模型,用于评估海上交通状况和智能运输系统。MULYADI等[6]探讨基于AIS数据建立的马都拉海峡海底管线上方的船舶下沉频率模型的发展。齐乐等[7]基于AIS数据建立避让的船舶领域模型,但未探讨AIS数据的有效性。对此,开展AIS数据有效性分析方法的研究,分别用曲线拟合法和模糊聚类法分析AIS数据,以确定较优的AIS数据有效性分析方法,为提高AIS数据质量提供理论方法。

1 AIS数据特性分析与试验数据采集

1.1数据特性

在分析AIS数据的有效性时,需首先了解AIS数据的特性。AIS是一种广播式的通信网络,任何信息的发送都是点对点发生的。AIS 信息包括船舶的动态信息、静态信息、航行信息及安全信息。[8]

1) 船舶静态信息包括海上移动业务标识码(Maritime Mobile Service Identity, MMSI)、船型及船名等。

2) 船舶动态信息包括船位、航速及航向等。

3) 航行信息包括船舶吃水及预到时间等。

4) 安全信息即与船舶航行安全相关的信息。

这里主要对影响航行船舶实时监控的船舶AIS动态数据的有效性进行分析,并以此确定AIS数据的有效性。船舶动态数据的错误类型有以下3种:

1) 经纬度不正常。

2) 经纬度在正常值范围内,但其值显著区别于船舶轨迹正常经纬度值。

3) 航向角与正常值没有明显的区别,但在轨迹中显示转向不平滑。

1.2数据采集

根据AIS数据的特性和传输方式,分别在武汉白沙洲大桥、长江大桥及天兴洲大桥旁边的趸船的顶部安放AIS数据采集点(见图1)。AIS数据采集平台(见图2)包括数据接收模块、数据传输模块和供电模块等3个部分。

1.2.1数据接收模块

AIS数据接收模块由AIS核心板、甚高频(Very High Frequency, VHF)天线和全球定位系统(Global Positioning System, GPS)天线组成。

(1) AIS核心板是一个微型的B级船台[9],不仅能接收其他船舶和岸基发出的AIS信息,还可向外发送本船台的AIS信息和GPS信息;

(2) VHF天线和GPS天线分别将接收到的AIS信息及GPS信息传送到AIS核心板中,AIS核心板对信号进行处理后向外传输本船和他船的AIS信息。

图1 AIS数据采集点分布

图2 AIS数据采集平台实图

1.2.2数据传输模块

AIS数据采集平台采用网络传输数据。通过RS232转COM口,从AIS核心板输出封包好的AIS报文,然后使用3G路由器的DTU(Data Transfer Unit)功能将标准串口通信的传输协议转换成TCP/IP协议,作为客户端通过公网向服务器端传输数据。

1.2.3供电模块

AIS基站的供电模块由太阳能供电板、铅蓄电池和太阳能控制盒构成。供电模块主要给AIS核心板和DTU供电。服务器端的主机直接由220 V的交流电源供电。

1.2.4数据解析与存储模块

在服务器端,通过数据接收程序对接收到的AIS数据进行解析并将其存储在SQL Server 2008数据库对应的表中。

2 AIS数据有效性分析方法

2.1曲线拟合法

曲线拟合法是一种通过试验获得有限对测试数据来求取近似函数的方法。常用的曲线拟合方法有:直线拟合、二次多项式拟合、三次多项式拟合、半对数拟合回归、Log-Log拟合回归、Logit-Log拟合、四参数拟合及三次样条插值等。

在分析AIS数据时,通过曲线拟合和经验判断来确定经纬度、航速和航向角阈值,以此来判别AIS数据的正确性。以100 000条AIS数据为例,错误数据占3.19%,曲线拟合判别出的错误数据为3 140条,占3.14%,接近实际情况。由此可见,曲线拟合法可用于分析AIS数据。

对于长时间、大样本的AIS数据,在航道环境和电磁干扰等要素变化不大的武汉航段,可运用曲线拟合的方法进行异常数据的判别。对大量的船舶AIS数据进行曲线拟合,以曲线的边界点作为控制边界筛选异常数据。在积累具有一定时间跨度的资料的基础上,该方法拟合边界特征曲线得到的曲线方程能对数据进行可靠的判别。

2.2模糊C均值聚类法

模糊C均值聚类(Fuzzy C-Means,FCM)是用隶属度确定所分析的数据点隶属于某个聚类的程度的聚类算法。FCM把n个向量xi(i=1,2,…,n)分为c个模糊组,然后求每组的聚类中心,使非相似性指标的价值函数最小。[10]为与引入的模糊划分相适应,隶属矩阵U只允许有取值在[0,1]间的元素。加上归一化规定,一个数据集的隶属度的和=1,即

∀j=1,2,…,n

(1)

由此,FCM的价值函数(或目标函数)为

(2)

构造新的目标函数(见式(3)),可求得使式(2)达到最小值的必要条件。这里λj,j=1,2,…,n,是式(1)的n个约束式的拉格朗日乘子。对所有输入参量求导,使式(2)达到最小的必要条件见式(4)和式(5)。

(3)

(4)

(5)

由式(4)和式(5)可知,模糊C均值聚类算法是一个简单的迭代过程。以此处理方式运行时,FCM用下列步骤确定聚类中心ci和隶属矩阵Uc×n:

1) 用值在[0,1]的随机数初始化隶属矩阵Uc×n,使其满足式(1)中的约束条件。

2) 用式(4)计算c个聚类中心ci,i=1,2,…,c。

3) 根据式(2)计算价值函数。若其值小于某个确定的阈值,或其相对上次价值函数值的改变量小于某个阈值,则算法停止。

4) 用式(5)计算新的Uc×n矩阵,返回步骤2。

在分析海量AIS数据时,计算的复杂度难以避免,因此需首先快速确定聚类中心,提高计算的效率。

3 数据实例分析

试验分析的数据是经采集处理后存入到SQL Sever 2008数据库中的船舶AIS数据,包括经纬度、航速和航向角等。

从试验平台SQL Server 2008数据库中取30 000条AIS数据,并将其分为3组,以每组10 000条数据为样本。分别运用以上2种方法对数据进行分类,对比各组统计出的数据错误率,以得到较优的AIS数据有效性分析方法。AIS数据分析流程见图3。

图3 AIS数据分析流程

3.1曲线拟合分析

在分析AIS数据时,采用Excel中的多项式拟合功能分别对航速和经纬度数据进行拟合,得到数据曲线方程;然后确定阈值边界并筛选数据,统计错误数据量。

用曲线拟合法检验的船舶信息有经纬度和航速,拟合情况见图4和图5。航速在0~1 n mile/h的船舶位置未发生明显变化,因此可视为静止,即航速视为0,1 n mile/h航速作为航速频数分布拟合曲线的起始位置。根据经验判断,内河船舶航速不可能超过20 kn。

图4 速度-频数分布拟合情况

图5 经纬度分布拟合情况

由图4可知,速度-频数分布的拟合曲线方程为

(6)

式(6)表示的曲线所划定的最大航速为15.7 n mile/h,因此正确的航速数据应在[0,15.7] n mile/h内。

由图5可知,经纬度拟合的曲线方程为

y=0.612 7x+95.563

(7)

在武汉航段航行的船舶的经纬度需在一定的范围内。以拟合直线为准,结合航道情况,经计算,数据密集处经纬度应满足式(8)。

|y-0.6127x-95.563|≤0.015 369

(8)

船舶无论是上行还是下行,航向角信息必须满足基本的规律,即航向角(C)应在[0,360°]内。结合曲线拟合划定的航速(V)和经纬度(φ,λ)阈值边界,可知正确的AIS数据应同时满足以下条件:

(9)

按式(9)中的条件,运用SPSS软件统计,可得到各组AIS数据的正确量。统计结果见表1。

3.2模糊C均值聚类分析

模糊聚类分析的目的是将相似的数据归到一起,这里比较的是4类数据,更具可比性。根据AIS错误数据的类型,将每组的船舶数据分为6类处理,一半为错误数据,一半为正确数据,即聚类数为6类,6类之外的数据视为错误数据。根据模糊C均值算法处理数据的步骤,采用MATLAB程序实现,流程见图6。

表1 曲线拟合分析结果

图6 模糊C均值聚类分析流程图

在算法实现过程中,典型的3类船舶错误数据为错误数据所属的类,隶属度以0.5为界,不属于任何一类的数据视为异常错误数据。3组船舶数据聚类分析结果见表2。

表2 模糊C均值聚类分析结果

3.3计算结果分析

比较2种方法统计出的数据错误率可知:在第1组和第2组数据中,2种方法统计出的数据错误率相近,可见在错误数据所占比例高于5%时,2种方法统计数据的准确度相差不大,即2种方法的有效性相似;在第3组数据中,2种方法统计出的错误数据所占比例相差不到1/100,可见在错误数据率<5%时,2种方法的统计效果基本相同。

4 结束语

分析AIS数据采集平台的各个模块,说明AIS数据的采集和传输特点,由此引出AIS数据的特性,总结出AIS数据的3种错误类型。运用曲线拟合法和模糊C均值聚类法分析数据的过程及特性,分别对3组AIS数据进行分类分析。结果表明:曲线拟合法和模糊C均值聚类法在分析错误较少的海量AIS数据时都是较好的方法;在分析海量的AIS数据时,模糊C均值聚类法计算量增加,效率不及曲线拟合法。对这2种方法的分析结果进行研究,可为提高甄别海量AIS错误数据的效率和准确度提供一些参考。

[1] 郑琳, 刘艳, 崔文林, 等. 海洋监测数据质量评估研究[J]. 海洋通报,2014(2):228-234.

[2] ZHANG Wenjuan, WU Qing, SANG Lingzhi, et al. Denoising Method of Inland AIS Information Based on Vessel Track [C]//Distributed Computing and Applications to Business, Engineering & Science (DCABES). 11th International Symposium on, IEEE, 2012.

[3] 张洪艳. 模糊C均值聚类算法及应用[J]. 科技资讯,2014(5):178-179.

[4] WANG Yang, ZHANG Jinfen, CHEN Xianqiao, et al. A Spatial-Temporal Forensic Analysis for Inland-Water Ship Collisions Using AIS Data[J]. Safety Science,2013,57:187-202.

[5] PAN Jiacai, JIANG Qingshan, HU Jinxing, et al. An AIS Data Visualization Model for Assessing Maritime Traffic Situation and its Applications[J]. Procedia Engineering,2012,29:365-369.

[6] MULYADI Y, KOBAYASHI E, WAKABAYASHI N, et al. Development of Ship Sinking Frequency Model Over Subsea Pipeline for Madura Strait Using AIS Data[J]. WMU Journal of Maritime Affairs,2014,131:43-59.

[7] 齐乐,郑中义,李国平. 互见中基于AIS数据的船舶领域[J]. 大连海事大学学报,2011(1): 48-50.

[8] 史键, AIS系统的构成及信息处理[J]. 中国水运(下半月), 2010(10): 91-92.

[9] 严新平, 马枫, 初秀民, 等. 长江船舶交通流实时采集关键技术研究[J]. 中国航海,2010,33(2):40-45.

[10] 文传军,汪庆淼,詹永照. 均衡模糊C均值聚类算法[J]. 计算机科学,2014(8):250-253.

MethodsforAnalyzingValidityofInlandAISInformation

(1. Intelligent Transport System Research Center, Wuhan University of Technology, Wuhan 430063, China; 2. Engineering Research Center of Transportation Safety, Ministry of Education, Wuhan 430063, China; 3. Energy and Power Engineering School, Wuhan University of Technology, Wuhan 430063, China)

U666.1;U698

A

2016-01-11

国家自然科学基金(61273234);中央高校基本科研业务费专项资金(2015-ZY-057)

聂 阳(1988—),男,江西宜春人,硕士生,研究方向为水上交通感知与控制。E-mai:847114398@qq.com 初秀民(1969—),男,吉林通化人,研究员,博士,研究方向为交通信息采集与处理技术。E-mai: chuxium@whut.edu.cn

1000-4653(2016)02-0059-04

猜你喜欢
经纬度曲线拟合均值
不同阶曲线拟合扰动场对下平流层重力波气候特征影响研究*
基于MATLAB 和1stOpt 的非线性曲线拟合比较
浅谈Lingo 软件求解非线性曲线拟合
均值—方差分析及CAPM模型的运用
均值—方差分析及CAPM模型的运用
基于经纬度范围的多点任务打包算法
浅谈均值不等式的应用
曲线拟合的方法
均值不等式的小应用
自制中学实验操作型经纬测量仪