基于文本挖掘的内河船舶碰撞事故致因因素分析与风险预测*

2018-07-26 02:53江福才姚厚杰马全党
交通信息与安全 2018年3期
关键词:内河贝叶斯船舶

吴 伋 江福才▲ 姚厚杰 黄 明 马全党

(1.武汉理工大学航运学院 武汉 430063;2.武汉理工大学内河航运技术湖北省重点实验室 武汉 430063 3.武汉理工大学智能交通系统研究中心 武汉 430063;4.武汉理工大学国家水运安全工程技术研究中心 武汉 430063)

0 引 言

长江黄金水道作为中国最重要的内河航道,对接了“一带一路”和“长江经济带”两大国家战略,其对我国交通运输的重要性不言而喻。然而,长江航运安全形势确有待加强,近年来,长江干线事故频发,根据统计,在长江干线发生的水上交通安全事故、险情中,碰撞事故占到了40%以上,并且也是造成经济损失、人员伤亡最大的原因之一[1],因此,本研究将内河船舶碰撞作为研究重点。

为了实现对内河船舶碰撞事故的预控,实现内河船舶碰撞风险的预测,国内外学者针对内河船舶碰撞事故分析开展了大量的工作。这些研究多从事故的角度出发,以事故样本为基础,通过数据处理开展事故因果分析以及事故预测等研究工作,一般可将这些研究分为对某一类型的事故开展研究和对单个事故案例开展研究。常用的方法有贝叶斯网络、灰色模型等。目前,各国学者最为常见的研究思路以大量的航行或事故数据为样本,利用信息化手段对船舶事故开展相关研究。P.Kujala[2]等通过研究某水域近10年间详细的水上交通安全事故数据,建立了船舶航行风险模型来评估船舶碰撞风险;M. B. Zaman[3]基于AIS提取的船舶航行数据研究了马六甲海峡船舶碰撞风险,并建立了马六甲海峡船舶航行仿真模型,运用实际数据研究了船舶碰撞规律与碰撞原因,提出了适用于马六甲海域的船舶避碰方法。张磊[4]使用贝叶斯网络,以长江水域船舶碰撞事故作为样本,描绘出完整的贝叶斯网络模型,利用该模型分析事故的前因后果。Wu Bing等[5]在通过对大量碰撞事故进行分析,找到影响长江流域碰撞的风险因素,利用贝叶斯模型模拟长江流域碰撞风险,得到影响碰撞风险的重要因素指标。早期在缺少可靠事故数据的情况下,有许多学者针对人因在船舶碰撞中的影响做过很多研究[6-7],也取得了一定的成果,但是数据的不足仍旧无法明确人的不安全行为与船舶碰撞之间的影响关系。魏晓阳等[8]使用Dcmpstcr-Shafcr证据理论作为工具,从碰撞双方船舶的行为着手,并在分析的过程中用到了时间滑动窗Ⅱ,提供了一个更加具体的环境来判断双方船舶驾驶员的决策意图。陈昌源等[9]引入弱化算子序列对传统灰色预测模型GM(1,1)进行改进,并将这种改进的模型用于对一段时间内海上交通事故数进行预测,分别对比了传统灰色模型预测、二阶弱化模型预测和改进模型预测的结果,并证明改进后的模型更优。尚前明等[10]对单个沉船事故进行研究,以“东方之星”为例,利用事故树法构建了船舶倾覆事故模型,并找到了事故发生的关键致因。牛佳伟等[11]针对不同水域,使用2种灰色关联理论分析其未来的交通组织形式,并将预测结果与实际数据相比较,得到预测精度,最后获得所建立的预测模型的短期预测精度的大致范围,得出了加权灰色关联理论具有结果更精确和层次更清晰的结论。

通过分析国内外关于内河船舶碰撞事故的研究成果来看,国内外的学者主要是运用统计法通过统计分析大量的事故案例或者通过专家分析内河船舶碰撞事故案例来分析事故的致因因素,进而开展风险评价研究。但是,通过统计方法分析大量的事故案例是采用人工读取事故报告并记录事故致因因素,工作量大且容易受到主观判断的影响;而事故案例研究为了还原该事故发生的经过,常采用定性分析,使得最后得到的结果存在诸多不确定因素。基于上述原因,笔者使用文本挖掘技术对船舶碰撞事故开展研究。文本挖掘是跨越信息检索、数据挖掘、机器学习、统计学和计算语言学等学科的新兴学科[12]。信息中有不少于80%通过文本储存[13]。知识可以从各种信息源中被发现,而文本则仍然为现有最大信息源。文本知识发现[14]是提取显性和隐形的概念并用自然语言处理(nature language processing,NLP)技术找到其中关联的技术。其目的在于洞悉海量的文本数据。文本挖掘所使用的手段包括信息提取、主题追踪、信息概述、文本分类、文本聚类、关联分析、信息可视化等[15]。国内外学者在网络舆情监控、情报分析、图书管理、医药研发等领域均运用了文本挖掘技术[16-18]。文本挖掘的核心可以分为文本流的语言学处理和数学处理2个步骤。文本流的语言学处理包括分词、词性标注、去除停用词等流程;文本流的数学处理就是将文本中的非结构化信息转化为结构化信息,其最常用的方法就是tf-idf(term frequency-inverse document frequency),即“词频-逆文本频率”。笔者对tf-idf公式进行平滑改进,解决了文本识别过程中无法识别统计较为生僻的专业名词的问题,提升了文本挖掘方法在交通运输领域的适应性。本文通过查重率和相关性检验证明了文本挖掘识别出的船舶碰撞事故致因因素结果是可信的,并通过构建贝叶斯网络模型对船舶碰撞风险进行了预测,为船舶碰撞事故的防控提供了数据支撑。

1 文本挖掘方法

为了挖掘内河船舶碰撞事故报告中的事故致因因素挖掘,采用文本挖掘方法,文本挖掘是指利用计算机技术或者大数据技术从文本数据中获取有价值的信息和知识[19]。文本挖掘技术可用于统计学科、自然语言学科和机器学习等多个知识领域,为大数据背景下的数据处理和数据挖掘提供了技术支持。文本挖掘具体流程如图1所示。

图1 文本挖掘一般流程Fig.1 Text mining general process

1.1 文本挖掘语料的选取

内河船舶碰撞事故风险由风险识别、风险估计、风险评价与应急措施等流程组成,风险评价是风险水域通航安全管理的基础,首先要认识风险,找到风险发生的规律,然后才能采取相应措施来控制风险[20]。具体参照综合安全评估(formal safety assessment, FSA)方法制定风险可接受标准,该标准由英国海事和海岸警备局(UK Maritime and Coastguard Agency,MCA)提出,FSA方法被IMO批准为1种正式的政策制定工具。每1个流程都涉及大量的文本型文件,如水上交通事故风险源识别清单、风险矩阵、风险应急手册和水上交通事故报告。

由于船舶碰撞事故报告详细描述了事故的起因、过程和结论,并且也从工程技术和管理等方面对船舶碰撞事故中的失误及各个阶段性文件的缺失或者不足进行了补充。船舶碰撞事故报告都是有官方机构出具的、对事故进行调查的官方文件,它比其他文件更加具有代表性,所以在本文研究过程中,选取事故报告作为文本挖掘的语料。

在船舶碰撞事故的选择上,收集我国内河航运的典型水道近5年的水上交通事故报告,并针对性的分析碰撞事故报告。利用全网搜索与水上交通船舶事故有关的信息,从长江航务局、长江海事局、长江航道局等部门网站共收集事故报告419例。事故报告数比较丰富,均为2013-2017年数据,报告涉及了近年来较新的事故数据,以上数据可以确保使用文本挖掘的客观性。

1.2 文本数据挖掘工具选取

为了实现内河船舶碰撞事故致因因素的文本挖掘,需要根据数据类型进行分析,选择合适的数据挖掘工具,根据上文分析,笔者设计的研究主要体现在事故报告的挖掘,即文本数据。较为常用的文本挖掘系统有汉语词法分析系统(institute of computing technology, chinese lexical analysis system,ICTCLAS),该系统可以对汉语文本数据进行分词,统计等工作,但其缺点是不能够有效的识别行业内特定的专有名词,相比该系统,R语言则是一个开放性的平台,在使用R系统的过程中可以根据自己的需要添加程序包,来实现文本挖掘过程中所需要的数据统计、分析处理以及结果可视化等功能,因此,在内河船舶碰撞事故致因因素分析和提取研究是运用R语言及相应程序包实现对内河船舶碰撞事故报告的挖掘分析。

2 基于R语言文本挖掘的内河船舶碰撞事故致因因素分析

为了实现内河水域船舶碰撞事故致因因素的文本挖掘,用于文本挖掘的分析的数据来自长江海事局提供的2013-2017年水上交通事故险情报告。文中所提到的长江下游航段是指从阳逻大桥到芜湖大桥之间的长江干线航道。在开展文本挖掘时所用到的数据主要是指2013-2017年5年间长江下游所发生船舶碰撞险情,共计419起,上述碰撞险情涉及的事故船舶843艘。

2.1 内河船舶碰撞事故致因因素分析

为了能够让文本可以被识别和统计,需要利用R软件将文本转化为向量空间模型。在文本挖掘的过程中,文本挖掘系统会将文本进行分词处理,得到一系列的特征项,这些特征项和其权重就构成了空间向量,以下是其定义。

定义1。在文本挖掘中,将一篇文献或其中一段用D表示,所有文献记作N。

定义2。在文本挖掘中,所谓的特征项是指能代表该文本材料的基本语言单位,如字、词等,用Tk表示。

定义3。在文本挖掘中,所谓的特征项权重Wik表示特征项Tk对于文本权重Di的重要程度,用tf-idf公式进行计算,具体如下。

(1)

式中:ni,j为该词条在文本文件Di中出现的次数;∑knk,j为所有文件中所有词条中出现的次数总和。

(2)

式中:|D|为文本文件的总数量;|{j:ti∈dj}|是包含词条语句ti的文件条目。

tf-idf=tfi,j×idfi

(3)

利用式(3)可以得到每一个特征项的权重Wik。

定义4。在文本挖掘中,所构建的向量空间模型是指把特征项看作高维坐标系,权重表示为高维坐标的值,计算获得的向量集合即为文本的向量空间模型。

tf-idf是term frequency-inverse document frequency的缩写,即“词频-逆文本频率”,该方法是自然语言处理中常用的方法。词频“tf”即向量化之后文本中各个词出现的频率,而逆文本频率“idf”反映了1个词语在所有文本中出现的频率。如果1个词在很多文本中均有出现,那么其idf值应该低,表明其对文本的重要程度很低,比如本研究中每篇文档均会出现的词语“碰撞”;反之,一些非常专业的名词,比如“拖锚淌航”,其idf应该较高。

笔者在研究过程中发现,idf的计算公式在使用时,一旦出现语料库中没有的生僻词,其公式中的分母将为0,则计算无意义,因此,为了解决该问题,对传统idf公式进行平滑处理,改进后的公式见式(4)。

(4)

经过平滑处理后的idf公式可以使语料库中没有的词也能被赋予一个合适的idf值,但是,通过进一步的实验发现,文本中的某些热词,会出现“|D|=|{j:ti∈dj}|”的情况,这样也会导致idf的值为0,影响整个计算。因此,笔者对idf公式进一步改进,改进后的公式见式(5)。

(5)

改进后的tf-idf公式可以计算每一个特征项的权重。

2.2 待挖掘的数据源分析及特征值选择

通过对船舶碰撞事故报告的分析,上述数据获得的途径主要通过“数据交换”及“网络爬虫”2种方式获取。通过数据交换可直接获得结构化和半结构化的数据,但网络爬虫是通过爬取相关数据所在网页,然后对网页内容进行解析得到目标数据。本章运用网络爬虫获得的数据主要包含通航数据和事故险情数据,通航环境数据中的数据包含了半结构化信息;事故险情数据表中包含了部分非结构化信息。在内河船舶碰撞事故分析过程各种,需要考虑人为因素、船舶因素、通航环境因素和管理因素,以下对文本挖掘的数据源及目标数据进行分析。

1) 通航环境数据。由数据库数据需求分析中定义的通航环境数据,待爬取数据的数据源分为船舶碰撞事故报告中的能见度、风、流、水位信息、气象信息、维护水深和港口水情等若干个版块。

2) 船舶数据。船舶数据中非结构化数据的数据源为船舶碰撞事故报告,以自由文本形式对船舶碰撞事故进行描述,主要包括船舶设备故障或失灵、船舶类型、船舶吨位、船舶等级等船舶参数信息。

3) 人为因素数据。人为因素数据中非结构化数据的数据源为船舶碰撞事故报告,以自由文本形式对船舶碰撞事故进行描述,主要包括疏忽、经验不足、未及时休息、失误等级等人为性决策参数信息。

4) 管理因素数据。管理因素数据中非结构化数据的数据源为船舶碰撞事故报告,以自由文本形式对船舶碰撞事故进行描述,主要包括未发现船员不胜任、接班值班安排不当、船员配合不当等管理失误信息。

以上从人为因素、船舶因素、通航环境因素和管理因素,对文本挖掘的数据源及目标数据进行分析。针对上述419起内河船舶碰撞事故报告梳理成文本格式,构建基于R语言的文本挖掘的集合,利用分词程序对其进行处理。为了提高文本挖掘的精度,防止遗漏专业术语及误识别虚词,在进行分词处理前,需要对词汇类型进行制定和归纳得出归并词群表,并对文本中虚词进行剔除。

上述归并词群表的内容来源于水上交通工程、安全工程、航运、气象等领域的专业词汇,删除文本中的虚词需要利用《现代汉语虚词词典》。分词结果将得到1个高维稀疏集合,作为原始特征项,见表1。由于文本挖掘的对象是船舶碰撞事故报告,因此文本中一定会出现大量的“碰撞” “责任” “事故”等词汇,这些词汇能够帮助判断文本的属性,但对于分析事故致因因素没有明显的作用,因此在挖掘过程中可以忽略。

表1 内河船舶碰撞事故调查报告文本集特征项(部分)Tab.1 Inland river vessel collision investigation report text set Feature item (part)

运用R语言进行分词处理,实现了对文本数据的预处理,分词各种获得了498项原始特征,过高的维度会影响计算速度,并且没有实际意义。所以需要对内河船舶碰撞事故报告文本的特征项进行降维处理和优选。χ2统计在召回率和查准率方面比其他降维手段更优,所以本章通过χ2统计对内河船舶碰撞事故数据进行降维处理,公式为

(6)

式中:n为整个文本的数量;a为属于ci类中包含特征项t的文本出现频率;b为不属于ci类包含特征项t的文本出现频率;c为属于ci类不包含特征项t的文本出现频率;d为不属于ci类不包含特征项t的文本出现频率。

那么整个文本语料库的χ2值可得

(7)

然后,通过m值来移除大部分干扰文本信息特征项,从而达到降维的目的。

2.3 船舶碰撞事故致因因素选取

根据1.1中关于文本挖掘的基本流程,运用R语言进行分词处理,实现了对文本数据的预处理,分词共获得了498项原始特征,为了降低维度,精简文本挖掘的过程,在R语言中调用Boruta 和Caret 2个语言特征选择程序包,并用χ2统计功能统计特征项的降维结果,最终确定影响船舶碰撞的四要素,即人为因素、船舶因素、环境因素,以及管理因素,获得了33个维度的文本特征项,确定如表2所示的船舶碰撞风险致因因素。

结合内河船舶碰撞事故报告文本以及降维后的事故特征,分析降维后的特征项的词频,分析结果见图2。

2.4 事故致因因素空间向量模型构建

根据2.1中的定义,使用式(1)~(3)求得所有内河船舶碰撞事故报告文本特征项的权重值,将其转化为空间向量。内河船舶碰撞事故调查报告向量空间模型如表3所示,其中Ti是指第i项致因因素,Di是指i内河船舶碰撞事故报告。由于文本数量较多,只列举10个文本的空间向量模型。

利用上述事故调查报告空间向量模型可以构建内河船舶碰撞事故致因因素词云,通过该词云可以分析内河船舶碰撞事故致因因素。

图2 内河船舶碰撞风险事故调查报告文本特征项降维结果Fig.2 Inland river vessel collision risk accident investigation report text characteritem dimension reduction result

Tab.3inlandrivershipcollisioninvestigationreportvectorspacemodel

DiTi12345678910110.10.20.200000000D2000000.10.20.1000D30.400.100000000D40.20000.2000.1000D50.10000000.2000D6000000.500000.2D7000000000.400D81.100.5000.400000D90000.3000000.10D100.7000.10000000DiTi1213141516171819202122D11.100.4000 0.4000.40D200.5000000000D30.70000000000D40.20.2000.1000000D50.10000000000D6000.50000.50.200.50.2D7000000.4000.400D80.700.40000.4000.40D900000000.1000D100.70000000000DiTi2324252627282930313233D10.400.401.100.4000.40D200.1000000000D3000000.4000.400D40.400.400.700.4000.40D50000000.50000D600.2000.7000000D700.10000.4000.400D80.400.400.700.4000.40D9000000.200000D1000000.700000.10

2.5 船舶碰撞事故致因因素分析

通过该空间向量模型,可以将全体内河船舶碰撞事故调查报告文本转化成向量集合,向量中的特征项就是事故的致因因素,从该向量中既可以得出某一致因因素能够归属于某起事故发生原因的可能性,也能得到不同事故报告中同一致因因素的权重。为了能够使数据可视化,调用R语言的 Wordcloud程序包,得到如图3所示的内河船舶碰撞事故致险因素词云。

图3 内河船舶碰撞事故致因因素词云Fig.3 Inland river vessel collision accident cause factor word cloud

通过图3可以将419份在不同地点、不同时间发生的不同事故的事故报告关联起来,通过词云图中33项因素的字体显示大小、颜色,以及在图中的位置可以判断该项致因因素的重要程度,其中字体越大、颜色越深、位置越靠近中央,表示该项致因因素越重要。

按照上述内河船舶碰撞事故词云的排布,可以把其描述为主要致因因素和其他致因因素,主要致因因素主要包括错误估计碰撞危险、操纵不当、未充分了解信息、瞭望不当、大风浪、能见度不良、航速过快7种。虽然上述7种主要致因因素构成了大部分的事故,但是内河船舶碰撞事故不是由单一致因因素所导致的,因此其他致因因素也需要被考虑。为了有效的防控事故的发生,需从人-船-环境-管理4个因素出发制定防控手段。

2.6 船舶碰撞事故致因因素验证

为了检验文本挖掘得出的船舶碰撞事故致因结果是否准确,运用专家调查法对相同的样本进行致因因素识别和评价。由于本研究中的船舶碰撞致因因素是由事故数据分析得出的,因此专家调查法中的风险评价体系也需要根据事故数据来决定。为了确定风险评价指标,邀请了来自海事管理部门的专家、高级引航员、内河船长、船公司管理人员等共5名专家组成专家组,阅读419份船舶碰撞事故调查报告,并经过充分讨论,汇总得出了本研究水域24项船舶碰撞事故致因因素。图4为专家调查法得出的船舶碰撞事故致因网状图。

图4 船舶碰撞事故致因因素网状图Fig.4 Inland river vessel collision accident cause factor networks

在得到基于专家调查法的船舶碰撞事故致因因素后,依据419份船舶碰撞事故调查报告,由人工统计方法计算出各项致因因素的权重。将2种方法得出的权重进行归一化处理,然后将同义的致因因素进行合并,以此来对比由专家调查法得出的权重和由文本挖掘得出的权重,对照结果见表4。

很多学者使用查重率和相关系数2个指标来验证文本挖掘结果是否准确。查重率可以检验文本挖掘所识别出的致因因素是否也被专家调查法所识别,有研究表明当查重率高于70%时,文本挖掘结果才是置信的,其计算见式(8)。

(8)

本文研究中专家调查法共识别出24项致因因素,文本挖掘得出33项致因因素,其Pr=72.7%,结果是满足要求的。

同时,为研究2种方法得出的致因因素之间的相关性,选用Cronbach的一致性检验系数α来作为相关系数,对结果的相关性进行检验。Cronbach′α是一套常用的衡量测验可靠性的方法,依一定公式估量测验的内部一致性,作为信度的指标。在基础研究中,信度至少应达到 0.80 才可接受,在探索性研究中,信度只要达到 0.70 就可接受。其公式见式(9)。

α=(n/n-1)(1-∑Si/St)

(9)

式中:α为信度系数;n为测验题目数;Si为每题各被试得分的方差;St为所有被试所得总分的方差。

利用SPSS求得2种研究方法的整体α值为0.81,各分项α值也都高于0.7(见表4),结果也是满足要求的。

3 基于贝叶斯网络的船舶碰撞风险预测建模方法

3.1 贝叶斯网络结构分析

1) 人为因素贝叶斯网络结构。人为因素是整个贝叶斯网络的重要一环。其中,以“未充分休息H13”为主要诱因,结合现有文献对人为因素进行系统全面的分析,建立如图4所示的船舶碰撞风险人为因素贝叶斯结构。

表4 船舶碰撞事故致因因素对照表Tab.4 Check list of inland river vesselcollision accident cause factor

图5 船舶碰撞风险人为因素贝叶斯结构Fig.5 Ship collision risk Humanfactor Bayesian structure

2) 船舶因素贝叶斯网络结构。根据有关船舶事故案例,“船舶设备故障或失灵S21”主要包括“主机故障或失灵S22”以及“辅机故障或失灵S23”。根据船舶故障之间的相互联系,建立如图5所示的船舶碰撞风险船舶因素贝叶斯结构。

图6 船舶碰撞风险船舶因素贝叶斯结构Fig.6 Ship collision risk Ship factor Bayesian structure

3) 环境因素。由于环境因素内部之间的关系联系较少,故没有建立相关的贝叶斯结构图。环境因素主要表现在和其他3种因素的联系上,在最终的完整贝叶斯结构中有所体现。

4) 管理因素贝叶斯网络结构。如前文所述,管理因素“未发现船员不胜任”和“未发现设备隐患”会使得人为因素和船舶因素的隐患被忽视,造成严重的后果。同时,管理因素内部关系也较为清晰,见图6。

5) 基于“人-船-环境-管理”的船舶碰撞风险贝叶斯结构。在分析完船舶碰撞的四要素之后,从整体的角度出发,挖掘各要素之间的相互关系,通过广泛的阅读文献及专家调研,建立基于“人-船-环境-管理”的船舶碰撞风险贝叶斯结构,见图8。

图8 基于“人-船-环境-管理”的船舶碰撞风险贝叶斯结构Fig.8 Ship collision risk Bayesian structure based on HSEM

3.2 贝叶斯网络节点条件概率

运用构建好的贝叶斯网络结构进行预测,需要确定网络各节点条件概率。根据已有船舶碰撞/险情事故报告,结合贝叶斯网络节点概率计算方法,可以得到各个节点的条件概率。下面以“船员配合不当M32”为例,介绍条件概率的确定过程。

在现有的419起船舶碰撞/险情事故报告中,涉及到船员配合不当的事故原因的表述主要有“对双方船舶会遇态势的判断不准” “未正确判断船舶动态”,“未充分交流”等。统计结果见表5。

表5 “船员配合不当M32”事故报告统计结果Tab.5 “Crew with improper M32” accident report statistics

根据相关事故报告统计结果,进行贝叶斯期望型估计后,得到相应的条件概率见表6。

表6 “船员配合不当M32” 条件概率表Tab.6 “Crew with improper M32”conditional probability table

3.3 船舶碰撞风险贝叶斯模型验证

为了对本研究所构建的船舶碰撞风险贝叶斯模型进行验证,以2011年《百美#8轮碰撞事故》为例进行分析。

事故时间:2011年5月5日1033时。

事故地点:福南水道#56浮下约700 m。

水文气象:落潮流,东南风3~4级,能见度良好。

船舶概如下。

1) “百美#8”轮:中国籍内贸散货船,船长178 m,吃水10.18 m,总吨位19 940、净吨位11 351,载重量为33 103 t,2007年建造,装载32 063 t煤炭,由宝山开往镇江。

2) 对方船舶:“盐航拖98”,重载一条龙船队(10艘驳船,装煤炭)。

将事故经过涉及的相关因素输入模型,进行分析,见图9。

图9 船舶碰撞风险贝叶斯模型验证Fig.9 Ship collision risk Bayesian model verification

可见,在相关条件发生的情况下,发生碰撞的概率为92%。

同理,选取419起案例中的典型15起进行分析。得到结果见表7。

表7 典型碰撞事故/险情案例分析结果Tab.7 Typical crash accident/danger case analysis results

由结果可知,除3起碰撞事故险情的概率为87%,88%,85%外,其他碰撞事故/案例分析的预测结果均在90%以上,证明了本研究所构建模型的有效性。

3.4 船舶碰撞风险致因贝叶斯推理分析

在证明船舶碰撞风险贝叶斯模型有效性的基础上,利用贝叶斯网络强大的推理能力,对船舶碰撞致因进行分析,将船舶碰撞概率设为1,反向得到推理结果见表8。其中船舶碰撞致因较为突出(概率大于60%)的因素以加粗表示。

表8 船舶碰撞风险致因分析结果Tab.8 Ship collision risk cause analysis results

由结果可知,人为因素是导致船舶碰撞的首要因素,具体而言,“未充分休息H13”“瞭望不当H21”“引航不当H22”“错误估计碰撞风险H32”“反应时间过长H33”“操纵不当H41”,以及“航速过快H44”是人为因素中比较突出的碰撞致因。船舶因素影响相对较小,管理因素和环境因素影响一般。

4 结 论

船舶碰撞事故是典型的高风险水上交通事故,为明确船舶碰撞事故过程中存在的致因因素,为船舶碰撞事故风险的预控提供依据,选取2013—2017年内河水域共发生的419起船舶碰撞事故报告为例,借助R语言和本文所提出的文本挖掘方法,首先,对内河船舶碰撞事故报告进行分词处理、特征项选择处理、向量空间模型构建处理、共现规律识别处理等,为了解决挖掘过程中无法识别统计较为生僻的专业名词的问题,本文对TF-IDF公式进行平滑改进。其次,利用词云和网络结构图等方法实现本挖掘结果的可视化。最后,从中发现船舶碰撞风险事故的33个碰撞事故致因因素,对比基于人工统计的专家调查法,笔者所使用的文本挖掘方法在精度和效率上有很大的提升;另外,针对贝叶斯网络结构的有效性,选取了15个典型案例进行了验证,并在此基础上反向进行了船舶碰撞风险致因贝叶斯推理,结果表明:人为因素是导致船舶碰撞的首要因素,“未充分休息H13”“瞭望不当H21”“引航不当H22”“错误估计碰撞风险H32”“反应时间过长H33” “操纵不当H41”,以及“航速过快H44”等因素是人为因素中比较突出的碰撞致因。

由于笔者研究的事故样本为长江干线航道2013-2017年5年间的船舶碰撞事故,时间和空间跨度较大,不同时间、不同航段的法律环境、经济环境、社会环境存在较大的差异,而本文的船舶碰撞事故致因因素没有体现出时序性和空间差异。在后续的研究中可以考虑划分不同的航段,在不同的通航环境下开展船舶碰撞事故致因因素研究。

猜你喜欢
内河贝叶斯船舶
《船舶》2022 年度征订启事
基于贝叶斯解释回应被告人讲述的故事
船舶!请加速
如何提高内河船舶应急部署执行有效性
BOG压缩机在小型LNG船舶上的应用
船舶压载水管理系统
基于贝叶斯估计的轨道占用识别方法
基于互信息的贝叶斯网络结构学习
内河集散船舱口角隅甲板应力分析
内河搜救风险评估模型