基于二分K均值算法的机场旅客群体划分模型

2018-08-01 01:55朱彩云王晓萌
中国民航大学学报 2018年3期
关键词:值机平均年龄均值

钟 翔,韩 旭,朱彩云,王晓萌

(天津滨海国际机场信息技术部,天津 300300)

机场作为一个开放性、服务型的企业,旅客服务满意度是机场长期关注的重要指标。大数据时代,给机场提高旅客服务水平带来新的机遇和挑战。在大数据环境下,机场可迅速有效地获得旅客的相关信息,如旅客的基本信息、航班信息、值机方式、携带行李信息、是否为团队等。利用技术手段对机场旅客群体进行分类,并分析出不同旅客的特征差异。

聚类是指把具有相似特征的事物划分为一类,即“物以类聚”。根据旅客的主体特征及出行特征等数据,采用K均值聚类方法[1-3]将机场旅客群体[4]进行有效划分。聚类可使同类旅客的特征相似,而不同类旅客的特征不同。采用聚类方法可对机场旅客群体进行有效划分,能够帮助机场管理部门发现特征迥异的旅客群,便于对不同旅客提供更优质、更精准的服务[5-7]。

1 K均值算法

1.1 算法概述

K均值算法属于聚类分析方法中一种基本且应用广泛的算法。其原理是:首先从样本数据集中随机选取K个点作为初始质心;然后计算各样本到质心的距离,把样本划分到离其最近的那个质心所在的簇中;再将新形成的每簇数据对象的平均值作为新的质心,如果相邻两次迭代的质心无任何变化,说明已收敛,算法结束。K均值算法快速、简单,对大数据集有较高的效率,但初始质心是随机的。由于初始质心的选择对聚类结果有较大影响,且易陷入局部最优,因此,可采用二分K均值算法。

二分K均值算法是对K均值算法的改进与扩充,主要是为了改进K均值算法的初始质心随机选择造成聚类结果不确定性的问题。该算法首先将所有点作为一个簇,然后将该簇一分为二,之后选择其中一个簇继续划分。选择哪个簇进行划分取决于对其划分是否可最大程度降低误差平方和(SSE,sum of the squared error)的值。上述基于SSE的划分过程不断重复,直至得到用户指定簇的数目为止。

在欧几里德空间中,衡量簇的质量通常使用SSE度量。其计算方法为执行聚类分析后,对每个点计算一个误差值,即非质心点到最近质心的距离,然后将这些距离值的平方相加求和,作为SSE去评估一个聚类的质量如何,最终目标是使SSE最小。在n维欧几里德空间中,SSE可表示为

其中:k为簇的数目;ci为簇Ci的聚类中心;x为该簇的一个样本。

算法的具体思路为:

1)把整个数据集看成一个聚簇,计算并保存每个样本到质心的距离;

2)在簇集中选取SSE最大的簇进行m次二分聚类划分;

3)根据式(1)计算每个划分得到的2个簇总的SSE,选择最小SSE对应的划分结果,将其替换被划分的簇。

4)迭代步骤2)和步骤3)直到聚簇数目达到K后停止。

1.2 算法实现

1)聚类指标选取

指标选择是建立机场旅客群体划分模型的关键步骤。由于某些旅客行为指标不能直接反映旅客群体特征,因此,需从机场安检信息系统数据库中筛选出旅客行为指标数据并进行修正和完善,才能更加全面地描述旅客群的行为特征。通过分析得出:旅客主体特征指标主要包括旅客年龄、性别、出行次数及平均停留时间等;旅客出行特征指标主要包括值机方式、携带行李数量、舱位、是否为团队等。

2)数据标准化

为了消除数据指标间的量纲影响[8],需对样本数据进行标准化处理,使数据指标之间具有可比性。

采用z-score数据标准化法,对序列x1,x2,…,xn进行变换,即

3)程序实现

采用Python语言实现二分K均值算法[9-10],利用Pyodbc库连接本地机场旅客样本数据库,通过Numpy科学计算库对样本数据进行计算。

2 机场旅客主体特征划分模型

2.1 全样本特征划分模型

选择2016年6月至2017年5月全年天津机场旅客出行数据作为研究对象,选取旅客平均年龄、平均出行次数、平均停留时间等主体特征作为聚类指标,利用二分K均值算法建立机场旅客主体特征划分模型。通过程序运行时间及误差大小调整K值,K值越大,误差越小。对不同K值的运算结果进行分析,发现样本数据中平均年龄和平均出行次数的聚类结果不理想。选取K=8时的聚类结果进行分析,如表1所示。

表1 K=8时的聚类结果Tab.1 Clustering results when K=8

通过表1可看出,聚类划分的8类中有5类的一年出行次数质心在1附近,约占全样本的86.38%,聚类结果不理想。因此,最终将出行次数为1次的旅客及出行次数为1次以上的旅客分别进行聚类分析。

2.2 出行次数为1次的特征划分模型

通过对出行次数为1次的旅客主体特征建立划分模型,K取3~8,比较误差大小,发现K>5后误差减小趋势不明显。均衡考虑算法的运行时间,选取K=5对出行1次的旅客群体进行划分,结果如表2所示。

表2 K=5时出行1次的机场旅客群体聚类结果Tab.2 Clustering result of airport passengers with once departure when K=5

据表2分析出行1次的机场旅客各年龄段的平均停留时间可知:第1类旅客平均年龄约60岁,平均停留时间66.20 min;第2类旅客平均年龄约32岁,平均停留时间57.34 min;第3类旅客平均年龄约24岁,平均停留时间104.24 min;第4类旅客平均年龄约36岁,平均停留时间172.44min;第5类旅客平均年龄约51岁,平均停留时间101.65 min。综上所述:机场大多数旅客从通过安检到航班计划起飞都会预留至少1 h的时间;年龄在32、60岁左右的人群平均停留时间也都为1 h左右;部分36岁左右旅客人群平均停留时间都在2 h左右,但这部分旅客占比很少。另外,据以上分析第2类旅客在机场出行次数为1次的旅客中占比最大,可见年轻旅客为天津机场旅客的主体力量。因此,需多了解年轻旅客的需求并提供相应服务。

2.3 出行1次以上的特征划分模型

利用同样的方法,建立出行1次以上的机场旅客主体特征划分模型,结果如表3所示。

表3 K=5时出行大于1次的机场旅客群体聚类结果Tab.3 Clustering result of airport passengers with more than once departure when K=5

对表3聚类结果进行统计分析,机场旅客中第4类旅客占比最多,其次是第5类和第1类旅客,第3类和第2类旅客占比较少。其中:第1类旅客的主要特征是平均年龄约61岁,男性占比76%,平均出行次数2.69次,平均停留时间68.02 min;第2类旅客的主要特征是停留时间长,平均停留时间153.22 min,平均年龄约39岁,女性占比65%,平均出行次数2.38次;第3类旅客的主要特征是出行次数较多,平均出行次数9.01次,平均年龄约40岁,男性占比84%,平均停留时间69.54 min;第4类旅客的主要特征是平均年龄约32岁,男性占比72%,平均出行次数2.57次,平均停留时间63.89 min,第5类旅客的主要特征是平均年龄约51岁,男女比例相当,平均出行次数2.46次,平均停留时间101 min。综上分析可知,出行次数多的旅客平均年龄约40岁,停留时间在1 h左右。由此可见,这类人多为商务出行旅客。因商务旅客非常看重机场离港流程的效率,所以需不断优化流程,提高出行效率。

随着年轻旅客和商务旅客出行比例不断增长,建议机场增加自助服务设施,推动简化商务项目。另外,针对无行李旅客,可在安检区域推出适合商务旅客出行的无行李旅客通道,提高旅客出行的便捷性。为吸引旅客重复体验机场的产品和服务,提高旅客满意度,增强旅客忠诚度,机场可推出常旅客计划。根据不同旅客群体的特征设计不同的服务及产品,从而有效地调配机场资源,集中优势资源为旅客提供更优质的服务。

3 机场旅客出行特征划分模型

旅客的出行特征主要选取旅客值机方式、携带行李数量、舱位、是否团队为分类指标,进行K均值算法的聚类。在全年样本下建立基于K均值算法的机场旅客出行特征划分模型,如表4所示,K=4时聚类结果特征最为明显。

从表4分析得出,乘坐公务舱和头等舱的人数在团队出行旅客中占比相对较小(第2类占比0.91%,第3类占比0.41%),在非团队旅客中占比相对较大(第1类占比1.32%,第4类占比2.13%)。由此可知:对于团体出行的旅客而言,大多会选择经济舱出行;对于非团队旅客乘坐公务舱及头等舱的概率偏大。下面对上述4类人群的出行特征进行分析。

第1类非团队、非商务人群。其出行特点以自助值机与网上值机为主,携带行李较少,乘坐公务舱与头等舱人数占出行总人数的1.32%,相较于第4类非团队旅客而言偏低,因此,此类人群命名为非商务型。这类人群主要以短时公务出差或出游旅客为主,由于携带行李较少,所以这类旅客通过网上值机及自助办理手续的人数偏多。由此可见,网上值机及自助值机在携带行李较少的旅客中被利用的程度很高,这样既减少了这类旅客高峰时刻在值机柜台办理手续时排队等待时间,还能为真正需要在值机柜台办理行李托运的旅客节省时间。因此,为提高机场自助值机的使用效率,机场可根据实际需求增加自助值机的数量及调整摆放位置,使更多无需托运行李的旅客可通过自助值机设备办理手续,减少旅客由于排队时间过长而引起的误机率及相关的投诉率。

表4 K=4时机场旅客出行特征聚类后的占比情况Tab.4 Clustering result of airport passengers’departure characteristics when K=4 %

第2类团队商务人群。其出行特点以柜台值机为主,携带行李较多,乘坐头等舱与公务舱出行人数占总人数的0.91%,相较于第3类团队旅客而言偏高,因此,此类人群命名为商务型。通过分析可知,与第3类相比这类人群中携带随从人员较多的公众人物相对较多,如知名歌手、演员类人群。对于这类人群而言,比较注重隐私的保护,因此,机场可针对此类人群开设专用的VIP通道。对于影响力过大的公众人物,提前安排专业人员进行引导及人身安全的保护,且对公众人物的行程也必须做到严格保密,禁止对外扩散,避免由于人群大量拥堵围观而造成群体性不安全事件的发生。

第3类团队非商务人群。这类人群主要以自助值机和网上值机为主,携带行李较少,乘坐公务舱和头等舱的人群占比也较少,因此可分析出此类人群主要以跟团旅行或团体出行为主。由于定义的团队人数为10人,所以该类人群团队出游的概率较大,10人团体出差/办公的几率相对较少。因此,对团队旅客做好针对性服务是保持机场良好秩序的关键,增设团队专用值机柜台、增加团队专用座椅区、开通团队旅客专用安检通道、增设团队旅客专用充电桩等便捷服务,都可有效地控制航站楼内的良好秩序。

第4类非团队商务人群。其主要值机方式为柜台值机,乘坐公务舱和头等舱的占比人数最多。由此可分析出此类人群以个体或少量团体长时公务出差及公众人物出行(携带人员10人以下)为主,因此会携带相对较多的行李。此类人群携带行李较多,且公务舱及头等舱旅客偏多,针对此类旅客应做好头等舱及公务舱专用值机柜台和专用安检通道的引导工作,避免由于在值机柜台和安检通道等待时间过长而影响出行。

通过对旅客群体“画像”,可看出不同身份、不同出行目的的人群都会有各自的出行偏好,同一类型的人群会有共同的出行特征。因此,机场可根据历史的出行特征对每个人定义分类标签,根据每个人的标签类型来提供专业性较强的服务内容,做到“因人而异”地提供服务,增强旅客的出行体验度,最终可提高旅客的服务满意度,通过提升定制性服务水平为机场赢得更多的“常旅客”。

4 结语

采用K均值聚类算法针对机场旅客的主体特征和出行特征构建机场旅客群体划分模型,分析同类旅客的相似特征,挖掘出不同类型旅客的不同行为特征,以此来确定机场旅客群体的类别,为机场管理部门推行个性化服务提供决策依据。

利用大数据分析技术研究机场旅客的行为特征,挖掘潜在的旅客群体,可协助机场实现精准服务和精准营销,从而提升机场的旅客体验度。如果能获取到旅客更多类型的数据,如旅客的消费数据、移动APP数据等,通过大数据分析可帮助机场构建旅客“画像”,分析旅客消费特征,进而可优化广告投放、餐饮和商贸优惠推送,帮助提高机场的非航收入,使机场的运营变得更加智能化。

猜你喜欢
值机平均年龄均值
机场值机柜台资源的配置研究
沪杭甬高速“E收费值机”管理系统建设探讨
均值—方差分析及CAPM模型的运用
均值—方差分析及CAPM模型的运用
“便捷旅程”新突破 自助值机落地澳门
浅谈均值不等式的应用
均值不等式的小应用
韩国人平均年龄41岁
浅谈如何提高自助值机设备的使用效率
网友真实状况鉴别手册