基于神经网络模型和多项式 Logit 模型的学生出行方式影响因素分析

2022-06-10 04:14刘婉莹
中国新通信 2022年9期

摘要:为了更好地解决学生上学安全问题,对安全程度、出行成本、家校距离、家庭位置等多因素共同作用下的上学出行方式选择行为进行了研究。建立了神经网络模型和多项式 Logit 模型,结果显示神经网络模型可以更好地预测人们在学校旅行中的选择,但是多项式 Logit 模型更能体现影响因素与结果的关系。因此在制定更加合理的交通发展战略时应参考多项式 Logit 模型。

关键词:神经网络模型(ANN);多项式Logit模型(MNL);交通出行方式预测

一、简介

本文研究目标是为学生的上学出行方式选择开发一个模型。由于出行方式受到各种因素的影响,本文根据参与者的个人和家庭属性以及位置因素设置了几个自变量。研究的主要解决方案是使用神经网络模型(ANN)和多项式 Logit 模型(MNL)来测试人们的出行方式选择与其属性之间的相关性。根据结果,此次研究将能够在做出选择时预测趋势,并提出改进想法以优化整体交通系统。通常,大多数学生的上学是乘坐校车或汽车。由于学生中拥有驾照的比例仍然不高,此次研究还会考虑到测试者的家庭情况属性,因为父母可能会在上班途中接送孩子。可能影响出行方式的因素里也包括一些极端天气,例如暴风雨或暴风雪,所有考虑因素对于我们为模式选择模型选择原始自变量都变得至关重要。本研究以 NHTS 2017 数据为基础,参照 NHTS 码本对数据集进行过滤,形成样本数据库。研究的重点是威斯康星州产生的以学校为目的地的旅行。

二、文献综述

一般将各种影响学生出行模式选择的影响因素分为六组:物理环境和城市形态因素(例如:人口密度和土地利用)、特定模式因素(例如 :可达性和便利性)、出行者的个人属性(例如:性别和年龄)、出行特征(例如:出行目的和出行距离)、出行需求管理的存在(例如:停车费用)和心理因素(例如:习惯和态度)。不同的研究侧重于不同的群体。

大多数研究都使用了MNL、NL、混合Logit模型。 一开始研究者们建立了二元 Logit 模型来分析影响学生选择自行车和步行上学的因素。 学生的出行模式选择是由情境因素和心理因素共同决定的,这两个因素的分类更笼统。充分了解学生的出行模式选择和促成因素可以帮助政府和学校制定和改进政策和基础设施,以帮助学生安全有效地通勤。

三、数据集

本研究使用的数据集是 NHTS(全国家庭出行调查)2017。通常,NHTS 数据集是最适合交通选择建模的来源之一。 所有数据均收集了 24 小时内的每日出行数据,包括各种出行和出行者的属性,例如出行目的、方式和出行时间,收集了全州所有出行、所有模式和所有目的的数据。数据集包括各种类型的数据,如家庭数据、经济状况、住房特征和其他人口统计信息等。虽然它不包括出行费用或具体出行路线的信息,但此次研究创建了时间成本列作为模型开发需要。

四、数据处理

为了定位项目区域,此次研究过滤了威斯康星州的个人出行。但在浏览了代表上学出行模式的SCHTRN1一栏后,此次研究注意到只有一小部分参与者有正确的答案。大多数参与者在调查中选择了“适当跳过”,未加权百分比约为 90%。因此,删除SCHTRN1列中带有否定代码的数据,这4个无意义的选择是:“适当跳过”、“我不想回答”、“我不知道”和“未确定”。

威斯康辛州的数据集的原始大小约为 2800 个观测值,但经过第一步数据清理后,它变成了大约 300 个观测值。

在密码本列出的所有模式中发现,2017 年的数据中从未出现过休闲车(房车、ATV、雪地摩托)和辅助客运系统等几种替代方案。更重要的是,几种选择是少数,只有个位数的观察。步行、汽车和校车是三种主要的选择。因此,此次研究决定将这些模式分为 3 种新的不同類型:私家车、公共交通和非机动车。

对于 Logit 模型,此次研究还需要对将数据集传输到 Limdep 进行一些调整。由于某些变量是选择变量,例如 R_RACE 是受访者的种族。 01 到 97 的值分别代表白人、黑人、亚洲人等。对于离散模型,尤其是多项式 Logit 建模,此次研究需要将这些变量转换为只有 2 个值的二元变量:0 表示负数,1 表示正数。因此,原始变量中的每个选择都将其单独的列作为新的二元自变量。

此外,由于模式选择是模型的因变量,因此还需要进行一些调整。 此次研究开发了 3 个新列,即 Activity、Nij 和 Altij。 Activity 显示是否选择了这种方法,Nij 表示受访者能够选择的备选方案的数量,Altij 是每个受访者从 1 到 3 的备选方案代码,也就是上面提到的三个维度。 因此,每个单独的观察将有 3 行具有相同的旅行者属性和不同的模式选择。

五、方法论

(一)MNL 模型

本文考虑了两种方法来开发本研究的预测模型。多项式Logit模型是一种特殊的离散选择建模,它可以为不同的模式提出效用函数。 基本公式如下所示:一个明确的学校模式选择多项式模型将采用以下形式:

其中Pk是学校旅行选择模式k的概率,Uk是模式k的效用函数,定义如下:

其中∝k= 常数向量;

和β = 以模式 k 从 i 到 j 的出行的行程特征和相应的参数向量,包括出行时间;

SEm和 γ= 来自家庭m的学生的社会经济特征和相应的参数向量,诸如收入和汽车拥有量等特征;

SCn和θ= 学校特征,例如入学率和学校 n 的相应参数向量;

BE i和δ = 原点 i 的建成环境特征和相应的参数向量,其中 i 是社区、人口普查区、交通分析区 (TAZ) 或其他小区域(向量可能包括密度、土地利用组合、步行质量的测量和网站设计);

BE j和 ω= 目的地 j 的构建环境特征和相应的参数向量;

k= 特定于模式 k的极值误差向量。

输入数据后可以得到一个 Logit 模型,该模型将概率分配给来自家庭 m 的学生,在起点 i 和目的地 j 之间旅行,选择模式 k 去学校 n 的旅行。 MNL 模型将捕获大多数影响为相关学校旅行选择模式的效用或收益的变量。

(二)人工神经网络模型(ANN)

人工神经网络是一种受生物学启发的计算模型,由数百个单个单元人工神经元组成,这些单元与构成神经结构的系数(权重)相连。该网络最近被广泛用于大数据处理。它可以在处理数据时提供高精度的分类功能。

对于这项研究,为了获得更准确的模型,使用了 ANN 方法。首先,15% 的数据集作为测试数据来测试我们得到的最终模型。然后使用数据集的其余部分作为程序的训练数据。最重要的一步是开发整个网络。MSE(均方误差)在网络中用作成本函数,旨在为网络找到最佳输出的成本函数。用于接近成本函数优化值的方法是梯度下降。通过这种方式,神经网络的学习率正在逐层替换。因此,在论文中构建了一个三层神经网络,包括输入层、隐藏层和输出层。

六、结果

有一半以上的学生乘私家车上学(54.26%),也有很多学生乘坐公交(38.8%)。只有少数学生步行或骑自行车上学(6.94%)。与此同时,此次研究将这种分布与所有旅行的分布进行了比较。发现这两种分布非常不同,其主要原因是有很多学生选择校车上下学。

(一)MNL 模型

对于 MNL 模型,三个效用函数的结果如下:

U(私家车)= A_car +B1*TIMECOST+C1*URBRUR_1+D1*WALK4EX

U(非机动车)= A_nmotor +B2*MSACAT_3 +C2*WALK4EX

U(公交)= B3*TIMECOST+C3*WORKER_Y+D3*HHVEHCNT

在该模型中,该模型的卡方满足标准值,这意味着这三个效用函数的置信度为 95%。

每个变量的系数如下:

许多其他论文和研究证明大量的时间成本促使人们出行方式选择汽车,降低了选择公共交通的可能。对于有工作和私家车多的家庭一般不会选择公共交通,这些人更有可能使用汽车。还有两个变量在其他论文中不常见。 WALK4EX 代表“因为锻炼而选择步行”,它对使用汽车有积极影响,而对步行或骑自行车有负面影响。此次研究认为,如果一个人喜欢将步行视为运动,他可能不喜欢将步行视为通勤方式。对于变量 MSACAT(居住地区),此次研究认为,如果学生生活在人口较少的地区而且他们的学校就在附近,他们可以轻松步行上学。因此,这种情况促成非运动的概率更大。

(二)人工神经网络

在该网络中,首先设置了网络中的第一层,该网络具有 31 个神经元,用于每个人的 31 个特征。然后在隐藏层中,5 个神经元工作足以获得优化值。此外,输出层是一个三行矩阵,表示人们的模式选择。在这个过程中,模型将步长设置为 0.01,以获得更多具有相同错误分类的迭代。

在陷入局部最优解的情况下,该模型使用隨机梯度下降。 此外,成本函数是 MSE(均方误差),旨在获得输出和目标之间的最小二乘差。

结果如图1所示。在 10 次迭代之前,错误分类的数量迅速下降;并且经过 20 次迭代,误分类数出现振荡,最终降为零。振荡的原因是步长太大,不能有效地达到优化值。

图1    人工神经网络模型图

根据人工神经网络模型的结果,可以采用“权重”分析来解释人工神经网络中输入变量和输出变量之间的关系。用作为敏感分析的“权重”分析定量计算输入因素和输出因素之间的联系强度。通过这种方式,人工神经网络模型可以成功预测出行模式的选择,从而比其他模型提供的估计精度更高。

从模型提供的权重可以看出,个人使用汽车的年里程对于判断他是否使用非机动车上学很重要。对于家庭父母是工人身份,判断他使用汽车还是公交很重要,有工作的人的薪水更有可能买得起汽车。其他变量,如城市或郊区、家庭车辆数量、房屋是出租还是自有,也对结果有很大影响。一件有趣的事情是,我们曾假设家庭收入对模式选择的影响很大,但结果表明影响并不比其他影响显着。

七、局限

选择威斯康星州的数据集并过滤数据后,只有大约 300 条有效数据而小数据集可能会降低模型的准确性。特别是适用于大数据集的神经网络在适用于小数据集时准确性会降低。此外,模式选择分布不平衡。选择非动员的人数与其他两种相比太少了,这也影响了模型的准确性。

另外,数据集没有囊括上学的时间成本,只有距离。为了考虑这个变量,此次研究只是用模态的距离和平均速度来计算时间成本,不够准确。如果数据集有起点和终点,最好使用 GOOGLE API 来获取准确的时间成本。

就现实意义而言,影响上学和返校方式选择的因素可能略有不同。政策制定和进一步研究,需要综合考虑更多方面。

八、结束语

在决定选择上学的方式时,有很多可能的影响。在本文中,它讨论了影响人们的一些一般特征,例如家庭车辆拥有量、家庭位置等。本文使用ANN和MNL模型来尝试预测个人选择。

从结果可以看出,ANN模型可以很好地预测人们在学校旅行中的选择;但是,我们无法得到变量和人的决策之间的具体关系,而 MNL 模型可以清楚地呈现这种关系并且更具可解释性。

此外,利用效用函数,可以进一步研究模型选择的概率。因此,未来我们可能会花时间在 ANN 算法上做更多的推广,以获得更具体的结果,但在制定计划或政策时,应该使用 MNL 模型。接下来可能会考虑如何将这两个模型结合起来,以在模型构建中提供高精度和特定的关系。随着模式开发效率的提高,学生出行的交通拥堵问题将得到缓解。

作者单位:刘婉莹    长安大学公路学院

参  考  文  献

[1]宗芳,隽志才.基于活动的出行方式选择模型与交通需求管理策略[J].吉林大学学报(工学版),2007(01):48-53.

[2]姚丽亚,孙立山,关宏志.基于分层Logit模型的交通方式选择行为研究[J].武汉理工大学学报(交通科学与工程版),2010,34(04):738-741.

[3]何保红. 城市停车换乘设施规划方法研究[D].东南大学,2006.

[4]宋洁. 城市居民出行方式选择预测方法研究[D].吉林大学,2005.