基于手机信令数据的城市区域居民出行OD预测模型

2023-12-28 02:54胡宝雨刘学
交通运输系统工程与信息 2023年6期
关键词:四环人口数量哈尔滨市

胡宝雨,刘学

(东北林业大学,土木与交通学院,哈尔滨 150040)

0 引言

随着大数据时代的到来,越来越多的城市规划者将大数据的理论和方法应用于实践中,大数据赋能交通发展受到广泛关注。近几十年来,随着数据采集技术的发展,第五代(5G)移动通信技术的成熟,大数据方法在交通运输中的应用迅速增加,为交通领域创新发展带来了新的机遇。传统居民出行调查存在成本高、耗时耗力、准确性低等问题,随着信息化的发展,手机信令数据凭借大规模、实时性和高精度的优势,能够提供更为全面和准确的出行信息,逐渐成为智能交通领域研究的主要数据源之一,从海量的手机数据中提取出行信息逐渐成为国内外大数据分析领域的研究热点。利用手机信令数据建立有效的OD预测模型,对于优化城市交通规划和提高出行效率具有重要意义。

空间出行OD预测模型最早是由引力模型[1]而来,近年来Zhao Z.等[2]利用大数据研究网络空间和物理空间相关性,后来Simini 等[3]以美国郡间通勤为背景利用从西欧国家的移动电话数据库中提取的每小时行程数据提出了辐射模型,该模型是第一个无参数模型,通过输入各地的人口数量,就能够预测地点间的交通出行量。一些研究者又对辐射模型进行推广,提出基于时间成本的辐射模型[4]、辐射选择模型[5]等。在预测城市内部出行时,Yan等[6]使用包括阿比让移动电话用户数据集在内的4 个数据集,提出人口权重机会模型预测个体出行目的地选择行为。Zhao 等[7]使用网络签到数据开发了一个基于记忆效力的随机游走模型。进一步地,Yan等[8]使用包括科特迪瓦全国移动电话数据集在内的4个数据集,将人口权重机会模型与随机游走模型相结合得到了适用于不同空间尺度的个体群体统一模型。Forghani 等[9]使用意大利电信数据集,通过识别网络中的社区结构,对辐射模型人口权重机会模型进行改进。受辐射模型的启发,Sim等[10]以个体社交互动规则建立了一个社交关系模型。倪玲霖等[11]以杭州市移动手机信令数据为基础建立了居民OD 出行量影响的空间自相关模型。李自圆等[12]利用手机信令数据分析了长三角城际出行规模和空间分布特征。Liu等[13]使用包括移动用户数据在内的数据集进一步将个体选择社交对象的行为扩展到个体选择目的地行为中,建立了机会优先选择模型。在考虑辐射模型中谨慎性倾向和机会优先选择模型中探索性倾向后,Liu等[14]将这两种倾向作为参数建立了一个统一机会模型。Schläpferd 等[15]使用5 个移动电话数据集揭示了一个简单而强大的缩放定律,构建了一个个体移动模型。

综上所述,大多数空间出行OD 预测模型都依赖于大数据,尤其是手机信令数据,以更准确地捕捉出行行为的模式,模型着重考虑地理空间之间的关联性以预测出行目的地或流动量。这反映了空间出行的本质特征。本文旨在利用手机信令数据获得的群体出行数据,基于城市居民实际出行选择行为提出一种适用于城市内居民出行目的地的选择机制,传统的预测模型如辐射模型、机会优先选择模型等具有无参数的特点,但仅基于人口信息,没有充分考虑个体的兴趣和偏好,本文引入人口数量和兴趣点(POI)数量两类数据,建立一个地点机会选择模型,该模型能够更准确地预测居民出行的目的地选择,数据获取较为容易,模型适用性较高,能为城市交通规划提供依据。

1 研究区域与数据来源

1.1 研究区域及划分

本文以哈尔滨市四环路(即绕城高速)内部城区作为研究区域探索居民出行OD 规律。为研究不同范围规律特征,基于路网特征和用地性质将该区域按二环、三环、四环分别划分出501、829、995 个交通小区。为了在不同尺度更好地观察哈尔滨市城区居民出行规律,分别将上述交通小区合并成46、76、99个交通中区,如图1所示。不同尺度的交通区划分有助于更精确地理解不同区域内的出行情况。比如,交通小区划分可以帮助我们了解某个具体街区的出行状况,而交通中区则能描述更广阔范围的出行状况。另外通过对不同尺度的交通区域进行比较,为城市交通规划提供重要的参考依据。

1.2 手机信令数据

OD数据来源于联通智慧足迹平台的手机信令数据,分别提取2019年5月10日(工作日)和5月18日(休息日)哈尔滨市城区内产生的居民出行数据,与划分的交通小区进行匹配,分别得到工作日411539条出行数据,休息日385232 条出行数据。数据包括7 个字段:start_id,start_lng,start_lat,end_id,end_lng,end_lat,weight。其中,start_id为用户出行起点小区编号,start_lng 为起点小区经度坐标,start_lat 为起点小区纬度坐标,end_id 为用户出行终点小区编号,end_lng,end_lat分别为终点小区的经、纬度坐标,weight 为起终点小区之间产生的出行数量(将联通用户数外推到全量人数),表1 展示了哈尔滨市2019 年5 月10 日(工作日)的部分出行OD 数据。为进一步探寻哈尔滨市四环出行特征,以2019年5月10日为例分别绘制交通小区和交通中区OD出行量T的概率密度函数图,如图2所示,结果表明,城市内区域居民群体出行量遵循厚尾幂律分布。这也就意味着在哈尔滨市四环交通中存在明显的集聚效应,即少数区域内发生大量出行次数远远超过其他区域,这种现象可以解释为在哈尔滨市城区中存在一些核心区域吸引了大量的出行需求和交通流量。这种分布特性对于城市规划和交通管理具有重要的指导意义。

表1 OD数据示例Table 1 Example of OD data

图2 哈尔滨市四环内OD出行量T 概率密度分布Fig.2 Probability density distribution of OD traffic volume T in fourth ring road of Harbin

人口数据通过联通智慧足迹平台提取得到各交通小区的人口数量信息,由此进一步得到各交通中区人口数量信息。定义di为某区域第i个交通小区的相对人口密度,借助ArcMap 将四环范围内995个交通小区相对人口密度采用几何间隔分类法分为8级,如图3所示,哈尔滨市城区人口从中心区域向四周逐渐减少,呈现明显的“中心-四周”扩散分布,人口多集中在松花江以南的二环区域内。

图3 哈尔滨市四环内相对人口密度分布图Fig.3 Distribution of relative population density in fourth ring road of Harbin

式中:mi为交通小区i居住人口数(人);Si为交通小区i的面积(km2)。

1.3 POI数据

POI(Point of Interest)即兴趣点,泛指互联网电子地图中的点类数据,基本包含名称、地址、坐标、类别这4个属性。本文借助百度地图API接口获得哈尔滨市POI 点数据,所有POI 点被分为14 个大类:餐饮美食、公司企业、购物消费、交通设施、金融机构、酒店住宿、科教文化、旅游景点、汽车相关、商务住宅、生活服务、休闲娱乐、医疗保健、运动健身,具体如表2所示。将POI数据与划分的交通小区进行匹配,进而与合并后的交通中区进行匹配,得到哈尔滨市不同范围的POI 分布情况。图4 展示了POI 在四环交通小区上的分布,发现POI 点分布与人口密度分布具有一致性,进一步表明哈尔滨市为中心放射型城市特征。

表2 交通小区POI类型分类数据示例Table 2 Examples of traffic community POI categorization data

图4 哈尔滨市四环内POI分布图Fig.4 Distribution of POI in fourth ring road of Harbin

2 OD预测模型

2.1 辐射模型

辐射模型的基本假设是当出行者选择目的地时,首先评估这些地点提供的机会效益z,用人口数量表示每个地点的机会效益,机会效益是从分布p(z)中随机选择的。然后出行者将选择距离最近的高于起始地机会效益的地点作为目的地,故位置j可以作为目的地的概率为

式中:j为终点交通区号;Qij为当起点为i地,j地可以作为目的地的概率;mj为终点j交通区的人口数量;sij为i、j两地之间人口数量之和(不包含i、j两地)。

位置i的出行者选择位置j作为目的地的概率为

式中:M为所有交通区的人口数量之和。

2.2 机会优先选择模型

机会优先选择(OPS)模型的基本假设是出行者不仅可以选择机会效益高于起点的最近地点,还可以选择机会效益高于起点机会效益和介入机会效益的其他地点,机会效益同样用人口数量表示,故位置j可以作为目的地的概率为

位于位置i的出行者选择位置j作为目的地的概率为

式中:Sij为i、j之间所有交通区的人口数量之和(包含i、j两地)。

2.3 地点机会选择模型

随着公共交通方式稳定发展与私家车的普及,出行距离已不再是制约人类城市内区域出行的重要因素。在城区内居民目的地选择主要基于两个准则:一是优先选择去往人口数量更多的地区;二是优先选择去往POI 数量更多的地区,如图5 所示。即目的地点的吸引能力分别与该地的人口数量和POI 数量成正比,如图6 和图7 所示。概括来说,人们总会优先选择去往比自身所在地效益更大的地区,这里的效益分别由人口数量和POI数量来表示。

图5 城市居民出行目的地选择示意图Fig.5 Schematic diagram of travel destination choice for urban residents

图6 交通小区吸引量关系图Fig.6 Attractive volume relationship in traffic cells

图7 交通中区吸引量关系图Fig.7 Attractive volume relationship in traffic mid-zones

因此,本文考虑出行者所在地的机会效益与目的地的机会效益,构建地点机会选择模型(Position Opportunity Selection Model,POS),在新模型中假设:出行者更倾向于去往比自身所在地效益更大的目的地。此时位置j可以作为目的地的概率为

由式(6)~式(8)可得

式中:hi为起点i交通区的POI 数量;hj为终点j交通区的POI数量

则位置i的出行者选择位置j作为目的地的概率为

故从位置i去往位置j的出行量为

式中:Tij为以i交通区为起点j交通区为终点的交通出行量;Oi为i交通区的交通出行产生总量。

3 结果分析

3.1 吸引能力分析

不同区域的交通吸引能力分析可以提供有关城市交通系统和城市规划的关键信息,对于优化资源分配、改善交通流动性,提高居民生活质量具有重要意义。定义xj为第j个交通区的交通吸引能力,通过对比不同模型得到的出行预测数据来评估预测模型的准确性。图8 展示了哈尔滨市四环内99个交通中区的吸引能力预测分布图。总的来说:工作日的交通吸引能力高于休息日,松花江以南的吸引能力高于松花江以北的吸引能力;POS模型与OPS模型在吸引能力预测上与真实值略有偏差,基本可以正确反映某区域的交通吸引能力,而辐射模型预测值与真实值对比偏差较大。把实际交通吸引能力高于预测值的区域称为高交通吸引区,这些区域具有特殊的吸引力因素,例如就业机会、商业中心等;把实际交通吸引能力低于预测值的小区称为低交通吸引区,表明这些地区存在可改进的问题,例如交通基础设施、公共交通服务或者城市规划方面。从POS模型预测结果来看,在哈尔滨市城区外缘-四环路上有部分高交通吸引区,暗示了城市扩张和郊区化趋势,随着城市不断扩大,新的住宅区域出现在城市边缘,土地相对便宜且可供开发,这可能会导致更多人居住在城市的外围区域;而二环区域内有部分低交通吸引区,这表明哈尔滨市中心城区交通状况有待改进。

分析不同区域的交通吸引能力有助于城市规划者针对性改善交通基础设施以满足需求,更有效地规划道路、公共交通线路和交通信号以减少交通拥堵。了解不同区域交通吸引能力差异可以帮助城市管理部门公平地分配资源,确保各个区域都能获得适当的交通服务和基础设施投资。

3.2 出行距离分布

探究城市居民出行距离分布对城市交通规划具有重要意义,了解城市居民的出行距离分布可以更好地规划交通系统、优化城市布局以及改善交通运输效率。掌握居民出行距离分布变化趋势,可以根据实际需求优化配置公共交通,提高交通服务能力和质量,满足居民出行需求。

本文对POS 模型预测得到的出行距离和实际出行距离分别在不同时间、不同范围上进行比较。图9 展示了交通中区POS 模型预测距离与实际出行距离的分布情况,可以看出,随着出行距离变远,预测值越来越接近真实值。同时对真实值概率密度p(d)进行拟合分析,结果服从高斯分布,并且发现,随着区域的扩大规律性越来越明显。哈尔滨市四环内出行距离遵循高斯分布说明,在该区域中,较短的出行距离相对较常见,而较长的出行距离相对较少见。在市区范围内,一方面人们更倾向于进行短途出行,例如去商场、上班、学校等,因此这些较短出行距离的频率更高,呈现出高斯分布的特征;另一方面,较长出行距离相对较少,这是由于在该区域中心城区分布的机会数量较多,而四周区域机会数量较少,周边区域的出行总量较少,导致长距离出行概率较低。另外,对比真实值和预测值的拟合曲线发现,在工作日随着出行距离变长,预测值曲线先低于真实值曲线而后略高于真实值曲线,这说明在短距离出行中个体的出行距离更加多样化。

图9 不同时间不同范围出行距离分布Fig.9 Travel distance distribution of different ranges at different times

3.3 OD预测精度分析

使用Sørensen 相似性指数(SSI)比较POS 模型和传统辐射模型、OPS模型的OD预测准确性。SSI是用于对比两个样本之间相似性的统计工具,结果越接近1,其预测精度越高,在这里修改该指数来衡量模型的准确度。其中,e为出行网络的有效连边(两个交通区之间有出行量即算作一条有效连边),n为交通区内出行产生的所有连边数,为预测出行量,Tij为实际出行量。结果表明,POS模型精度较辐射模型和OPS 模型在不同尺度均有很大提升。如图10(a)、(c)所示,对比二、三、四环交通小区预测结果发现,POS模型在工作日SSI分别为0.69、0.68、0.67,休息日SSI 分别为0.72、0.70、0.69;OPS模型工作日SSI 分别为0.55、0.55、0.54,休息日SSI分别为0.54、0.52、0.51;辐射模型工作日SSI分别为0.12、0.09、0.09,休息日SSI 分别为0.12、0.10、0.09。在交通小区中,POS模型较OPS模型预测精度提高了13%~18%、较辐射模型预测精度提高了57%~60%。如图10(b)、(d)所示,对比二、三、四环交通中区预测结果发现,POS 模型在工作日SSI 分别为0.83、0.81、0.75,休息日SSI 分别为0.81、0.80、0.75;OPS 模型工作日SSI 分别为0.66、0.65、0.66,休息日SSI分别为0.64、0.60、0.58;辐射模型工作日SSI 分别为0.26、0.21、0.17,休息日SSI 分别为0.26、0.20、0.17。在交通中区中,POS模型较OPS模型预测精度提高了9%~20%,较辐射模型提高了55%~60%。

图10 SSI预测精度对比Fig.10 Comparison of SSI prediction accuracy

分析发现,不同模型的交通中区预测精度均高于交通小区预测精度,这是因为交通中区通常是城市交通密集、道路规模较大的地区,拥有更多的数据和监控设施,交通流量更大,数据量更丰富。相比之下交通小区的尺度较小,交通情况变化可能不够明显或难以预测。此外,交通小区内部的交通流动性也较低,受到周边交通影响较大,因此准确预测交通情况可能会面临更大的挑战。这与交通流预测模型[16]在重交通流和中等交通流条件下预测效果良好,而在低交通流条件下表现不佳的结论相符。图6 和图7 也表明,在交通中区目的地点吸引量与人口数量和POI数量相关更高,这是导致交通中区预测精度高于交通小区预测精度的直接原因。还发现,不管是交通小区还是交通中区,SSI都会随研究区域的扩大而有所下降,尤其是POS模型较为明显,说明该模型在适用范围上有所限制。

式中:ISSI为SSI的值。

为了更好地比较不同模型预测结果的准确度,定义预测值与实际值的相对误差为Aij。根据Aij的取值,将相对误差分为4 个等级:A 准确(Aij≤0.3)、B比较准确(0.3<Aij≤0.5)、C不太准确(0.5<Aij≤1)、D不准确(Aij >1),如表3所示。结果表明,POS模型在交通中区的预测相对误差集中在A、B两级,其中交通中区A、B两个等级之和基本能达到0.6 以上,交通小区A、B 两个等级之和基本能达到0.45以上,POS模型误差率在A等级中的占比明显优于OPS 模型和辐射模型,模型准确度大大提高。

表3 相对误差占比Table 3 Percentage of relative error

4 结论

本文利用联通智慧足迹提取到的手机信令数据中的OD 出行数据、人口数据和利用百度API 接口得到的POI点数据,分析哈尔滨市四环城区内空间结构以及居民出行分布特征,得到的主要结论如下:

(1)通过对哈尔滨市四环区域内相对人口密度分布和POI分布的分析,揭示了该城市的空间结构特征和交通出行量的分布规律。首先,哈尔滨市四环区域内的人口密度和POI分布呈现出中心-四周放射型特征。这意味着城市的中心地带聚集了更多的人口和商业设施,而随着距离中心区域的距离增加,人口和商业设施的数量逐渐减少。这一结论与其他城市的研究结果相似,中心-四周放射型是许多城市的共性特征。其次发现,哈尔滨市四环区域内的交通出行量遵循幂率分布。这意味着少数区域承载了大部分出行交通流量,而大部分区域的交通流量相对较少。这一结论有助于城市规划者更好地理解城市交通流量的分布规律,并制定更有效的交通管理和规划措施。

(2)通过对哈尔滨市四环区域内人口数量、POI数量和交通吸引量的相关性分析发现,人口数量和POI数量与交通吸引量呈正相关关系,这意味着人口数量和商业设施数量越多的地方,交通吸引量越大。由此提出一种地点机会选择(POS)模型,该模型的基本假设是出行者选择目的地的概率与目的地处的人口成正比,与起点和目的地人口总数成反比,与目的地处的POI成正比,与起点和目的地POI总数成反比。该模型为无参数模型,与经典辐射模型和机会优先选择(OPS)模型相比,POS 模型能更好地描述城市区域尤其是中心城区居民目的地选择的行为模式。该模型输入仅需各地点人口数量和POI 兴趣点数量,两种数据获得较为容易,有利于节约城市交通出行需求预测成本。

(3)将提出的地点机会选择(POS)模型预测数据与已有的辐射模型和OPS 模型以及真实数据值进行吸引能力预测对比,POS模型和OPS模型与真实值的差距不大,可以较为准确地预测区域内的交通吸引能力。通过POS模型与真实值的对比发现,哈尔滨市外围存在高交通吸引区,而城市中心存在低交通吸引区,为改善区域交通基础设施提供建议。

(4)对真实数据集和POS预测数据集的出行距离进行拟合分析得到,哈尔滨市四环内居民出行距离服从高斯分布。在拟合分析中发现,休息日的真实出行距离与预测出行距离的拟合曲线基本吻合,而在工作日真实值略高于预测值,这意味着在工作日的出行情况中,个体的出行距离相对更多样化。

(5)对模型OD预测精度分析,使用相似性指数SSI 将POS 与传统的辐射模型和OPS 模型对比,POS 模型SSI 值在不同层面均高于其他两个模型。进一步使用相对误差验证模型准确性,并将其分为4 个等级:A 准确、B 比较准确、C 不太准确、D 不准确,POS模型在A、B两个等级的占比之和均高于其他两个模型,体现了该模型的优越性与准确性。

猜你喜欢
四环人口数量哈尔滨市
哈尔滨市天丰工具研究所
失而复得的玉桂叶
“六步四环”单元教学靶向课堂提质
黑龙江省哈尔滨市方正县第一中学校
创新“四双四环”模式 打造课程思政样板
我国60岁以上人口数量首超15岁以下人口
2020年前俄人口数量将增至1.475亿
四环医药迎来春天
哈尔滨市市政工程设计院
“十三五”期间江西省老龄人口数量预测