基于知识学习的行人轨迹预测方法综述

2024-01-04 23:58王雨露张龑彭乾
湖北大学学报(自然科学版) 2024年1期
关键词:行人轨迹神经网络

王雨露,张龑,彭乾

(湖北大学计算机与信息工程学院, 湖北 武汉 430062)

0 引言

随着深度学习的不断发展,计算机扩展了人类的视觉,如在自动驾驶汽车、服务机器人、智能交通、智慧校园等领域,行人安全成为研究热点。例如,在湖边,如果监控系统可以预测湖边行人的轨迹,那么就能对行人落水提出预警,保证湖边游玩行人的安全。因此,预测行人轨迹对于包括自动驾驶和监控系统在内的多种应用至关重要。在非自动驾驶中,经验丰富的驾驶员会根据周围环境预测车辆和行人的行为[1],而学者们就需要根据这种人类的自我意识来设计自动驾驶系统,在自动驾驶中,对行人轨迹的准确预测使控制器能够在对抗性环境中提前规划车辆的运动,例如,它是防撞系统或紧急制动系统[2-4]的关键部件;在监控系统中,预测行人轨迹对于帮助识别异常活动也至关重要[5-7]。目前,国内外对行人轨迹预测的研究日益增多,因此就有必要对该领域的相关技术和文献进行总结。

本文的组织结构如下:第1部分介绍了行人轨迹预测的发展,并给出了轨迹预测的问题描述;第2部分分类列举了目前的轨迹预测方法,并对比了优缺点;第3部分介绍了轨迹预测方法中使用的数据集,并在其数据集中对某些算法进行分析和对比;第4部分阐述了行人轨迹预测方法未来的研究方向,并总结全文。

1 相关工作

1.1 行人轨迹预测介绍行人轨迹预测是在给定的场景中,通过利用一段行人运动的历史视频和场景信息来建立模型,让机器学习从行人行为、行人交互、周围环境的影响等方面生成一些规则[8],来预测未来一段时间内行人的运动轨迹,即预测行人在未来固定时刻的位置坐标[9]。行人轨迹预测其实是预测任务中的一种。

预测任务分为短期预测和长期预测[10,11],短期预测侧重于短期动作视频,这些视频通常持续几秒钟,仅根据历史时空序列数据预测下一时刻的观测值;长期预测则是通过当前观察到的人类行为推断出未来的行动,即根据历史时空序列数据预测接下来一段连续时间的观测值,旨在对动作转换进行建模,即给定一个动作视频A,其中A可以是完整的或不完整的动作执行,目标是推断下一个动作B。预测任务按照建模方式分为基于传统参数模型的预测方法、基于传统机器学习模型的预测方法和基于深度学习模型的预测方法,基于以上三种方法包括的主要模型如图1所示,而本文中主要介绍的是基于深度学习模型的预测方法中的循环神经网络、长短期记忆网络和图神经网络。

图1 预测方法

1.2 行人轨迹预测问题描述行人轨迹预测问题在实际方法中主要分为两种[12],一种是在传统模型中经常用到的建模方式,即依据行人当时的方向速度,预测下一时刻该行人的方向速度,并在此基础上计算之后的坐标位置;另一种是将该类任务可以转化为时间序列预测问题,行人轨迹被映射成一组坐标点,行人过去时间的坐标位置为当前时刻的输入,输出为预测的未来一段时间的行人坐标。此类问题是通过海量的历史数据来挖掘移动目标的行为特征,结合目标的当前位置,预判目标的运动趋势。

在行人轨迹预测任务中虽然选择建模方式并不困难,但是由于行人运动中,行人的轨迹受到多种因素的影响导致轨迹难以精准预测,影响因素主要包括以下几点:

第一,行人周围的物体可能会影响行人的运动轨迹,影响运动轨迹的物体可能为树木或道路等物理障碍物,也可能为车辆和其他行人在内的移动物体。依据Moussaid等[13]的研究,倾向于结伴而行的行人超过3/5,行人之间的互动主要是由常识和社会习俗驱动的。因此,这种人与人之间的交互是非常抽象的,在算法中往往很难表现出精确的建模。

第二,行人的运动轨迹非常多变,以至于几乎不可能准确地预测行人未来的行走轨迹,因为行人的目的地和预期路径是未知的,所以针对每一条轨迹,都会有多条可能的未来轨迹,即轨迹预测是一个多模态问题[14]。

因此,行人轨迹的随机性、个体之间的复杂交互以及场景的复杂性使轨迹预测问题充满挑战[9],并且这几个影响因素之间也是相互作用、影响的。这也是轨迹预测任务从统计模型向深度学习模型转变的重要原因。

2 行人轨迹预测的技术分类

自20世纪90年代以来,行人轨迹预测问题逐渐被重视,基于统计模型的预测方法开始被提出,但是这些模型缺乏统一的评价指标,并且数据集的质量也参差不齐,因此该类模型很少被使用。但是随着人工智能的兴起,机器学习尤其是深度学习逐渐被应用到轨迹预测中。轨迹预测任务大致可以分为三类,即特征因素、建模方法、预测方法。特征因素一般包括行人的轨迹特征和运动学特征、环境信息等;建模方法一般分为基于统计模型的方法和基于知识学习的方法两大类;预测方法包括单轨迹预测、多轨迹预测等(见图1)。本研究将从建模方法作为模型分类依据,对行人轨迹预测技术进行分类总结,如图2所示。

图2 行人轨迹预测分类

2.1 基于统计模型的预测方法在基于统计模型的方法中,较早被应用在轨迹预测任务中的是的基于运动学的方法,主要通过概率统计模型来反映个体的运动特点,之后,这种模型通常会根据行人的行走速度、当前位置等行为特点建立模型,并将其与贝叶斯滤波器(Bayesian filtering)、马尔科夫网络(Markov nets)和贝叶斯网络(Bayesian network)相结合。Helbing等[15]在1995年提出社会力模型(social force model,SFM模型),该模型结合了行人流的一些特性,依据人与人的交互作用建立了行人的模型,将社会力模型扩展为行人路径选择模型。之后,Rinke等[16]在社会力模型的基础上提出一种基于社会力模型的多层次道路使用者运动及其相互作用表示方法,通过先确定行人运动目标点,然后利用拉格朗日多项式依次估计其他轨迹,最后运用基于社会力模型进行轨迹选择,生成预测轨迹。而Pavlovic等在2011年[17]基于马尔科夫链提出切换线性动力学系统(switched linear dynamical system,SLDS)模型[18],该模型以马尔科夫链为基础,能够在不同的线性运动学模型间进行转换,并能对真实环境中的非线性行人运动进行预测。但是,由于基于该模型的提取的特征信息不能很好地支撑状态转换,并且为了满足更复杂的运动模型测试的精度要求,需要构建更大的运动获取行人运动数据。之后,Kooij等于2014年[19]建立了基于上下文的动态贝叶斯网络(dynamic bayesian network,DBN)模型用于行人路径预测,该模型将情境信息(即行人头部方向、情况紧迫性和周围环境)与 SLDS模型相结合,预测精确度相对于SLDS模型得到了提高。Alahi等同年提出SAM模型[20],该模型通过提取行人间的相对位置来显示行人的社交特性。该模型首先进行OD先验,然后将人群中个体轨迹连接起来获取参与者之间的关系。而与SAM模型同的是 Yi等[21]提出将静止人群作为主要部分的行人行为模型,通过对固定人群和行人之间的相互作用的推断,使用人类属性来改善人群中的预测,通过场景能量图的深浅,表示行人间交互性的强弱。

但是,基于统计模型的预测方法在进行预测推理时需要进行大量的计算,而且不能提取目标物体的基本运动类型(例如转身)以及场景中其他物体的信息。总而言之,基于统计模型的预测方法虽然在一些研究成果,然而,由于基于运动学方法的局限性以及信息无法完全提取等问题,使得预测结果与现实有较大的偏差,使得传统的方法很难准确地预测出复杂场景中的行人的轨迹。

2.2 基于知识学习的预测方法近年来,随着深度学习的兴起,神经网络在图像分类、行人识别等领域取得了不错的效果[22],在此基础上,提出了一系列的时序数据处理模型,以知识学习为基础的方法得到了广泛的应用,并且它们比以前的方法具有更好的预测性能。递归神经网络最早被运用到行人轨迹任务中,之后研究学者又将注意力机制与递归神经网络结合用于研究行人轨迹预测任务;后来,随着生成对抗网络与图神经网络的兴起,递归神经网络与生成对抗网络两者的结合、图神经网络与注意力机制结合也是行人轨迹预测任务中一个新的研究趋势;而近两年,Transformer架构的提出,也逐渐被研究学者考虑引用到行人轨迹预测任务中。因此,下面将从递归神经网络、生成对抗网络、图神经网络三个方向介绍行人轨迹预测方法,而Transformer因目前使用的较少,因此暂时先不介绍基于Transformer的行人轨迹预测方法。

2.2.1 基于递归神经网络的方法 由于行人轨迹预测问题本质上是一个动态的时间序列处理与预测问题,而递归神经网络可以有效反映个体的时序特征,因此递归神经网络成为近年来轨迹预测的重要方向,而其中的长短记忆网络(LSTM)运用最为广泛(其结构如图3所示),如Social-LSTM模型、SS-LSTM模型。其中,Social-LSTM模型[23]是首个使用深度学习来预测行人轨迹的算法,模型架构如图4所示,而SS-LSTM模型[24]是在Social-LSTM模型的基础上使用三种不同的LSTM来捕获人、社会和场景尺度信息,提高了行人轨迹的预测精度。在行人轨迹任务中,由于行人轨迹会受到其他行人以及物体的影响,可能会改变或限制行人的活动,因此关注这些场景因素也是十分必要的,一些研究学者就将注意力机制与递归神经网络结合,增强了行人之间的交互,提高了轨迹预测的准确率,如CGNS模型、MRGL模型。基于递归神经网络方法的具体描述如表1所示。

表1 基于递归神经网络的方法

图3 长短记忆网络结构图

图4 Social-LSTM模型架构图

综上,基于递归神经网络模型的预测方法虽然在轨迹预测的精度上得到了提高,但是也存在参数效率低、训练成本高等缺点。

2.2.2 基于生成对抗网络的方法 生成对抗网络是是一种通过将无监督问题视为有监督问题,并同时使用生成模型和判别模型来自动训练生成模型的架构,因此为了提高轨迹预测的准确率,有学者采用生对抗网络的方法为行人生成未来轨迹。在这些对抗性训练框架中,有两个矩阵:一个生成未来表示的生成网络和一个鉴别器,其目的是区分预测的表示或其时间一致性[27-28],以及通过生成二进制分类分数来指示预测是真的还是假的实际地面实况数据。生成对抗网络原理如图5所示。Gupta等在Social-LSTM模型的基础上提出Social-GAN[29]模型,加入生成对抗网络预测多模态轨迹,模型架构如图6所示。

图5 生成对抗网络原理图

图6 Social-GAN模型架构图

Sadeghian A等提出Sophie[30]模型,该模型结合行人之间的社交使用场景上下文信息,引入注意力机制并与基于LSTM自动编码器的生成对抗网络相结合,来预测每个行人的未来路径。Kosaraju等提出Social-BiGAT模型[31],通过将图注意力机制和生成对抗网络结合,不仅可以为给定的行人生成多个轨迹,还以多模式的方式为多个行人生成轨迹。李文礼等提出SAN-GAN模型[32],该模型基于视野域模块捕捉行人视野域动态变化,对所有行人建立扇形视野域并筛选有效信息,可以有效预测行人在复杂环境中进行交互的未来路径。吴家皋等提出的SRA-SIGAN模型[33],首先使用SR-LSTM获取运动意图信息,使得社会交互模块能够表达目标与相邻行人之间的位置和运动信息,然后引入速度注意力机制模块处理行人之间的交互,最后由GAN预测未来的轨迹。余力等提出的MAGAM模型[34]利用LSTM对每个行人的历史轨迹序列进行建模,然后引入了融合位置信息的多头注意力机制,来刻画同一空间中目标行人在多个影响因素下对周围行人的关注。张睿等提出的基于生成对抗网络的可解释模型[35]在GAN的框架下,引入物理注意力机制和社会注意力机制,使得模型能够预测出物理限制和社会行为规范的多条未来轨迹。基于递归神经网络方法的具体描述如表2所示。

表2 基于生成对抗网络的方法

生成对抗网络通过生成器和判别器之间的训练虽然可以提高轨迹预测的准确率,但是基于GAN的模型也同时容易出现收敛速度慢、模式崩塌、过生成等问题。

2.2.3 基于图神经网络的方法 图神经网络是一类处理图域信息的深度学习模型,而在行人交互场景中存在着丰富的图信息,因此研究学者也开始将图神经网络运用到行人轨迹预测任务中。在处理时空信息时,基于递归神经网络模型采用的是聚合操作,而图神经网络是利用图的各结点间的信息传输所获取的相关信息,从而对图中各结点的状态进行更新,从而得到较强的预测能力。Mohamed等提出用于人类轨迹预测的社会时空图卷积神经网络模型Social-STGCNN[36],该模型以时间卷积网络作为序列解码器,将行人交互建模为图,然后解码图卷积网络输出的信息生成行人轨迹,模型架构如图7所示。与Social-STGCNN模型类似的还有AVGCN模型[37],该模型利用基于人类注意力的图卷积网络(GCN)进行轨迹预测,并且该模型还利用变分轨迹预测的方法考虑了行人轨迹的随机性。Li等基于Social-STGCNN模型提出Attention-GCNN模型[38],将注意力机制与图神经网络结合起来,通过设置边的权重来提取行人之间的交互信息,从而预测行人轨迹。Ivanovic等提出Trajectron++[39-40],该模型是一种模块化的图结构的循环模型,同时结合智能体的动态和异构数据(例如语义地图等),生成行人未来轨迹的分布。Wang等提出的Graph TCN模型[41]将空间相互作用建模为社会图,并通过改进的时间卷积网络捕捉时空相互作用。Shi等提出SGCN模型[42],使用稀疏有向空间图和稀疏有向时间图来预测行人的轨迹。Rainbow等在Social-STGCNN模型上提出Semantics-STGCNN模型[43],该模型不同类型的道路使用者之间隐含的相关性引入图卷积神经网路中,可以更好地预测个体轨迹,并可用于用于多类轨迹预测。之后,Li等又提出Multiclass-SGCN模型[44],该模型是一种基于稀疏图卷积网络的多类轨迹预测方法,引入行人速度和行人标签信息,并根据交互得分自适应地决定行人的空间和时间连接,提供了更现实和合理的轨迹预测。基于图神经网络方法的具体描述如表3所示。

表3 基于图神经网络的方法

图7 Social-STGCNN模型架构图

近几年基于图神经网络广泛被用于轨迹预测,也取得了亮眼的成绩,并且也逐渐将注意力机制、生成对抗网络多种方法与图神经网络进行结合,但是现在的大多数算法考虑到的因素单一,没有考虑到行人运动过程中的深层运动特性以及与其类型运动个体之间的相互作用,如行人运动速度、行人运动方向、汽车运动速度等,而这些信息却更符合真实场景中的行人运动状态,更具有应用价值。随着图网络技术的发展和成熟,图神经网络在轨迹预测任务中的应用将是非常有前途的。

3 数据集及性能指标

3.1 数据集在行人轨迹预测任务中,涉及数据集主要有以下几种:ETH[45]、UCY[46]、SDD[47]、 Town Center[48]、Edinburgh[49]、Interaction[50]、Grand Central[51]、 ActEV/VIRAT。数据集详情如表4所示。

表4 数据集详情

3.2 评价指标行人轨迹预测任务主要有两个评价指标:平均位移误差(ADE)和最终位移误差(FDE).平均位移误差是测量轨迹的平均预测性能,最终位移误差仅考虑轨迹端点的预测精度,两个评价指标的公式如下:

3.3 算法性能比较在行人轨迹任务中,由于ETH和UCY数据集是广泛被使用的数据集,因此本文中只比较基于深度学习的各个模型在这两个数据集上的性能,比较结果如表5所示。

表5 性能比较

从表2的数据可知,基于递归神经网络的方法(Social-LSTM、SS-LSTM)的预测精确度要低于基于生成对抗网络和基于图神经网络的方法。而且随着将注意力机制与图神经网络结合,基于两种技术结合的方法(Attention-GCNN、Trajectron、Trajectron++、Graph TCN)的预测精度相对于只使用图神经网络方法的预测效果更好,其中,Graph TCN方法比Social-STGCNN方法的预测准确率提高了大约50%。因此,随着图网络技术的发展和成熟,使用注意力机制和图神经网络结合的方法可以更精确的预测行人未来的路径。

4 结语

本研究对近些年来行人轨迹预测任务进行研究,从轨迹预测问题的实质和挑战为出发点,对目前行人轨迹预测方法进行分类,并且总结了不同模型的优缺点。通过研究行人轨迹预测任务的发展方向可以发现,基于深度学习的轨迹预测模型要优于基于统计学模型的方法,并且多种方法结合的模型的预测精度以及效率要高于基于单一方法的预测模型。但是,由于实际场景复杂多变,当前的轨迹预测模型在实际场景应用中还存在许多不足,因此未来行人轨迹预测任务的研究可以从以下几个方面展开。

1)融合其他场景因素对行人轨迹预测任务所产生的影响。在现有的模型中,并未考虑到场景因素对行人轨迹变化的影响,例如道路状况、静动态障碍物等,因此在模型中有效地融合场景因素是十分有必要的。

2)考虑不同视角下的数据集。现在方法中使用的数据集大部分都是俯瞰视角下产生的数据,而使用俯瞰视角数据的应用只是实际应用中的一部分,因此获取行人的平视及第一人称视角等不同视角的数据是之后值得研究的方向。

3)融合行人本身的主观意图。行人本身的主观意图对于该行人未来的轨迹起着重要的作用,例如行人的姿势和方向决定了该行人是否会突然转弯、停止,因此融入行人的主观意图也是行人轨迹预测任务的研究热点。

猜你喜欢
行人轨迹神经网络
毒舌出没,行人避让
轨迹
轨迹
神经网络抑制无线通信干扰探究
路不为寻找者而设
轨迹
进化的轨迹(一)——进化,无尽的适应
我是行人
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用