体育场景中的视觉目标跟踪研究进展

2023-09-26 05:26韩笑林驰琛王永滨
关键词:球类摄像机轨迹

韩笑,林驰琛,王永滨

(1.中国传媒大学媒体融合与传播国家重点实验室,北京 100024; 2.中国传媒大学信息与通信工程学院,北京 100024)

1 引言

党的二十大提出,建设体育强国和科技强国,明确了体育在中国式现代化进程中的先行者地位。近年来,我国体育事业取得长足发展,重要体育赛事和全民体育活动的直播、视频点播以及短视频数量呈现井喷式增长。随着科技高速发展,人工智能和深度学习技术近年来也取得了一系列的突破性进展。因此如何利用计算机视觉技术对体育视频和图像进行分析处理,赋予机器理解抽象知识的能力,从而自动化处理分析体育视频是亟待解决的问题。

体育视频一直是广大观众所喜爱的视频娱乐类型,截止至2022 年12 月,我国网络体育直播用户规模为3.73亿[1]。体育视频在为观众带来颇具运动美学的视觉刺激的同时,视频内各类目标的运动和交互也具有很强的分析研究价值。蓬勃发展的体育运动产业,在带来经济效益的同时,也面临互联网环境下的视频媒体受众提出的新需求。一般观众可能只关注自己喜爱的运动员,或是比赛的精彩瞬间,但专业球迷可能会分析运动员的所有运动数据,运动员也会分析自身的运动行为从而进行针对性训练,教练则会根据所有运动员的表现来调整整体战术和发掘球员潜力,媒体从业者也需要快捷多样地编辑具备视觉冲击力的体育视频内容。总之,无论是在提高比赛的观赏性、运动员个人技术的提升、团队间的合作、体育教育教学甚至是社交媒体的再编辑创作,对体育视频中的目标运动进行分析已是当前视频传播环境下不可避免的迫切需求。其中对球类和运动员的跟踪则是体育视频理解领域中构建复杂运动分析系统的关键技术,能够对推动体育内容渗透发挥积极作用。

2 方法概述

2.1 目标跟踪的数学公式表达

体育视频中的目标跟踪是对连续视频帧序列中运动的球类或运动员进行定位、识别,从而获得每一帧中球类和所有运动员的位置坐标和身份信息。如图1 所示,用{I1,I2,…,It,… }表示输入的图像帧序列,其中It是第t帧。表示第t帧的状态表示第t帧中球类的状态,m表示第t帧中运动员目标的总数表示在第t帧中第i个运动员目标的状态。球类和运动员的状态包括位置、尺寸、速度、方向等特征。训练模型的过程和目标是,给定一系列帧,在每一帧中输出球类和所有运动员目标的轨迹T、身份d以及位置框信息(x,y,w,h)。我们用(T,d,x,y,w,h)表示第t帧中第i个运动员或球的输出结果。

图1 目标跟踪概述

2.2 体育视频中目标跟踪的分类

目标跟踪作为计算机视觉中基础任务之一,已经有很多传统的跟踪方法,如基于相关滤波的跟踪,基于光流估计的跟踪,基于边界效应的跟踪等。但传统方法需要提前预设定先验信息,比如手动对输入的第一帧中待追踪区域提取特征,得到滤波器后进行模板搜索,且传统方法对光照变化和形变特征较为敏感,无法很好地应对体育领域中球场光照变换复杂的环境以及球类和球员快速运动导致的形变问题。随着深度学习的不断发展,以数据为驱动的体育视频中的目标检测和跟踪在精度和速度上都有了不俗的表现,因此本文只讨论基于深度学习的检测和跟踪方法。体育视频中的目标跟踪传感器类型多种多样,有惯性传感器,如加速度计和陀螺仪,有无线电传感器,如射频识别和GPS跟踪,还有基于视觉相机以及结合多种传感器的混合方法。本文只讨论基于视觉的跟踪方法。体育视频中的目标跟踪按照被跟踪对象可以分为球类单目标跟踪和运动员多目标跟踪;按照拍视角数量可以分为单摄像机目标跟踪和多摄像机目标跟踪。本文将从此分类角度关注足球、篮球、排球三种球类运动场景中的球类的跟踪、单摄像机运动员跟踪和多摄像机多运动员跟踪。

3 体育场景中的目标跟踪研究现状

3.1 球类跟踪

体育场景中因运动类型的多样性,球类目标的类型也复杂多样。文献[2]较为全面地汇总了2017 年之前体育场景中13 种球类的跟踪,并从球的尺寸、运动速度、随机性等多方面总结了球类跟踪的显性特征和难点。本文主要关注足球、篮球、排球三大热门球类运动场景中的目标跟踪。相较于网球、羽毛球等其他球类,这三种球类具有球类目标尺寸相似、球员之间存在互相遮挡等共同特征。如图2 所示,球类跟踪难点在于:尺寸较小,运动形变、分辨率低以及背景融入等。足球、篮球和排球相比网球、羽毛球等虽然尺寸较大,但在没有其他传感器辅助的纯粹视觉跟踪中仍然属于小目标;且在体育视频尤其是专业比赛中,球速较快,如排球扣球最高时速超过每小时130公里,会造成运动模糊和运动形变。

图2 球类跟踪难点示意图

随着深度学习技术在球类目标跟踪任务中的应用,现有研究已经取得了阶段性成果。基于深度学习的球类的跟踪方法一般遵循球类检测和球类跟踪两个步骤,现有的研究也多从这两个方面进行改进。检测结果往往是跟踪过程的输入,因此球类跟踪精度的提升很大程度上依赖于球检测器的准确度。在检测模型中添加分类置信度分支[3-4],得到检测边界框的同时将图像块分为球、球员和背景三类,使跟踪阶段对球类的定位更加精确;文献[5]在检测模型中使用基于自动编码和解码结构的全卷积神经网络;首先在原图上生成球候选区域[6-7],而后计算候选区域和真实球之间的距离,通过设置阈值删除错误的候选区域,检测模型输出包含球类的置信度和球的直径。在跟踪阶段,现有的研究主要集中于解决因球类运动速度快而造成的运动模糊、形变以及因遮挡、出画造成的轨迹不连贯问题。使用一种边界框重叠概率度量算法[4],能够在跟踪从丢失和恢复中生成更加稳健的球轨迹;通过扩展卡尔曼滤波估计球的位置[7],能够更好地应对体育视频中球类运动的不确定性;基于时变裂变滤波器对球的运动状态建模[8],利用相对空间滤波器对轨迹矫正,融合了时空信息;文献[9]考虑了对排球飞行过程中影响最大的空气阻力因素和重力因素来模拟球的运动状态,提出了一种基于时间运动特征的轨迹校正算法。WITHDRAW 模型[10]结合质心跟踪改进卡尔曼滤波器对球的轨迹进行更准确的估计。Zhao等人[11]结合自适应目标区域大小的MeanShift 算法改进卡尔曼滤波跟踪估计,提升了跟踪准确率和速度。

此外,为了获取更多有效的区分性特征,使用鱼眼相机、无人机和可穿戴设备[12-14]等多样化传感器辅助球类的视觉跟踪。由球类的尺寸过小的特点,根据球员和裁判员在球场上的行为和轨迹[15-17]预测球类的轨迹也提供了一种间接且有效的思路。

3.2 单摄像机运动员跟踪

体育视频中的单摄像机多运动员跟踪大都遵循基于检测的跟踪框架,模型流程如图3 所示。在单摄像机多目标跟踪领域中,多数方法的跟踪目标集中于行人或车辆,其具有运动模式简单且规则,外观特征差异明显等特征优势。体育视频中的运动员跟踪则与之相反,本文将多运动员跟踪特点总结如下:

图3 单摄像机多运动员跟踪流程图

(1) 运动员外观相似。体育比赛中球员往往身着统一样式的队服,尤其是同一队的运动员之间队服款式、样色均相同,因此在计算机视觉领域中以往公认的最显著、可靠、稳定的外观特征在体育视频跟踪中区别性差、稳定性低。

(2) 运动员的非线性运动模式。体育运动中球员的运动机动性强,其运动方向和速度不断变化且不可预测,因此其运动状态并不是匀速运动模型,而是更为复杂的非线性、非高斯运动状态。

(3) 运动员之间遮挡频繁。激烈的团体性体育运动中球员之间交互性较强,会导致遮挡情况的频繁发生,进而导致在丢失重检过程中的身份漂移问题。

为了解决因运动员外观特征的不可靠造成的误检漏检情况,一些研究者使用姿态特征辅助跟踪。Kong 等人[18-19]在检测关联中使用运动员的外观和姿态特征生成局部轨迹的初始化状态,并设计了一个基于长短期记忆网络和姿态特征的三重流网络,能够对运动员的长期时间姿势动态进行建模,将运动员姿态、外观以及运动员之间的互动特征融合用以区分不同的运动员。Šajina 等人[20]在每个视频帧中确定运动员的2D 姿态,将其转换为3D 姿态,然后使用聚类方法将所有运动员姿态分组以构造特定动作姿态集合,并在后续检测和跟踪过程中增加姿态分类信息。

为了适应运动员的非线性运动,AMHT 模型[21]结合粒子群优化算法,对运动估计中的测量值进行两次观测细化,最终得到精确的关联假设,进而更新卡尔曼滤波器中的轨迹状态。Kim 等人[22]利用对领域前景区域的多尺度采样,计算采样图像块和被跟踪运动员之间的差异,并使用在线插值法更新每个跟踪目标的状态。OC-SORT[23-24]通过以观测为中心的在线平滑、以观测为中心的动量代价矩阵和以观测为中心的轨迹恢复三个策略,减少丢失重检和以线性运动模式为假设造成的误差累计,证明了在不使用外观特征的情况下简单的运动模型也能获得较好的跟踪性能。Huang 等人[25]利用迭代放大扩展的IOU 模型,在轨迹关联阶段有控制的迭代扩大边界框,在级联匹配过程中增加置信感知参数,摒弃了以线性运动模型为假设前提的卡尔曼滤波器。

针对体育场景中运动员之间的频繁遮挡情况,为运动员之间的交互关系建立图模型能够为区别遮挡区域中的不同运动员提供更多有价值的信息。Sullivan 等人[26]构建跟踪图用以表示目标被跟踪的状态以及目标之间的交互关系,利用图约束和轨迹之间的相似性度量来关联孤立轨迹,并将优化过程表述为贝叶斯网络推理问题,以求得最佳轨迹。Itoh 等人[27]预先将多个运动员的位置信息表示为时间态势图,通过运行由该图引导的粒子过滤器,可以减少错误检测,即使发生遮挡也可以稳健地跟踪运动员。首先对未遮挡的个体区域和存在遮挡的群体区域做出区分,便于后续对遮挡区域进行有针对性的处理。双模式的双向贝叶斯推理方法[28]就是在离线通用模型和在线专用模型之间动态切换,通过前向滤波和后向平滑联合处理单个孤立目标和多个遮挡目标的跟踪。Yamamoto等人[29]通过水平集方法检测运动员区域,然后判断此区域是被遮挡的群体区域还是未被遮挡的个体区域,使用运动员球衣号码识别结果,通过基于关键点的匹配与来多视角特征模板关联轨迹。Xing 等人[30]通过属性匹配算法根据预先确定的位置、大小、颜色和运动信息属性,在不同帧中找到两个目标之间的最佳匹配。Sabirin 等人[31]引入了在模型场的固定位置密集采样的共享粒子的概念,使用外观和运动组合特征来全局评估目标在模型场粒子上的可能性,将目标之间的交互封装至状态空间模型中,使得算法可以在有遮挡的情况下跟踪运动员。被遮挡目标和遮挡目标常常被识别为同一个前景区域,为了区分它们,Lu 等人[32]提出了一种识别候选遮挡目标的方法,利用额外的跟踪器来检测与目标具有高度相似外观的遮挡目标,并在遮挡结束时重新定位被跟踪目标;Kim[33]将前景区域看作是地形表面,利用分水岭分割技术区分互相遮挡的区域,能够准确地描述每个运动员的边界线并跟踪遮挡运动员。遮挡情况下经常造成重复检测,即检测器对一帧中的同一个运动员生成了多个检测框,导致产生多次检测误报。为了解决这个问题,He 等人[34]设计了一个基于Transformer 的重复检测净化器D3,一旦出现重复检测D3 立即通过产生增强的检测框或跟踪框损失修正结果。

3.3 多摄像机多运动员跟踪

多摄像机多运动员跟踪架构涉及相机标定、特征提取、目标检测、目标重识别、轨迹匹配以及跨摄像机关联等关键技术,整体流程框架如图4所示,本章重点关注跨摄像机关联方法的研究进展。多摄像机多运动员跟踪算法按照跨摄像机的全局轨迹生成方法的不同可以分为概率占用图模型和滤波器状态估计模型。

图4 多摄像机多运动员跟踪流程

用概率占用图模型生成全局轨迹[35-39],需要预先利用相机标定数据对体育场地进行空间建模,将整个场地划分为多个格栅,利用被跟踪目标的颜色、纹理、姿态等表观特征对跟踪目标建立概率模型,然后将跨摄像机轨迹关联看作是动态规划问题,最终得到全局搜索得到的最优轨迹。

用卡尔曼滤波器的状态估计模型关联各局部轨迹[40-41],是利用单应变换将单摄像机的跟踪结果投影到全局平面图,然后对运动员的运动状态建模,通过卡尔曼滤波器对连续时间内的状态做出最优估计,从而获得运动员在全局平面图中的全局轨迹。

这两类方法的共同点是需要将全局轨迹生成问题建模为概率问题,且需要预设值先验信息,比如运动员的运动模式信息或体育场地空间信息,这些方法具有对运动类型、光线变化等噪声敏感,泛化性差且需要分步优化等缺陷。

4 评价指标

体育视频中的目标跟踪的评级指标从检测精度、跟踪精度、轨迹匹配一致性等多个方面衡量模型的性能。以下介绍几种常见指标。

IDF1:代表正确识别的检测和平均标注数与检测数之比,其值越大代表ID跟踪轨迹结果越精确。

MOTA:多目标跟踪准确度,用于衡量跟踪算法的综合能力,计算方法如式(1)所示,其中参数FP和FN代表了在第t帧时的误检、漏检个数,GT为每帧的真实标注框个数,IDs为切换次数,即某一个跟踪目标的ID 与其历史ID 不同,经常在多个目标互相遮挡时发生。

MOTP:多目标跟踪精度,用于衡量跟踪目标和标注框的不匹配程度,在计算欧氏距离时其值越小代表了定位越精准,计算方式如式(2)所示。其中Ct表示第t帧中的预测轨迹和GT轨迹成功匹配上的数目,表示第t帧中第i个匹配对之间的距离,即误差。

MCTA:多摄像机目标跟踪精度,综合考虑了检测准确率、单摄像机跟踪精度和跨摄像机跟踪精度,得分越高表示跟踪越准确,计算方式如(3)所示。其中P和R分别表示检测精度和召回率,M w表示单摄像机ID错误匹配数,Tw表示单摄像机正确检测数,Mh表示跨摄像机ID 错误匹配数,Th表示跨摄像机正确检测数,跨摄像机正确检测指的是从某一个摄像机消失后又从另一个摄像机重新匹配到。

HOTA:高阶跟踪准确度,将检测、关联和定位的效果平衡到一个统一度量中,得分越高表示跟踪越准确,计算方式如式(4)所示。

其中HOTAα为HOTA分解的子指标,计算方式如下:

其中TP,FN,FP分别代表被模型预测为阳的正样本,漏检即不匹配的真实检测,误检即不匹配的预测。Ac的计算公式如下。

其中TPA(c)为真阳关联,表示两条轨迹之间的真阳性匹配数量;FNA(c)为误报关联,表示预测轨迹中的剩余检测;FPA(c)为假阳关联,表示真实轨迹中的剩余检测。

5 总结与展望

体育视频中的目标跟踪在球类跟踪、单摄像机运动员跟踪以及多摄像机多运动员跟踪中已取得了很大的进展。本文首先对体育视频中的目标跟踪进行简要介绍,接着梳理了体育场景中目标跟踪的分类、研究的重点和难点,最后整理了常见的评价指标。体育比赛中摄像机网络的逐步完善和视频分析技术的提高,对跟踪性能提出了更高的要求,未来可探索的方向有以下几个方面:

(1) 跟踪目标的特征表示。现有模型缺少对形状特征和表观特征在各种被跟踪目标类型上的表达能力的研究,因此对不同的跟踪任务兼容能力不足。从特征表示方法角度出发,如何使模型更加全面、准确地表达各类特征,对构建泛化性强的通用跟踪模型有重要意义。

(2) 多源数据的融合。现有的公开体育视频跟踪数据多为单摄像机拍摄,受限于单一视角和类型,容易受到光线变化、障碍遮挡等各类噪声影响,很难提取到有效的视觉信息,导致跟踪丢失现象。从数据融合角度出发,多源信息的融合如增加摄像机视角、增加红外传感器等,对体育场景中的目标跟踪效果的提升有待进一步研究。

(3) 运动语义分析。多数现有的多目标跟踪模型研究只关注如何尽可能获取目标的精确运动轨迹,而针对体育运动更高层次的运动语义信息研究不足。随着体育运动分析系统的进一步智能化要求,基于跟踪轨迹的运动目标行为分析有待进一步探索。

猜你喜欢
球类摄像机轨迹
科学运动会:球类篇
球类课放松实例
轨迹
轨迹
轨迹
进化的轨迹(一)——进化,无尽的适应
摄像机低照成像的前世今生
新安讯士Q6155-E PTZ摄像机
如何消除和缓解“摄像机恐惧症”
巧用球类练习发展耐力十法