基于视图不确定关系模型的地面目标位置估计和跟踪

2023-09-28 03:40段宏博
计算机测量与控制 2023年9期
关键词:协方差视图摄像机

季 莎,段宏博

(1.西安明德理工学院 通识教育学院,西安 710124;2.哈尔滨石油学院 数理部,哈尔滨 150028)

0 引言

在监控应用中,通常会有多个摄像机观察地面上的运动目标,利用多个摄像机获取的观测数据对目标进行跟踪是人们广泛关注的问题[1-2];地面上目标的位置估计和跟踪是一个重要的推理问题。在许多监控中,目标移动限制在一个平面(即地平面)上。地平面的存在提出了一个强约束条件,使得许多诸如跟踪、登记、测量和结构估计等实际问题需要条件良好的解决方案。

已有不少采用单个或多个摄像机来跟踪地面上目标的算法。为了对人体目标进行准确可靠的持续跟踪,文献[3]提出了一种融合主颜色特征、纹理特征和时空拓扑特征的目标跟踪算法。该算法将人体区域分割成上、中、下3个目标子块,分别利用最近邻聚类算法提取每个目标子块的主颜色信息,并计算主颜色匹配率。同时根据目标关联信息的累计统计信息,采用增量学习建立和更新摄像机网络的时空拓扑关系。实验表明,该算法能有效地对非重叠视野多摄像机网络中出现的人体目标进行连续跟踪;文献[4]提出的算法利用图像和地平面之间的单应性线性化得到的观测噪声模型,采用卡尔曼滤波跟踪地面上的位置和速度;文献[5-6]提出的多摄像机跟踪算法采用将来自背景减法的输入投影到地面上的单应变换,数据关联和目标定位是通过每个摄像机的投影之间的一致性(共识)来实现的。这些算法的不同之处在于它们处理来自背景减法的输入以及随后跟踪目标的方式。例如,文献[5]提出,在每个视图中提取每个被分割的人的垂直轴,并采用他们在地面上投影的交点来定位这个人,然后采用粒子滤波器对交点进行滤波;而文献[6]提出的算法通过将每个视图的前景似然图像投影到一个参考视图来获得一致性,联合似然图像中的峰值则采用图形切割算法进行阈值化和分割;文献[7]提出了一种基于SIFT (scale invariant feature transform)特征匹配的运动目标检测和跟踪算法。在目标检测阶段,首先提取两帧带检测图像的SIFT特征点并进行特征匹配,然后计算两帧图像之间的几何变换矩阵,从而实现图像的几何对齐。再将几何对齐后的两幅图像进行差分,并在差分图像中寻找SAD最大值区域作为运动目标区域。在目标跟踪阶段,将已检测到的目标作为跟踪样本,与后检测到的目标区域进行SIFT特征匹配,结合论文提出的跟踪样本集更新机制实现目标跟踪;尽管文献[8-9]研究了如何确定单应变换空间上的测度和密度,但并没有研究如何将随机变量考虑进一个单应变换中,特别是在视觉应用的背景下;文献[10]提出了一种基于Grassmann流形和投影变换群的双模视频目标跟踪算法。算法运用Grassmann流形状态空间的内蕴几何特性,建立目标表观模型,采用投影变换群建立目标的几何形变模型,将目标的状态变化看作是流形上的点沿着测地线移动,并设计了双模粒子滤波算法完成目标跟踪。实验结果表明,该算法对目标在经历大幅度非平面的几何形变、光照变化及部分遮挡情况下,都能够实现稳定的跟踪;文献[11]探讨了多摄像机视频监控系统中的多目标跟踪问题。将目标跟踪问题分为两部分:一是单摄像机下多目标跟踪的数据关联问题,二是多摄像机之间的航迹关联问题。针对传统多目标数据关联算法关联错误率高、实时性低的情况,将图像中目标的全局运动特征、HSV颜色特征、LBP特征和光流特征用于多假设数据关联算法(MHT)的关联矩阵的计算,提出了基于多特征融合的数据关联算法(MC-MHT),实验证明该算法在关联性能和实时性上都有所提高;文献[12]提出了一种复杂环境下的多目标实时跟踪方法,包括第一视频采集模块、第二视频采集模块、信息传输模块、数据库、背景剪出模块、视频处理模块、显示模块和控制器与报警模块。在进行静态背景剪出的过程中,通过采集大量监控区域的视频帧图像,通过对大量视频帧图像进行整合处理,减少人物活动以及偶然事件对背景剪取的影响,同时对监控区中出现的有一定活动范围的物体进行分析,降低在追踪过程中该活动物体产生的噪声,从而降低分析难度,提高分析跟踪的准确度;还通过对全局监控区域建立坐标系,对目标对应的坐标点进行读取,根据目标所处坐标对目标进行接力跟踪,防止在对目标的追踪过程中丢失目标,以及无法及时完成接力;文献[13]提出了一种基于核相关滤波(KCF)的分步关联框架。算法首先采用基于卷积神经网络的目标检测器检测目标,获得准确的检测结果。然后,为了更好地预测目标的运动状态,通过加权融合三种特征的跟踪结果,为每个目标建立一个基于KCF算法的快速跟踪器。为了有效地降低碎片化轨迹的数量,算法通过跟踪片的置信度分步关联轨迹,并在遮挡的情况下,利用在线随机蕨重新检测目标。最后利用关联成功的检测信息自适应更新KCF算法中的尺度,实验结果表明,,与现有算法相比,提出的算法能够在各种复杂的条件下,表现出强大和高效的跟踪性能。

上述这些算法主要侧重于跨视图的数据关联和跨遮挡的鲁棒跟踪,以及当背景较差时。而且全部算法都是同等处理来自不同视图的输入。

图1所示为某大学校园里某建筑物周围地面上的4个视图,地面上的同一目标以不同分辨率成像到不同的摄影机上,即摄像机放置以获得地面上不同的视图。显然,不同的视图以不同的分辨率解析目标,而相应地对目标在地面的位置估计就存在差异。

图1 4个摄像机观察一个以平面运动为主的场景

给定一个在全部4个摄相机上同时观察到的目标,如何估计它在地面上的位置并实现对目标的跟踪就是本文要研究的问题。对此,本文提出了摄像机平面视图与地面位置估计方差之间关系的建模理论。首先分析了随机变量(摄像机图像平面上的位置估计和地面上的位置估计)在投影变换下的变换方式,表明了当某些几何性质满足时,投影变换会将正态分布映射为正态分布;其次采用无迹变换(unscented transformation,也称UT变换)[14]来计算得到变换后的随机变量的矩;最后采用得到的建模相关性设计了一种用于多个摄像机位置估计的最小方差估计器,并应用于跟踪地面上动态系统环境中的多个目标;实验结果表明,本文提出的模型不仅具有较好的组合位置估计能力,而且还能够利用这种模型得到的最小方差估计器有效地呈现和跟踪地面目标。

1 摄像机地面投影问题

图2所示为3个摄像机A、B和C观察一个平面P的示例,其中摄像机B的图像平面平行于平面P,而摄像机A和C的图像平面是垂直于平面P的,还在每个摄像机的图像平面上显示了表示该摄像机的图像平面上分布的等误差轮廓。摄像机与平面P之间的单应变换分别为HAP、HBP和HCP。在这种情况下,HBP不是完全投射的,它只是一个仿射变换,相比之下,而HAP和HCP引起了强烈的视角扭曲(视图失真)。当将B投影到平面上时,期望B上的密度保持其原始形式(相同的等误差轮廓)。

图2 摄像机图像面上的密度及其向平面的变换示意图

假设一个场景安装有M个摄像机,标记为1,2,…,M,令ui(i=1,2,…,M)为每个摄像机的图像平面上的位置估计。通过应用第i个摄像机与地面的对应单应变换,就得到地面上的位置估计xi=HiPui。假设xi(i=1,2,…,M)为M个摄像机同时观察地面上的目标的估计值,则希望将它们进行融合。

2 视图不确定关系的建模理论

2.1 单应变换下的随机变量分布

用下划线表示齐次坐标中的向量,用大写字母表示矩阵和随机变量。令H=[h1,h2,h3]T为矩阵,它定义从图像平面坐标到地面坐标的单应变换(在两个平面上的某种坐标系选定下)。给定图像平面上一点u=(u,v)T(R2,就可以得到地面上相应的点x=(x,y)T为:

x=Hu

(1)

u和x之间的关系是齐次形式的线性关系。当u和x为有限点时,式(1)可以改写为一个非线性方程:

(2)

令ZU=(Zu,Zv)T为随机变量,它是对一个摄相机的图像平面上的位置的不确定性的建模,ZX=(Zx,Zy)T为采用式(2)通过变换ZU得到的随机变量,即:

(3)

式中,hi=(hi1,hi2,hi3)T,i=1,2,3。

为了更进一步处理,需要知道ZU的分布。在没有噪声的情况下,图像平面上的位置为u=(u,v)T,然而,来自于以下两个源的噪声破坏了u的观测:

1)成像:在图像平面上采样以生成帧,会在每个像素的单一像素区域引入一个均匀噪声,这个误差对于成像模式是主要的;

2)建模误差:一个更重要的误差来源是假设平面运动。通常我们研究的是平面上忽略尺寸大小的点(理想质点)的位置,但在实际中,目标是有形状大小的,且研究的点与目标上的某个参考点是相关联的。此外,这样的点还受到自遮挡和建模误差导致的视差的影响,与成像传感器引入的噪声不同,建模误差的统计特征对于本文研究的问题是特定的。

在实际中,图像平面上的密度可能是多模态的,通常采用非参数方法(如核和粒子滤波等)进行建模。然而,由于单应变换式(3)的非线性,对于复杂的图像平面密度来说,解析处理和推理就变得十分困难。因此,假设图像平面上的状态空间就是位置(因此是二维的),且ZU是双变量正态分布的:

ZU~N(m0,S0)

(4)

(5)

还假设协方差矩阵S0是一个常数,独立于均值m0。

(6)

(7)

(8)

由式(3)和(7)可见,Zx和Zy均由正态密度比[15]得到。

Zx~cx+dxWax,b

(9)

式中,cx和dx为标量,Wax,b为独立标准正态比,其形式为:

(10)

式中,Z1和Z2为独立的标准正态随机变量。

cx,dx,ax和b的表达式如下:

(11)

(12)

(13)

(14)

Zx的分布严重依赖于Wax,b的分布,因为其分布可以从Wax,b的缩放(dx)和平移(cx)得到。Wax,b的分布可以表示为两个密度的加权和,其中一个密度f1为Cauchy,另一个密度f2有一个解析表达式。Wax,b的分布如下:

fWax,b(t)=pxf1(t)+(1-px)f2(t)

(15)

f1为柯西密度:

(16)

式中,0

(17)

分量f2的形式为:

(18)

Cauchy分量的存在意味着Zx和Zy的均值、方差和一般的高阶矩都没有定义,这导致了弱/强的大数定律不适用的情况。然而,当Cauchy分量很弱(即px和py很小)时,就可以忽略Cauchy分布的存在而对密度进行近似。首先研究当Cauchy分量的概率可以忽略不计时的几何设置。

证明:单应变换H可以分解成下列变换:

(19)

推论:当成像点离无穷远直线足够远时,Zx和Zy分布中的Cauchy分量强度就可以忽略不计,或

(20)

强度px和py分别依赖于ax和ay。式(13)表明,ax与成像均值m0离直线h1/σ1-ρ13h3/σ3的距离成比例。

可见,当柯西分量的强度可以忽略不计时,总的分布可以用正态密度以极高的精度来近似,其参数可以通过数值方法得到。

在投影变换下,正态密度映射到正态密度(假设式(20)的要求满足)意味着在投影变换下随机变量的变换可以以逐点方式建模为仿射变换,其参数依赖于均值m0。由于参数对均值m0的依赖性,故仿射不会延伸到区域上的变换。然而,考虑到这种映射的平滑性,一般而言,局部仿射近似在小邻域上仍然有效,只要成像的区域离无限远直线的投影足够远。文献[16]中就采用了这种局部仿射模型用于几何分组。

上述理论的主要结果是在式(20)的条件满足下,建立起了变换随机变量的矩的存在性。然而,这些矩的解析计算并不容易,本文采用近似方法来计算ZX的矩。

2.2 采用无迹变换计算矩

计算ZX的均值和协方差的一个有效近似方法是采用无迹变换。采用无迹变换,通过称为sigma点的点和相关的权重的确定性选择来计算均值和协方差。

变换后的随机变量的矩计算如下。首先,生成sigma点υi(i= 0,…,2nu)和相关权重wi,其中nu是ZU的维数,在本文设置中nu=2。sigma点的生成采用以下选择方案:

(21)

(22)

每个sigma点都采用单应性传播:

(23)

(24)

κ的值选择很重要。考虑到随机变量ZU是二元的,我们选取κ=3-nu=1,均值矩阵和变量协方差矩阵的估计精度可以达到二阶,比简单的一阶线性更精确。

下一节将通过应用每个摄像机上的无迹变换学习得到的变量协方差模型,来得到一个用于融合多个摄像机的位置估计值的最小方差估计器。

3 采用多个摄像机的位置估计

(25)

(26)

在线性类估计器中,式(25)定义的是最小方差意义上的最优估计值。最后,最小方差估计器的方差就可由式(25)计算得到。

现在,给定观察地面的一组摄像机的单应变换矩阵,就可以计算并绘制出最小方差估计器的方差作为地面上实际均值(的函数。

3.1 动态系统

(27)

式中,ωt为噪声过程。观测模型采用第2节得到的均值和协方差模型。观测向量yt∈R2M正好是采用无迹变换从每个摄像机估计出的位置均值,观测模型为:

(28)

式中,Ωt是一个具有单位变量协方差矩阵的零均值噪声过程,Λ(xt)建立整个噪声的变量协方差矩阵,定义为:

(29)

式(28)的观测模型是一个完整的观测器模型的多视图扩展,它包含2个重要的特性。

1)不同视图的观测值的噪声特性是不同的,变量协方差不仅依赖于视图,还依赖于目标的真实位置xt,这种依赖关系被编码在Λ中;

2)xt的最大似然估计就是最小方差估计器。

现在,采用依赖于数据集性质的Kalman滤波或粒子滤波,就可以实现跟踪目标。实验中将给出这两种方法的实例。

4 实验结果

4.1 静态估计的方差映射

利用从摄像机网络中每个视图计算得到的单应变换矩阵,并对每个摄像机采用无迹变换,就能计算出地面上感兴趣区域的变量协方差矩阵。图3所示为图1的4个摄像机网络的结果,这些方差被绘制成地面上的函数。可以看出,对于相应的视图,当一个目标接近无穷远处的直线时,方差随之增大。最小方差估计器(式(25))的方差也可以计算为目标在地面上的真实位置的函数。这种情形在摄像机放置问题中可能很有用,在这种情形下,给定一组摄像机和地面上感兴趣的区域,目的是放置更多的摄像机,以提高跟踪目标的性能。

图3 图1所示摄相机设置的方差估计

图4所示为采用高度不对称摄相机设置的3个摄像机成像一个棋盘得到的类似结果,其中两个摄相机放置在离地面非常近的地方,且沿棋盘的两个正交轴,每个摄相机只能准确地估计一个方向的位置。与最右边列相对应的摄像机仅用于为4.2节的跟踪实验提供地面的真实情形。通过结合同时来自两个摄像机的估计值,利用变量协方差映射,就可以得到在两个方向上具有低方差的估计值(图4(e))。

图4 3个摄像机成像一个棋盘得到的类似结果

4.2 多摄像机跟踪

4.2.1 图4所示3个摄像机设置下的跟踪

下面给出一个实验来说明本文模型在多摄像机跟踪中的重要性,特别是当摄像机的视图高度不对称时(见图4)。研究的区域还是棋盘,采用激光指针来创建目标,采用基于颜色的分割方法来检测激光指针创建的目标,与右列对应的摄像机仅用于提供地面真实情形。

比较2种系统的跟踪:一种系统的观测模型采用3.1节的观测模型,另一种系统对全部摄相机同等处理,在摄相机上采用各向同性模型。2种系统都采用卡尔曼滤波跟踪器。从数据中得到的状态方差用作地面真实情形(即由第3台摄像机完成)。为了定量评价,计算2种系统的输出(均值和变量协方差)与地面真实情形之间的对称KL-散度(KLD,kullback leibler divergence)[19]。得到的跟踪结果如图5所示。从图5(a)可以看到,采用本文模型得到的跟踪结果与地面真实情形非常接近,而且非常平滑,而采用各向同性模型的跟踪结果明显偏离真实情形,且存在较大的不规则轮廓;从图5(b)可以看到,采用对称KL-散度的地面真实情形输出时,本文模型的KL-散度明显小于采用各向同性模型的KL-散度,这说明本文模型能更好地呈现地面的真实情形,这说明本文模型对各个摄像机获取得到的数据有较好的融合能力。

图5 2种系统的跟踪比较

4.2.2 图3所示4个摄像机设置下的跟踪

本节的多目标跟踪是用来测试本文所提出模型对于图3所示的真实摄相机放置的有效性。提取每个摄影机上每个背景减去的一小片的最底层点,并投影到世界平面上,该数据与跟踪器的关联采用传统的联合概率数据关联滤波(joint probabilistic data association filtering,JPDAF)[20],并与来自每个摄像机的数据分别进行关联,使用标记获取地面真实情形。仍然对上节的两个观测模型进行比较,即一个采用本文提出的模型,另一个采用跨视图的各向同性建模。最后,采用粒子滤波进行跟踪,并对由于遮挡而丢失的数据点进行跟踪。图6所示为实验得到的跟踪结果。实验中对800帧视频进行了跟踪测试,在100、430和720帧处依次引入3个目标,如图6(b)所示,每个图形分别对应3个不同的目标。从图6(b)可见,采用跨视图的各向同性建模相应的KL-散度值要高于采用本文模型相应的KL-散度值,即本文提出的模型一致地得到了较低的对地面真实情形的KL-散度,说明本文模型能更好地呈现地面的真实情形。

图6 4个摄像机数据集上3个目标的跟踪比较

5 结束语

本文提出了一种摄像机对地面目标的位置估计和跟踪的建模,推导了正态随机变量在投影下的变换。具体而言,将变换后的随机变量中的Cauchy分量的强度与图像平面上目标的真实位置到地面无穷远处的直线投影之间的距离联系起来,阐明了该结果对于位置估计和跟踪的相关性;一个可能的扩展是采用核方法来对密度进行建模,但分析推理变得更具挑战性,未来打算研究这种模型在摄相机放置和评价中的应用。

猜你喜欢
协方差视图摄像机
5.3 视图与投影
视图
Y—20重型运输机多视图
SA2型76毫米车载高炮多视图
多元线性模型中回归系数矩阵的可估函数和协方差阵的同时Bayes估计及优良性
摄像机低照成像的前世今生
新安讯士Q6155-E PTZ摄像机
二维随机变量边缘分布函数的教学探索
不确定系统改进的鲁棒协方差交叉融合稳态Kalman预报器
如何消除和缓解“摄像机恐惧症”