3D显示中立体感知深度研究

2016-02-07 08:25权巍张玉强李华韩成周世奇

长春理工大学学报（自然科学版） 2016年6期

关键词：立体感尺度空间视差

权巍，张玉强，李华，韩成，周世奇

（长春理工大学计算机科学技术学院，长春 130022）

3D显示中立体感知深度研究

权巍，张玉强，李华，韩成，周世奇

（长春理工大学计算机科学技术学院，长春 130022）

三维立体电视和电影的立体真实感能够带给人们震撼的视觉体验，是数字时代的新宠。在这类三维显示系统中，恰当的立体感知深度将产生好的观赏体验，反之，将导致视疲劳、甚至眩晕等不适感。因此，很有必要对立体感知深度进行预先解算。针对这一问题，对于3D显示中立体感知深度的影响因素进行分析，提出基于特征点的视差计算方法，推导立体感知深度与视差等多个参数的定量关系。实验验证了立体感知深度定量计算方法的可行性，基于左右眼图像，计算得到了感兴趣点的立体感知深度。实验表明：计算得到的立体深度与测试者主观感受具有较好的一致性；研究结果可用于指导立体拍摄以及立体显示以便达到最佳立体效果。

感知深度；3D显示；视差图；立体深度

现今，3D影像节目已成为了整个文化娱乐界的宠儿。3D电影大片在中国乃至全球引发了一股热潮，3D电视节目不断涌现，3D电视销量大幅度增长。这些3D影像利用三维立体技术，在平面的图像媒介中生成（或增强）三维纵深感。采用特定的方式使两幅有少量透视视角偏移的图像被分别显示于观看者的左眼和右眼，这两幅偏移图像分别通过左右眼的视网膜传导入大脑并重新合成在一起，从而产生深度知觉，即三维立体的视觉感受。这种立体深度知觉是一种“假象”，由于同一物点在左右眼图像中需具有视差，观看该物点时双眼的会聚点和对焦点的不一致，才能令观看者感受到深度信息［1］。但是，当这种不一致达到一定程度时，将会造成眼睛不适、疲劳、甚至眩晕和恶心［2］。

现阶段，在3D影像拍摄过程中，拍摄现场的监看环境和影院（电视等）的放映环境下的观看效果存在差异，因此，往往只能凭经验设置立体拍摄参数，可见对立体感知深度进行实时动态解算是必要的。Philip McNally等［3］指出目前缺乏对于立体拍摄和立体播放的指导方法，并针对3D动画制作和播放开发了辅助工具。罗桂娥等［4，5］研究了基于双目视觉的深度获取方法，通过摄像机标定、特征匹配等获取到拍摄场景中物点的真实深度值。在3D播放时，物点的立体感知深度并不等同于真实深度，很多时候往往设计夸张的、不真实的立体感知深度来获得好的观感体验。Zhang等［6］研究了3D电视播放时场景真实深度信息对于立体感知深度的影响，但并未对立体感知深度进行定性或定量的研究。王爱红等［7］研究了立体深度信息与视差图获取的关系，提出感知的立体深度与3D影像拍摄时的相机间距密切相关，通过调整相机间距实现立体深度的调节，该方法仅适用于拍摄阶段，不适用于拍摄完成后的后续阶段。Lin等［8］提出了5个法则，研究通过对左右眼图像的水平剪裁等方式调节感知深度信息，降低立体观赏的不适感。

本文研究3D显示中立体深度感知原理、分析其影响因素，并进行定量的推导，提出基于特征点的视差和立体感知深度计算方法。实验中计算特定物点的感知立体深度，通过左右眼图像的水平剪裁进行立体感知深度调节，实验结果表明：立体感知深度与测试者主观感受具有较好的一致性。

1 立体深度定量关系推导

定义同一物点Q在左右眼两幅图像中的像素分别为LQ和RQ。定义像素点LQ和RQ的水平距离为物点Q的水平视差，简称视差，记为pQ，且pQ=RQ-LQ。当pQ=0时，观察者会感觉到物点Q在屏幕上；当0＜pQ＜e时，会感觉到物点Q位于屏幕后方，其中，e为观察者双眼间距；当-e＜pQ＜0时，会感觉到物点Q位于屏幕前方；当pQ=±e时，会感觉到的物点Q位于无穷远。这就是立体显示中的立体深度感知原理。观看立体影像时，观众的双眼一方面需对银幕表面的影像进行对焦，另一方面还要根据观看景物深度的不断改变而不断改变双眼的会聚点。

令d为人眼与显示屏平面间的距离，pQ为某一物点Q在左右眼图像中的视差，e为观察者双眼间距，则根据图1所示，人眼感知的立体深度DQ可由下式计算得到：

图1 水平视差和立体感知原理

对于特定的3D影像观看环境（例如：影院或家中客厅），最佳的观看距离d是可以获得的，通常针对最佳观看距离设计立体效果；且成年人的双眼间距一般约为65mm；因此，计算感知的立体深度DQ的问题就转换为计算视差pQ的问题。视差pQ可由下式计算得到：

其中，nQ为物点Q在左右眼图像中水平方向的像素差值，lpixel为播放3D影像的显示屏的单位像素长度；显示屏的宽度记为Widthse，播放影像的水平分辨率记为Resh，则视差pQ为：

对于3D影片（或电视）来讲，最终的播放环境中显示屏的水平分辨率和宽度均可以获得，因此，是否可以获取物点Q在左右眼图像中的水平方向的像素差值是计算视差及立体感知深度的关键问题。

2 基于特征点匹配的视差计算

尺度不变特征变换（Scale-invariant feature transform，SIFT）算法［9，10］是一种常用的特征点匹配算法，在一些场景部分遮挡、视角变化引起图像变形等情况下，依然可实现快速、准确的匹配。

本文采用基于SIFT特征的匹配方法，将左右眼图像作为输入，寻找特征点，匹配得到同一物点在左右眼图像中的像素点；进而计算得到该物点的像素差值，最终生成视差图。

2.1 基于SIFT的特征点提取

2.1.1 尺度空间构建

尺度空间的表示可以理解为单尺度空间的动态集合，常见的单尺度空间表示为某一个连续函数或离散函数。仿照这种思想可以将单尺度空间中景物的函数通过卷积运算，使其投射到一个由卷积核来决定的一个空间上并作为该空间上景物图像表达式。根据这种思想本文使用高斯函数（正态分布函数）作为模板与原图像做卷积运算，以生成新尺度空间。尺度空间可定义为：

其中，I(x,y)为原图像，G(x,y,σ)为尺度可变高斯函数。(x,y)为尺度坐标，σ为高斯分布的标准差，决定了尺度图像的模糊程度，σ的值越大，模糊程度越高，分辨率越低。

根据尺度函数建立高斯金字塔，高斯金字塔的第一阶的第一层是原始图像。高斯金字塔有n阶、m层，在同一阶上的两个相邻层之间的尺度比例为k，例如第1阶第2层的尺度因子为σ，则第1阶第3层的尺度因子为kσ，并且每一阶图像是前一阶图像大小的1/2。

在高斯金字塔的基础上，利用同一阶上的两个相邻的两层的尺度空间函数之差得到DOG高斯金字塔的一层。

2.1.2 极值点检测和精确定位

为了检测到极值点，每一个采样点要和它所有的相邻点比较。即每一个采样点要与它同层的8个、上层和下层的各9个像素点进行比较，以确保在尺度空间和二维图像空间都检测到极值点。如果该检测点为最大值或者最小值，则该点为图像在该尺度下的一个候选关键点。

候选点并不是最终的极值点，其中，还需剔除低对比度的、噪声敏感的点和边缘点。根据文献［11］的思想，采用函数拟合方法以及根据极值主曲率的不同确定这些点并剔除，在此不再赘述。

2.1.3 特征向量描述

SIFT特征向量描述是特征点经过高斯滤波后，邻域内梯度方向数理统计结果的一种表示方式。其思想是对特征点周围进行区域划分并计算生成区域内直方图，最后得出具有由三个参数（位置、尺度和梯度方向）作为向量元素的特征向量。

特征点需要一个基准方向来表达该点所在的景物所携带的一些细节信息。由于处在DOG金字塔中的特征点的本质是差分运算，因此可以提取特征点所在图像中的某尺度高斯邻域窗口内像素的梯度方向分布特征，便可确定关键点的方向，公式如下：

其中，特征点m(x,y)所处的尺度空间为L(x,y)，且θ(x,y)为特征点的梯度方向。梯度方向随机分布在所有360度的角度上。本文将360度，平均分为8个扇面，并统计落在其扇面上的点的个数，并用梯度直方图来显示结果。如图2所示，梯度直方图的主峰值代表了该关键点的主方向，如图中箭头所示；如果存在相当于主峰值的80%大小的其他峰值，则为该关键点的辅方向。每一个关键点的方向就由一个主峰值方向和多个辅峰值的方向决定。这样可以保证关键点匹配的稳定性。

图2 关键点的方向

为了进一步描述关键点的信息，需确定关键点的邻域范围的大小。本文选取某关键点P的16*16像素的邻域范围作为采样区域。如图3所示，图（a）中每一个小格代表一个像素；按4*4的窗口统计其在8个方向内的梯度方向；图（a）中关键点P的16* 16邻域可转换为图（b）的16个4*4窗口，用16个种子点来描述关键点的特征向量；整个图（b）可由128维（4*4*8）的特征向量表示。因此，一个特征点包含4*4*8个数据，128个数据便可保存该特征点所能承载的所有景物细节信息。

图3 128维特征向量描述

2.2 特征点匹配

将左右眼图像中的一幅作为模板图像，另一幅作为匹配图像进行特征点匹配，寻找最近似的特征点向量。为了提高匹配效率，本文选用最优节点优先（BBF）搜索算法，它是一种KD树算法的改进，对于搜索的最大次数和顺序均做了限定。为图像128维SIFT特征向量建立全局KD树，限定最大的叶节点为200，在一定条件下，极大地提高了对于高维数据的搜索能力，减少了搜索时间。搜索速度相比于穷举法有很大的提高。

特征点匹配后，对于某一物点Q，若其在左眼图像和右眼图像中对应的像素点坐标分别为(xl,yl)、(xr,yr)，则该物点的视差nQ可由下式计算得到：

3 实验结果与分析

本文采用一台宽度为41cm的19寸立体显示器和主动立体眼镜观看立体图像，并验证上述方法的可行性及立体感知深度推导的准确性。对图4所示的左右眼图像进行处理，图中标识了感兴趣的目标点。基于SIFT的特征点匹配结果如图5所示，图中通过连线标明了一些匹配的关键点。根据匹配结果可计算得到特征点的视差，插值得到细密的视差图如图6所示。图中的每一个点的颜色值代表了该点的视差值。

图4 实验采用的左右眼图像及感兴趣的目标点

图5 特征点匹配结果

图6 生成的视差图

以图4中标出的木头玩具最前端点为目标点，其视差图中的对应点如图6所示，可得到其视差-19pixels。实验所采用的播放环境具体参数如表1所示：

表1 实验中立体播放环境的主要参数

根据公式（1）和公式（3），可计算得到该目标点的立体感知深度为0.214m，即观察时应感到该点位于屏幕前0.214m处。

当3D播放环境具体参数确定的情况下，根据本文所推导的定量关系，可以通过调节视差调整立体感知深度，以得到更好的播放效果。例如：若希望上述目标点成像于显示屏平面上，即：立体感知深度为0，则可令左右眼图像相对移动并进行剪裁，使得nQ=0即可。

不同人的两眼间距略有不同，不全是65mm；不同人的立体感也有所不同，所以立体感知深度值存在一定的误差。并且，观察者在实际观看立体图像时的立体感知深度无法定量测量得到，因此，为了验证本文算法的正确性，分别令5名测试者观看不同的3组立体图像中特定的感兴趣目标点，分别调节感兴趣点的立体感知深度理论值为-0.3d、-0.15d、0、0.15d、0.3d，并记录观看者的观看体验。当DQ=0时，全部测试者能准确感受到物点位于显示屏平面上；当DQ取值为0.15d和-0.15d时，能够感受到物点位于显示屏前和后的深度变化、且绝对深度值基本无差别；当DQ取值为0.15d和0.3d时，能感受到显示屏前物点深度值的近一倍的改变。实验表明：测试者感受的深度与设计的立体感知深度具有较好的一致性。

4 结论

在3D电影或电视观看过程中，立体感知深度的大小是决定立体观赏效果好坏的重要因素。本文推导了立体感知深度的定量关系，并提出了一系列完整的计算方法。在3D电影或电视播放之前，设置播放环境参数信息，可预估立体观赏效果，以便据此调整以达到最佳效果。此外，在立体拍摄阶段也可应用本方法，实时调整拍摄参数以调节立体效果。

［1］孙延禄.立体电影摄影的基本规律及立体电影摄影机（一）［J］.影视技术，2003（6）：41-46.

［2］金帅，邢丽冬，钱志余,等.3D影片中深度信息与观看者疲劳度的关联研究［J］.中国生物医学工程学报，2014，33（3）：306-312.

［3］Mcnally P，Low M M.M.A.C.：an automatic stereoscopic calculator for animation pipelines：proceedings of the Digital Production Symposium［C］.Culver City，USA：ACM，2012.

［4］罗桂娥.双目立体视觉深度感知与三维重建若干问题研究［D］.长沙：中南大学，2012.

［5］王欣，袁坤，于晓，等.基于运动恢复的双目视觉三维重建系统设计［J］.光学精密工程，2014，22（5）：1379-1387.

［6］Zhang T，Hare L，Hibbard P B，et al.Depth of Field Affects Perceived Depth in Stereographs［J］. Acm Transactions on Applied Perception，2014，11（4）：1-18.

［7］王爱红，王琼华，李大海，等.立体显示中立体深度与视差图获取的关系［J］.光学精密工程，2009，17（2）：433-438.

［8］Lin H S，Guan S H，Lee C T，et al.Stereoscopic 3Dexperienceoptimizationusingcroppingand warping：：proceedings of the Special Interest Group on Graphics and Interactive Techniques［C］.Hong Kong，China：Siggraph Asia Sketches，2011.

［9］傅卫平，秦川，刘佳，等.基于SIFT算法的图像目标匹配与定位［J］.仪器仪表学报，2011，32（1）：163-169.

［10］宋华军，李泉.基于SIFT的目标跟踪算法研究［J］.长春理工大学学报：自然科学版，2010，33（3）：123-126.

［11］汪松.基于SIFT算法的图像匹配方法研究［D］.西安：西安电子科技大学，2013.

Research on Calculating Perceived Stereo Depth in 3D Display

QUAN Wei，ZHANG Yuqiang，LI Hua，HAN Cheng，ZHOU Shiqi
（School of Computer Science and Technology，Changchun University of Science and Technology，Changchun 130022）

Stereo television and movie are a revolution at this stage for their stunning visual experience.In this kind of three-dimensional display system，the appropriate perceived depth will produce a good viewing experience，on the contrary，it will lead to visual fatigue，and even dizziness and some other kinds of discomforts.Therefore，it is necessary to calculate perceived depth before display.In order to solve this problem，the factors that affect the perceived depth in 3D display are analyzed，and a method of parallax computation based on feature points is proposed.The feasibility of our method is verified by the experiment，and the stereo perceived depth of the interested point is calculated taking left and right eye images as input.The experimental results show that the calculated perceived depth is always consistent with the subjective perception of all testers，and our research can be used to guide the stereoscopic shooting and the stereoscopic display in order to achieve better results.

perceived depth；3D display；parallax image；stereo depth

TN141

1672-9870（2016）06-0110-05

2016-09-05

国家科技支撑计划重大项目课题（2012BAF12B22）；吉林省重点科技攻关项目（20140204050GX）；吉林省重大科技攻关项目（2012ZDGG004）

权巍（1981-），女，博士，讲师，E-mail：quanwei@cust.edu.cn

李华（1977-），女，博士研究生，副教授，E-mail：lihua@cust.edu.cn