VR 影像深度跳跃与观众感知反应时间的模型构建

2020-12-10 02:09戴帅凡
关键词:反应时间纹理舒适度

田 丰, 戴帅凡, 张 焱

(1. 上海大学上海电影学院, 上海200072;2. 上海大学上海电影特效工程技术研究中心, 上海200072)

随着虚拟现实(virtual reality, VR)技术的不断发展和普及, 各种VR 电影在各大电影节中大放异彩[1]. 技术推动影视艺术的发展, 促使人们开始探索新的叙事手段与感知特征.

立体深度是VR 影像的主要特征. VR 影像中的深度变化可分为连续深度变化和跳跃深度变化. 目前, 连续深度变化频繁地运用在VR 影片里, 其中具有代表性的穿越事件带来的沉浸感最强[2]. 而跳跃深度变化在VR 影像中的应用主要是场景剪辑与用户界面(user interface,UI)设计. VR 剪辑打破了常规一镜到底的形式[3], 丰富了作品的时间与空间维度. 比起具有屏幕边界的传统3D 内容, VR 影像具有更高的仿真度. 因此, VR 影像画面在深度方面的差异跳变也会对观众造成更大的影响.

本工作通过设计实验研究了视觉系统反应时间与跳跃后目标深度以及深度变化量的关系.对获得的数据进行了统计分析, 并拟合了模型. 本模型可估计VR 电影中场景切换期间的反应时间, 为VR 电影后期制作中排列场景变化提供参考. 除了客观数据, 实验还包括主观问卷部分, 以研究受试者生理舒适度、沉浸感、情绪紧张程度与实验变量之间的关系, 实验结果能够作为VR 剪辑设计的参考, 是VR 蒙太奇创作方法的基础构成.

总之, 本工作作出了以下贡献.

(1) 面对事件深度的跳跃变化, 反应时间均值基本分布在1.6~1.8 s 之间, 反应时间与目标深度、深度变化值及其交互作用有关, 而与目标纹理密度、纹理密度变化等无关. 目标深度越小, 深度变化越大, 反应时间越长. 深度在1.35~1.80 m 之间时, 在目标深度和起始深度相同的情况下, 反应时间反而较长.

(2) 经过统计分析, 本工作建立了反应时间的模型, 考虑了目标深度和深度变化值.

(3) 实验数据除了客观实测, 还包括主观评价, 可以探索更多人体生理感官体验与实验变量设置之间的关系.

1 相关工作

1.1 视觉系统与深度感知

人体视觉系统结构复杂, 左右两只眼睛彼此间视野独立, 图像间的微小差别会形成深度感, 具体形成途径包括心理与生理两部分[4], 其中双目视差是由瞳距(通常取平均值6.5 cm)造成的双眼视野内容的差值[5], 大脑的识别系统通过该差值来获取视网膜成像中的深度信息, 在3D 内容制作中用图像匹配特征点之间的坐标差来表示[6], 是生成深度感的主要方式. 研究3D深度感知与视觉系统的关系能够提高3D 影像的质量, 给人们带来更好的视觉体验.

对深度运动的研究可以追溯到对自然界中躲避本能的探索. 目前已有多项研究证实深度运动的速度与视觉舒适度呈显著反比,且运动范围越靠近视点,不适感越强[7-9]. 还有一些实验针对视觉疲劳的原因[10-11]、缓解方法[12-13]等进行探索. 关于传统3D 影像的深度感知研究主要分为两部分: ①3D 影像中的深度感知特征[14-17]; ②3D 影像的深度感知预测与改善[18-23].深度感知的重要特征包括最小可觉深度差值(just noticeable depth difference, JNDD). JNDD与局部图像区域的亮度、对比度和空间频率密切相关[14], 而深度的预测与改善是提升3D 影像视觉舒适性的重要部分.

3D VR 的深度实现原理与传统3D 类似, 但还具备移动视差信息. 目前, 越来越多的研究者聚焦于虚拟环境对空间与运动感知的影响[24-25](如距离压缩[26]), 设计了多个实验测量误差[27-29], 并寻找距离压缩现象的产生原因[30]及解决方法[31-32].

1.2 画面跳跃

画面剪辑在叙事手段中是不可或缺的. 在剪辑过程中会出现画面元素的跳跃, 包括色彩、对比度、深度、亮度等. 深度变化对3D 画面的观影感受影响显著, 此过程中的关键便是双眼的自适应[33]与辐辏调节冲突问题[20].

VR 画面跳跃通过VR 影像组接技术实现. 尽管场景的跳跃对于以第一人称为主的虚拟影像可能具有存在感上的破坏, 但其时空灵活性依然是不可替代的优势. 目前, 针对VR 镜头组接的讨论主要集中在过渡方式[34-36]与兴趣点排布设计[37].

2014 年, TNList 构建了传统3D 环境下深度跳变的反应模型, 证明了深度变化量、目标深度值、画面频率变化量与跳变后反应时间的关系[38]. 2017 年, 张地[11]在人眼对于3D 深度运动信息的感知特性方面进行了研究, 提出了静态参考点、背景纹理、信号对比度和相对视差这4 个可能与深度运动感知有关的参数. 实验结果显示, 当随机点在所选密度范围内变化时, 被试者对深度运动方向的判断能力没有发生明显变化. 本工作在以上研究的基础上考虑了深度、纹理密度、深度变化和纹理密度变化这4 个因素, 实验结果的统计分析也没有观察到噪声纹理密度对反应时间存在显著影响, 并且由于头戴式显示器的设备与视场角的影响, 实验结果无法在VR 影像中等效. 目前, 专门针对VR 影像深度跳变的报道较少.

1.3 感知评估

目前, 针对VR 影像的感知评估方法主要有主观问卷法和客观实验法.

主观问卷法被作为可信度较高的原始数据源与对比参考. 实验中受试者通常被告知将感知内容进行主观分级, 以量化的方式来分析探究.

客观实验法的主流是人眼状态统计分析, 除此之外还包括心率监测、脑电波变化、肌电信号、皮肤电反应等. 分析对象主要是受试者的情绪变化和生理反应等. 眼动分析是视觉质量评价的最主要方法, 眨眼频率[39]、瞳孔变化[4]、眼动数据[40]等可以进一步作为影像视觉舒适度的评价标准.

2 实验设计

为了研究在VR 环境中深度跳变前后, 视觉系统识别跳变后画面信息所用的时间以及不同变量设置状态下的主观感受, 本工作设置了一项基于HTC Vive 头戴显示器的任务型驱动识别实验. 跳跃方式为直切, 兴趣点始终处于视点正前方. 实验中消除了尺寸梯度线索(size gradient cue)和移动视差线索(motion parallax cue)的影响, 将双目视差作为唯一的深度线索.下面将详细介绍实验过程.

2.1 实验变量设置

在本实验中, 视点被半径可调的球面包围, 球面上是随机生成的噪声, 噪声纹理沿水平(0°)、垂直(90°)、斜上(45°)和斜下(135°)这 4 个方向之一作振幅为 10°、周期为 6 s 的正弦振荡运动.

实验首先要考虑的因素是深度θ, 以便获得视觉反应时间与目标深度之间的关系; 其次要考虑的因素是纹理密度s, 不同的纹理密度对应不同的空间频率, 其中空间频率的计算依照Eskicioglu 等[41]于 1995 年提出的公式.

作为一个定量实验, 本工作还考虑了2 个进一步的衍生参数: 深度变化Δθ 和纹理密度变化Δs. 定义深度为聚焦平面至视点的垂线与视线所成的夹角θ, 定义纹理密度为球面纹理的采样缩放值s. 实验变量设置如图1 所示.

图1 实验变量设置Fig.1 Experiment variable settings

实验变量具体取值如下: 深度 θ = 0.25°,0.5°,1°,2°,4°; 深度对应球面半径 r =744, 372,186, 93, 46.5 cm; 噪声纹理缩放值 s=0.3, 1.8, 3.3; 缩放值对应空间频率 f =16, 26, 89.

实验主要考虑事件深度θ、深度变化Δθ、纹理密度s 和纹理缩放变化Δs 这4 个变量对反应时间的影响. 受试者将随机遍历全部变量组合, 即一共5×5×3×3=225 组. 实验环境设置为环绕视点、纹理遍布均匀的球面, 取人眼瞳距为6.5 cm. 实验采用将单色高斯噪声进行像素重映射的方法来生成球面纹理, 并通过限定UV 坐标来避免UV 边缘对纹理连续性的影响.

2.2 实验步骤

实验涉及硬件包括Dell 工作站、HTC Vive Pro 消费级头戴显示器以及HTC Vive 操作手柄, 并使用 3D 引擎 Unity2018.2.17 实现工程编写. 受试者共 36 人(男性 18 人, 女性 18 人),年龄分布在18 至45 岁, 均为上海大学的师生, 视力正常或矫正视力正常.

为了探究VR 环境中事件深度的跳跃变化与观众认知反应的关系, 实验设计的核心是在镜头切换后, 记录受试者察觉噪声纹理运动方向所需要的时间. 为了明确受试者认知, 对应噪声纹理的4 个运动方向, 手柄圆盘按照开始与结束的触点成角被划分为4 个输出域: 0°, 45°,90°, 135°. 在一组实验者里, 将为受试者连续展示两个运动方向不同、半径与纹理密度随机的噪声球面, 一旦切换到第二个噪声画面并感知到纹理运动, 受试者即刻在手柄圆盘上画出相应的方向, 如图 2 所示.

实验包括预实验和正式实验两个部分. 当实验开始时, 受试者需要佩戴好显示器, 并保证头部无明显不舒适. 为了能够正确聚焦在目标平面, 要求受试者视野清晰且没有残影. 设计预实验的目的在于让受试者熟悉手柄的使用, 并统一实验设置与受试者的运动感知、肢体操作.预实验中增加了音效反馈机制以加强学习效果, 直到各个方向均已学习完毕, 才会进入正式实验流程. 为了完成对5 个深度变化量和3 个纹理密度变化量的完整随机遍历, 同时防止视觉疲劳的累积, 正式实验一共设置了 225 次, 分为 5 组进行, 每组之间休息 1 min. 如图 3 所 示, 每一次实验由3 个虚拟环境组成: 用于眼部休息的五十度灰色准备区域、自动播放3 s 的噪声纹理1、深度与纹理密度发生跳变的噪声纹理2.

图2 手柄操作示意图Fig.2 Handle operation diagram

图3 实验流程设置Fig.3 Experimental process settings

为了统计受试者对不同变量的主观感受, 评价问卷共分3 个部分: 受试者基础信息(包括使用VR 的情况等)、主观生理舒适度和主观情绪影响力, 内容如表1 所示. 主观评价中采用李克特五级量表来研究不同变量的影响.

3 实验结果分析

下面将根据主观数据和客观数据的统计结果, 讨论目标深度、深度变化量如何影响视觉反应时间, 以及受试者生理舒适度、沉浸感、情绪紧张程度与实验变量设置之间的关系.

表1 主观评价问卷Table 1 Subjective evaluation questionnaire

反应时间数据处理的关键在于用数据定义受试者实验行为, 目的在于尽可能消除以下原因造成的实验结果误差: ①受试个体之间在反应能力、实验设备使用熟练度方面存在的差异;②受试者在实验中的误操作; ③实验后台记录数据的时序错误. 具体执行如下: ①筛选因受试者操作时间过短, 未刷新GetTouchDown 事件而造成的反应时间小于0 的极端异常值, 即用GetTouchUp 直接进行反应时间计算; ②以受试个体为单位筛除操作时间极端异常值; ③以统计数据为基准筛除反应时间极端异常值; ④筛除反应时间标准偏差较大的受试样本. 实验共获取反应时间数据225×36=8 100 组, 筛除异常值后存留有效数据6 623 组.

每一组采样数据描述为

式中: i 代表原始值(initial); t 代表目标值(target). {Tj|225j= 1}表示所有受试者反应时间的均值, 共225 个平均反应时间.

为了便于数据处理, 将深度变量 θ = 0.25°,0.5°,1°,2°,4°转换为0.25°× 20, 0.25°× 21,0.25°× 22, 0.25°× 23,0.25°× 24, 取其线性变化的指数部分, 转换为整型量级 {1,2,3,4,5}, 深度变化转换为整型量级 {-4,-3,-2,-1,0,1,2,3,4} 参与后续处理.

3.1 数据处理

下面将采用方差分析进一步评估实验变量之间的主效应和交互作用. 方差分析(analysis of variance, ANOVA), 又称“变异数分析”或“F 检验”, 用于 2 个及 2 个以上样本均数差别的显著性检验. F 是显著性差异水平, 用计算出的F 值与F 表中的值对比, 就可以确定是否存在显著性差异. P 是检验水平, 是当原假设为真时所得到的样本观察结果或更极端结果出现的概率, 表示不拒绝原假设的程度.

分析结果显示如下. 深度起始值θi: F(4,6 618)=0.214 (P = 0.931 >0.05); 深度变化值Δθ: F(8,6 578)=3.093(P = 0.002 < 0.05); 目标深度值 θt: F(4,6 608)=6.314(P = 0 < 0.05);密度起始值 si: F(2,6 620)=0.048(P = 0.954 > 0.05); 密度变化值 Δs: F(4,6 578)=0.939(P =0.440 > 0.05); 目标密度值 st: F(2,6 608)=0.422 (P =0.656 > 0.05).

由此可知, 仅 Δθ 和 θt与反应时间 Xj显著相关(见图 4), 可见 Tj随着 |θt|的增大而增加,且随θt的减小而增加.

图4 反应时间均值分别在深度变化和目标深度上的分布Fig.4 Respective distributions of reaction time mean values in depth variation and target depth

在已知Δθ 和θt都对Xj存在影响的情况下, 需判断二者对对方与反应时间的相关关系是否存在作用, 故采用双因素方差分析, 得到如下结果: F(24,6 613)=1.973(P = 0.003 < 0.05),可知Δθ 与θt之间存在显著的交互作用(见图5). 在某一目标深度下, Tj通常随着Δθ 的增大而增加, 这是深度值变化主效应的表现; 而随着θt的增大, Xj呈下降趋势, 这是目标深度主效应的表现.

图5 反应时间均值在深度变化和目标深度上的综合可视图Fig.5 Synthetic visibility map of mean reaction time values on depth variation and target depth

主观评价主要研究了受试者针对不同实验变量变化的生理舒适度和情绪影响力的量值.针对相关变量进行方差分析,结果如下. 不同深度的生理舒适度:F(4,85)=6.96(P =0 <0.05);不同深度的情绪影响力: F(4,85)=0.851(P = 0.497 >0.05); 不同深度变化的生理舒适度:F(4,78)=3.301(P =0.015 < 0.05); 不同深度变化的情绪影响力: F(4,78)=2.839(P =0.034 <0.05). 由此可知, 生理舒适度的变化与深度及深度变化密切相关, 而情绪影响力与深度无显著关联, 与深度变化关系密切.

3.2 数据分析

3.2.1 客观数据分析

通过方差分析可以得出以下初步结论.

(1) 面对事件深度的跳跃变化, 反应时间主要受目标深度、深度变化值及其交互作用的影响, 而与目标纹理密度、纹理密度变化等无显著关联.

(2) 目标深度越小, 深度变化越大, 反应时间越长.

(3) 与实验预期不同的是, 在中部地区(1.35~1.80 m), 目标深度和起始深度不变的情况下,反应时间反而较长. 对此可能的解释是, 实验本身为任务型驱动, 受试者会受到实验目标本身的影响, 对深度变化更为敏感. 在中部地区, 视差变化不足以覆盖这种意识的影响, 故视觉系统能更快察觉深度的低幅度变化.

(4) 反应时间均值在各个实验变量水平上基本分布在1.6~1.8 s 之间, 远高于3D 屏幕下0.4~0.8 s 的数值. 原因可能是在VR 环境下, 受试者视场角更加开阔, 需要处理更多视觉内容,同时外设压力也会对反应灵敏度产生影响.

3.2.2 主观数据分析

主观评价的均值结果如图6 所示. 针对深度变化的数据显示以下结果.

图6 主观评分均值结果Fig.6 Subjective score mean results

(1)发生在最近(46 cm)的事件的生理舒适度分数最低, 平均2.5 分, 且情绪影响力最大,平均3.47 分; 发生在最远(744 cm)的事件的生理舒适度分数最高, 平均3.89 分.

(2) 当事件深度发生跳变时, 由最远至最近变化的生理舒适度最低, 平均2.64 分, 而深度不变时的生理舒适度最高, 平均3.97 分; 同时, 由最远至最近的情绪影响力最大, 平均3.64 分,而当深度前后保持不变时, 情绪影响力最低, 平均2.06 分.

3.3 结论分析

本实验基于TNList 在2014 年的传统3D 跳变研究.

实验设计异同如下: ①本实验基于HTC Vive 而非传统3D 屏幕, 实验设备与展示形式可能会对深度感知与反应行为产生影响, 关于传统3D 影像的反应结论不适用于VR 影像;②本实验中的确认方式使用了触屏轨迹, 在TNList 的实验中, 受试者在确认画面运动方向后需要触发按键, 而使用触屏轨迹能够更好地反映受试者对于方向的认知是否正确; ③仅要求判断“最近-中部-最远”的主观评价, 尽管实验中设置了5 项深度变化值, 但本工作认为更多的思考次数会让受试者陷入疑惑, 而不能凭快速直觉作出判断, 同时本工作假定3 个主观评价采样点之间为线性变化.

实验结论异同如下: ①从本实验的统计分析中尚未观察到噪声纹理密度对反应时间存在显著影响, 这与TNList 的实验结论[38]不同, 而在张地[11]的人眼对于3D 深度运动信息的感知特性实验中, 当随机点密度在所选范围之间变化时, 被试者对深度运动方向的判断能力没有发生明显变化, 也未观察到存在影响的依据, 可能的解释是对设计变量的采样值不在可观察范围内; ②与TNList 实验结论相同的是, 反应时间在深度变化轴向上出现了凹谷, 即反应时间随着深度变化绝对值的增大而增加; ③TNList 实验结论的预测值中, 反应时间分布在0.4~0.8 s 区间内, 而本实验中反应时间分布在1.6~1.8 s 区间内, 原因除了信号的输入以及纹理的振荡周期, 视场角变化也有可能是造成这一巨大差异的原因.

4 跳跃深度变化的应用

第3 节已经得出深度在跳跃后的逐像素反应时间模型, 接下来进一步考虑在实际影像中应用这一模型来预测剪辑后画面的反应时间分布. 如图7 所示, 首先获取剪辑前后帧的左右眼图像, 运用逐次超松弛光流法求取前后帧深度图. 逐像素的深度L 为

式中: d 为双眼瞳距, 设为6.5 cm; D(i,j)为光流计算的帧间像素水平偏移量; W 为画面的水平宽度.

图7 实验应用流程图Fig.7 Experimental application flow chart

本工作选取VR 影像《我们的上海》中第4 966 帧和第4 967 帧进行计算. 使用直切的转场方式, 且兴趣点恒定在视野的前方, 符合本实验的设置基础. 在画面上, 演员们先在草坪上走进视点, 随后跳变到上海博物馆广场时, 兴趣点距离视点的深度突然增大(见图8(a)和(b)).在图8(c)和(d)中, 像素点亮度越高, 代表计算的深度越小, 水平视差值越大. 在图8(e)中, 像素点亮度越高, 代表基于目标深度与深度变化量的反应时间越长. 结果显示, 上海博物馆建筑主体会先于演员本身被视觉系统察觉, 这符合影像对城市文化风采与开放活力的展示初衷.

图8 实验输出结果Fig.8 Experimental output

5 结束语

本工作总结并研究了虚拟现实影像中跳跃深度视差变化对观众视觉感知的影响. 基于HTC Vive 头戴显示器虚拟环境, 设计了任务型驱动实验, 以评估影像深度跳跃后受试者的反应速度与主观感受. 实测包括受试者感知时间与眼动数据, 主观评价包括生理舒适度、情绪紧张程度与环境沉浸感, 建立了目标深度-深度变化-反应时间模型.

但是本实验结果仅得到人眼视觉系统面对跳跃深度变化的反应时间以及主观感受, 并没有阐明其处理VR 信息的原理. 此外, 设置的实验变量取值来自多次前期实验对受试者行为的预设, 以及对VR 影像内容的经验, 而其他变量也可能产生重大影响. 最后, 在跳跃视差的应用中仅给出了基于水平视差的逐像素反应时间分布, 缺少实际观影数据支撑, 需要为实际应用的效用验证增加对比组实验.

所以, 未来工作中还有以下方面可以作进一步改善或探索: ①更加精确且有实际应用价值的变量取值设置; ②为实际应用的效用验证增加对比组实验; ③考虑更多影响感知的因素.

猜你喜欢
反应时间纹理舒适度
纤维砂场地的性能及舒适度影响研究
私人定制和舒适度完美结合的典范 金地九龙壁别墅影音室
基于用户内衣穿着舒适度的弹性需求探讨
硫脲浓度及反应时间对氢化物发生-原子荧光法测砷影响
农村公共厕所如厕舒适度调查分析
基于BM3D的复杂纹理区域图像去噪
使用纹理叠加添加艺术画特效
用反应时间研究氛围灯颜色亮度对安全驾驶的影响
TEXTURE ON TEXTURE质地上的纹理
消除凹凸纹理有妙招!