基于立体全景视频的感知失真模型研究

2020-06-19 08:50杜宝祯
科学与信息化 2020年11期

杜宝祯

摘 要 针对现有的恰可感知失真模型并不适用与立体全景场景的问题,开展了基于人眼视觉系统(Human Visual System,HVS)感知分析的立体全景视频失真测度研究,并建立了失真测度模型,为下一步立体全景视频编码的优化研究打下了理论基础。

关键词 立体全景;视频编码;失真测度

引言

目前全景视频由于其“身临其境”的良好视觉效果,已经越来越多地进入到人们的生产生活,特别是在游戏、模拟驾驶领域[1]。但全景、特别是立体全景,其数据量极大,这极大增加了编码端的负担,传统的编码理论压缩已接近极限,而且普通的恰可感知失真模型并不适用与立体全景场景,因此如何发掘HVS感知特性,建立面向立体全景的失真测度模型,对现有视频编码器改进意义重大[2]。

1主观感知实验与模型建立

目前通过大量主观实验,测定不同编码失真程度下,立体全景视频的平均主观分数值(Mean Opinion Score,MOS),得到第一手主观视觉质量的实验资料,该部分工作虽然非常耗时,但对后续建模研究及其重要,是后续立体全景感知失真阈值模型的建立工作的基础。

编码失真视频库的构建

在编码失真视频库的构建方面,实验选取Yang等[3]文献中提供的M组立体全景序列作为原始立体全景序列。在此基础上,为了进一步生成各编码失真等级的立体全景视频,我们基于3D-HEVC编码平台,采用的N个等级的编码量化参数(Quantization Parameter,QP)对原始立体全景视频进行编码,以得到各失真等级的立体全景测试视频。其编码失真的量化参数具体选择为:

其中δ为编码量化参数间隔,该主观实验测试中QP0设置为25。考虑到实验样本数量、代表性以及主观实验工作量3个方面,在本实验中,M设置为8,N设置为5,δ设置为5,其中M组原始立体全景序列分别为Chat、Experience、Pedestrian、Photograph、Riverside、Scenic_spot、Sign_in、Tourist。按照上述设置的编码失真处理后,本实验共有M×N组,即多达40组不同等级的编码失真立体全景视频用于主观实验。

主观实验采用HTC Vive Pro头戴式显示器(Head-Mounted Display,HMD)进行观看。硬件配置为:①DELL T630服务器,NVIDIA GTX 1080 GPU,32G内存和硬盘1TB。②HMD选择HTC Vive Pro,其双目分辨率为2880×1600。③跟踪站一对,用于定位和跟踪佩戴HMD的主观实验测试者交互需求,主观实验测试者通过HMD的HDMI接口连接与PC交互。

实验方法采用遵循提案[4]绝对类别评分(Absolute Category Rating,ACR)的单刺激法(Single Stimulus method, SS)进行主观打分。该主观实验邀请25名主观实验测试者参与主观测试实验打分,平均年龄25周岁,性别分布均匀,且先前无立体视觉主观打分经验,视力或矫正视力正常。在正式进行主观打分之前,需要对主观实验测试者进行预先培训。在培训中,主观实验测试者给予观看一定数量的立体全景视频,这使其可以预先获得各失真等级的视频质量主观感知,并体验主观打分的评级协议,然后可以开始进行主观评估。

为了使主观实验更客观,对M×N组不同等级的编码失真立体全景视频进行随机排序。主观打分,仍遵循提案[4],评分分值从1分到10分区间共10级评分,其中1分表示主观质量最差,10分表示主观质量最好。实验过程中,每位观察者需要对M×N共40组编码失真立体全景视频进行主观打分,观看时间以及打分时间、休息时间间隔均严格遵照提案[4]进行。每一次主观质量评分试验都是相互独立且无关的,因此,本次主观实验共计可获得1000份主观打分的原始实验数据。

2实验结果与分析

针对主观实验的打分数据,我们首先采用提案ITU-R BT.500-11[5]中描述的数据筛选方法,去除评级与其他主观实验测试者不一致的奇异值。在进一步统计分析基础,最终得到了基于不同编码QP量化参数下的失真等级与MOS(置信区间为95%)之间的关系。图1以Chat、Pedestrian序列为例,给出了失真等级与MOS的直观表述,显然,主观质量随失真水平的提高而持续下降。

进一步在上述统计基础上,我们计算了各失真等级下各失真立体全景视频序列的均方误差(Mean Squared Error ,MSE),并对QP、MSE以及MOS进行拟合,得到三者的关系模型:

其中各系数的推荐取值和95%置信区间如表1所示。

可以看到当编码量化参数QP逐渐升高时,失真水平升高,主观质量MOS值呈下降趋势,这与现有失真理论一致。另外,实验进一步还发现,且QP与MOS以及MSE与MOS均呈现良好的线性关系,这对下一步感知失真測度模型建立具有重要指导意义。由于MSE仍是传统意义的失真度量,下一步研究,我们将着重研究更具有立体全景感知意义的失真与主观质量的关系,进一步应用于实际的视频编码应用。

3结束语

本文工作,通过主观实验建立了立体全景视觉感知环境下编码QP、MSE与主观视觉质量MOS值之间的关系模型,为下一步立体全景感知编码打下了理论基础。

参考文献

[1] Liu X,Xiao Q,Gopalakrishnan V,et al. 360° Innovations for Panoramic Video Streaming [C].Proceedings of the 16th ACM Workshop on Hot Topics in Networks. 2017:50-56.

[2] Zare A,Aminlou A,Hannuksela M M,et al. HEVC-compliant tile-based streaming of panoramic video for virtual reality applications[C].Proceedings of the 24th ACM international conference on Multimedia. 2016:601-605.

[3] Yang J,Liu T,Jiang B,et al. 3D panoramic virtual reality video quality assessment based on 3D convolutional neural networks[J]. IEEE Access,2018(6):38669-38682.

[4] P.910: Subjective video quality assessment methods for multimedia applications. ITU-T Recommendation, approved in 1999-09.

[5] Recommendation ITU-R BT.500-11: Methodology for the subjective assessment of the quality of television pictures[S].Geneva, Switzerland: International Telecommunication Union,2002.