基于立体全景视频的感知失真模型研究

2020-06-19 08:50杜宝祯

科学与信息化 2020年11期

杜宝祯

摘要针对现有的恰可感知失真模型并不适用与立体全景场景的问题，开展了基于人眼视觉系统（Human Visual System，HVS）感知分析的立体全景视频失真测度研究，并建立了失真测度模型，为下一步立体全景视频编码的优化研究打下了理论基础。

关键词立体全景;视频编码;失真测度

引言

目前全景视频由于其“身临其境”的良好视觉效果，已经越来越多地进入到人们的生产生活，特别是在游戏、模拟驾驶领域[1]。但全景、特别是立体全景，其数据量极大，这极大增加了编码端的负担，传统的编码理论压缩已接近极限，而且普通的恰可感知失真模型并不适用与立体全景场景，因此如何发掘HVS感知特性，建立面向立体全景的失真测度模型，对现有视频编码器改进意义重大[2]。

1主观感知实验与模型建立

目前通过大量主观实验，测定不同编码失真程度下，立体全景视频的平均主观分数值（Mean Opinion Score，MOS），得到第一手主观视觉质量的实验资料，该部分工作虽然非常耗时，但对后续建模研究及其重要，是后续立体全景感知失真阈值模型的建立工作的基础。

编码失真视频库的构建

在编码失真视频库的构建方面，实验选取Yang等[3]文献中提供的M组立体全景序列作为原始立体全景序列。在此基础上，为了进一步生成各编码失真等级的立体全景视频，我们基于3D-HEVC编码平台，采用的N个等级的编码量化参数（Quantization Parameter，QP）对原始立体全景视频进行编码，以得到各失真等级的立体全景测试视频。其编码失真的量化参数具体选择为：

其中δ为编码量化参数间隔，该主观实验测试中QP0设置为25。考虑到实验样本数量、代表性以及主观实验工作量3个方面，在本实验中，M设置为8，N设置为5，δ设置为5，其中M组原始立体全景序列分别为Chat、Experience、Pedestrian、Photograph、Riverside、Scenic_spot、Sign_in、Tourist。按照上述设置的编码失真处理后，本实验共有M×N组，即多达40组不同等级的编码失真立体全景视频用于主观实验。

主观实验采用HTC Vive Pro头戴式显示器（Head-Mounted Display，HMD）进行观看。硬件配置为：①DELL T630服务器，NVIDIA GTX 1080 GPU，32G内存和硬盘1TB。②HMD选择HTC Vive Pro，其双目分辨率为2880×1600。③跟踪站一对，用于定位和跟踪佩戴HMD的主观实验测试者交互需求，主观实验测试者通过HMD的HDMI接口连接与PC交互。

实验方法采用遵循提案[4]绝对类别评分（Absolute Category Rating，ACR）的单刺激法（Single Stimulus method， SS）进行主观打分。该主观实验邀请25名主观实验测试者参与主观测试实验打分，平均年龄25周岁，性别分布均匀，且先前无立体视觉主观打分经验，视力或矫正视力正常。在正式进行主观打分之前，需要对主观实验测试者进行预先培训。在培训中，主观实验测试者给予观看一定数量的立体全景视频，这使其可以预先获得各失真等级的视频质量主观感知，并体验主观打分的评级协议，然后可以开始进行主观评估。

为了使主观实验更客观，对M×N组不同等级的编码失真立体全景视频进行随机排序。主观打分，仍遵循提案[4]，评分分值从1分到10分区间共10级评分，其中1分表示主观质量最差，10分表示主观质量最好。实验过程中，每位观察者需要对M×N共40组编码失真立体全景视频进行主观打分，观看时间以及打分时间、休息时间间隔均严格遵照提案[4]进行。每一次主观质量评分试验都是相互独立且无关的，因此，本次主观实验共计可获得1000份主观打分的原始实验数据。

2实验结果与分析

针对主观实验的打分数据，我们首先采用提案ITU-R BT.500-11[5]中描述的数据筛选方法，去除评级与其他主观实验测试者不一致的奇异值。在进一步统计分析基础，最终得到了基于不同编码QP量化参数下的失真等级与MOS（置信区间为95%）之间的关系。图1以Chat、Pedestrian序列为例，给出了失真等级与MOS的直观表述，显然，主观质量随失真水平的提高而持续下降。

进一步在上述统计基础上，我们计算了各失真等级下各失真立体全景视频序列的均方误差（Mean Squared Error ，MSE），并对QP、MSE以及MOS进行拟合，得到三者的关系模型：

其中各系数的推荐取值和95%置信区间如表1所示。

可以看到当编码量化参数QP逐渐升高时，失真水平升高，主观质量MOS值呈下降趋势，这与现有失真理论一致。另外，实验进一步还发现，且QP与MOS以及MSE与MOS均呈现良好的线性关系，这对下一步感知失真測度模型建立具有重要指导意义。由于MSE仍是传统意义的失真度量，下一步研究，我们将着重研究更具有立体全景感知意义的失真与主观质量的关系，进一步应用于实际的视频编码应用。

3结束语

本文工作，通过主观实验建立了立体全景视觉感知环境下编码QP、MSE与主观视觉质量MOS值之间的关系模型，为下一步立体全景感知编码打下了理论基础。

参考文献

[1] Liu X，Xiao Q，Gopalakrishnan V，et al. 360° Innovations for Panoramic Video Streaming [C].Proceedings of the 16th ACM Workshop on Hot Topics in Networks. 2017：50-56.

[2] Zare A，Aminlou A，Hannuksela M M，et al. HEVC-compliant tile-based streaming of panoramic video for virtual reality applications[C].Proceedings of the 24th ACM international conference on Multimedia. 2016：601-605.

[3] Yang J，Liu T，Jiang B，et al. 3D panoramic virtual reality video quality assessment based on 3D convolutional neural networks[J]. IEEE Access，2018（6）：38669-38682.

[4] P.910： Subjective video quality assessment methods for multimedia applications. ITU-T Recommendation， approved in 1999-09.

[5] Recommendation ITU-R BT.500-11： Methodology for the subjective assessment of the quality of television pictures[S].Geneva， Switzerland： International Telecommunication Union，2002.

科学与信息化2020年11期

科学与信息化的其它文章: 通信互联网安全在综合网管系统维护中的应用分析; 工作流技术在高校协同办公系统中的应用研究; 浅谈自动化技术在机械设计制造中的应用; 光纤传输系统中的PMD效应及其补偿分析; NB-IoT技术在智慧燃气中的应用实践; 中波调幅广播发射机天线匹配网络的调试方法分析