基于内容检索的视频处理技术

2021-06-15 03:27杨光明
卫星电视与宽带多媒体 2021年6期
关键词:视频

【摘要】用户探索和解析多媒体内容是基于内容检索的功能上去进行的,其次在多媒体数据中视频的运用会占绝大部分,它会随着时间的变化而去改变,具有非常显著的跳跃性和不稳定性,不能用静态特征去概括,总结起来会对内容检索造成很大的困难。有效的对视频数据进行处理和把控是完善其技术研究的主要目标,做好相关专业技术处理才能从基础层面去改善情况。本文就主要探讨在内容检索的基础下,如何对视频处理技术进行创新和改善,并提出了有效策略。

【关键词】内容检索;技术处理;视频

中图分类号:TN94                     文献标识码:A                     DOI:10.12246/j.issn.1673-0348.2021.06..007

伴随着信息技术的迅速发展,已经形成了信息高速公路的趋势。而在利用数字视频这项技术时,人们比较注重它的储存和传输能力。在这一方面确实也取得了比较大的突破。做到足不出户在家中就可以通过互联网来进行多媒体数据管理,对远端的信息和视频进行访问。运用网上图书馆、电子购物等功能都非常方便,同时视频检索技术在当下也非常受欢迎,对于此类技术来说,市场急需专业性人才,其就业前景非常的广阔。

1. 视频数据的结构体系

1.1 序列的组成

视频数据的组成可以分成诸多种形式,比如场景、幕、帧、镜头等。而镜头是一种视频形式,它是由诸多帧共同组成的,可以对同一场景来进行不同形式的描绘,它可以是对摄像机动作或者说是某一个事件的连续动作,其中所涉及到的理念會根据表达的含义、拍摄的角度、面对的对象而改变。幕的组成则是由相关内容的镜头共同组合在一起的一段小视频,它是对某一件事情或故事情节的完整表达。我们所见到的一段完整视频都是由不同的镜头所组合起来的,所以镜头也算是视频检索的分支,镜头中对象的运动形式和图象帧则是往下延伸的部分,而往上则是场景。所以视频检索的基本构成是由一幕幕、一个个场景、一个个镜头所共同组成的,如何针对视频中的镜头场景进行合理的处理,是掌握该技巧的最基本的内容。

1.2 镜头的切换

视频镜头也受诸多因素的阻碍,镜头会受空间的限制,只能对一个地点发生的事情进行不间断的拍摄,不能做到空间和地点的切换。所能达到的能力有限。所以我们在一部完整的视频、纪录片或电影中看到的都是由诸多镜头互相剪辑、编辑连接而成的。还有一部分视频切换的频率会非常频繁,而镜头所传输的时间也非常有限。比如一些故事片、纪录片、新闻节目等。这一类视频的表达都可以通过切换镜头来实现,它能对不同地点场景和时间所发生的事情来进行合理的镜头切换,相反,例如监控视频和交通状况以及体育节目赛事转播,这一类视频形式,它其中的镜头切换可能相对较少,某一个镜头所保持的时间会比较长,这些都是要根据不同内容的形式而做出相适应的转变。如果是监控视频这种类型,切换是无法有效的抓住镜头所发生的时事,从而进行无意义的剪辑。体育项目也是如此,某一些精彩的瞬间或镜头,必须要时刻抓住,否则将错过精彩的视频剪辑。这一类视频尽量要做到镜头的少切换。它其中最关注的是镜头内物体的运动情况。

其次突变和渐变两种形式都是用来作为镜头转换的。而突变所表达的基本含义是,从上一个镜头跳入到下一个镜头之间的转换,中间不会被时间因素所限制,不存在一定的延迟。而渐变从理论上来说是相反的,前一个镜头和后一个镜头之间的转换会非常缓慢,重点是强调空间以及时间上的编辑效果,同时它所包含的方式有诸多种,以及它还处在不断的发展当中。不断的有新的方式出现。比如一些运用到的比较多的类型:扫转换、慢转换、淡入/淡出等。其中扫转换的开端是没有具体要求的,它可以是某一个部分的开端,下一个镜头逐渐的取代上一个镜头。慢转换顾名思义就是在前一个镜头还没有消失或逐渐减弱时,下一个镜头会慢慢加强画面感。最后淡入/淡出则分别指的是把画面进行加强,而后慢慢的减弱直至消失。

1.3 镜头的运动

镜头的运动也作为视频处理技术中比较重要的一环,它会根据剧情的变化和需要来采取不同的技术处理。对某一个镜头的处理,可以通过多个摄像机来共同合作来选取最佳的镜头,这样就可以从不同角度去发现其中的运动状态。而其中最重要的就是镜头的运动,它所包含分为几个方面。

其一,推拉摄影:所谓推拉则是指两个运动方向之间的区别,由远处慢慢向近处拍摄,通过对拍摄对象的记录,这种方式我们统称为“推”。而拉则表示相反的概念,从近处的景象开始拍摄,逐渐拉伸为全景,这种运动摄影形式,我们称之为“拉”。两种形式都可以通过运动摄影来表达,其次还可以通过变焦的方法体现。其二,摇镜头:把云台来作为轴心点,拍摄过程中拍摄方位可以不断的去改变,但是其中的观者是不能去改变观察位置的,在满足以下情况下再去转动头颈部和眼球来观看对象的一种体现。根据镜头的不断移动,来对更多更大的情景进行拍摄,这就是所谓的摇镜头。其三,跟踪:拍摄跟踪与传统的跟踪意思理念非常相近,也是根据拍摄对象的移动来进行追踪。其四,其他:这其中包括几大类,可以有垂直的移动、俯视、仰视、远摄、近摄等。

2. CBIR技术的展现状

CBIR主要是指图像检索技术,是针对图像来进行实践分析和信息理解的,它的主要图像检索形式分为两大部分,一是视觉特征:主要包括形状、空间、颜色、纹理关系等。二是语言特征,包括对象语义、抽象语义等。两者都是有关图像技术研究的重点。其中颜色严格来说是一种视觉信息传递,相对来说具有比较稳定和简单,容易理解的特点。对于各种形式的变化、旋转、形变都有很强的伸缩性。在现今所有检索系统当中,它的运用程度可以说得上是最广泛之一。其用到最多的表现手段分为颜色布局法、中心矩法、直方图法、颜色对直方图法等,在这当中直方图法运用的范围是最广的。最后是关于纹理方面的一些简单定义和描述,由于其目前处于发展和完善阶段,还没有一个较为具体的定义,大多数人认为纹理元素是具有一定规律性质的排列组合,其中会涉及到一些形状较为简单,具有重复性质的区域,都把它当作为纹理元素的之一。纹理的含义是比较偏向于视觉感受,一些技术开发人员根据其所表达的特点进行了几十年的研究,已经提出了许多见解和方法,例如空间域能量法、灰度差分统计法、共生矩阵法等。

3. CBVR技术及其发展现状

3.1 视频对象分割

引入视频对象的引入是MPEG-4的理念,基于对象是其主要功能。但由于发展原因,目前还没有一个具体的方法去从视频序列中提取视频对象,大多数用户还是需要根据自身的研究和一些具有特定模式的算法来进行运用。以至于国内外大多数学者都分别发表了自己对于视频对象分割的各种看法,主要可以分为两大类:时空域信息联合的分割方法和基于时域信息的运动分割。

时空域信息联合的分割方法是如何运用的做出了详细见解。我们可以把它理解为把视频以像素的形式分解而成的时空块,要对时间和空间进行双方面考虑。它的中心含义是需要将图像区域分割引进到对象分割中,其中会受到区域合并的影响而有所不同。其次就是时空对象分割算法,它也是由诸多法则组合而成:贝叶斯法、区域跟踪法、运动相似性法等。区域分割上去对时空对象进行分割必须要建立在运动相似性的基础上,从区域运动相似性上去将图像区域合理的分割的运动对象是计算区域的特征。还有一种叫聚类算法,它是在區域分割形式上来进行对象分割的,而贝叶斯时空对象分割法的分层形式是需要通过区域及来把运动对象进行分割的一门核心技术。还有我们所熟知的图像区域,它包含有纹理、形状、颜色等各方面的特点。以区域运动来对计算区域进行合理估算是它的主要运动特征,运动特征和图像特征双方的共同分割对象都是要建立在时空贝叶斯对象分的算法上。而最后所说到的是区域跟踪,它的主要特点是根据时间轴上的某一块区域的运动性质来进行搜索,将某个时间段进行预测,以区域时空间关系来入手,用分割视频对象的方式对区域的时间进行利用。

3.2 视频特征提取

高层的语义特征以及底层的视觉特征都是视频特征的分支,其中有关纹理、空间、颜色、形状这一系列的底层视觉特征,我们把它当做和图像特征提取的方法来一样看待就可以了,双方都是同样的理念,而其中最为重要的就是视频的运动特征。

和有关图像和视频的内容,我们都需要从它在时间轴上的变化形式来进行判断,这些都是反应视频数据最主要特征是运动的由来,它可以辅助我们对视频进行解析和了解。其次对视频运动信息进行合理的描绘有诸多方法。其中最主要的几种是:运动活力属性,它主要是用来对视频内容的运动程度进行描绘的,还有目标跟踪描述局部运动等,而MPEG-7统一对以上几种方法进行了一定的描述。

最重要的是解锁视频数据的方法一直处于摸索中,如果是仅依靠运动信息来去运用的话,所达到的效果不尽人意。根据总结,绝大多数时候它需要与视觉信息特征去配合才能发挥意想不到的好效果。

3.3 视频索引技术

对视频数据进行分析,通常可以建立两种索引形式。第一种则是对目标或运动物体等语义基元的索引,这一种索引方式内容比较复杂,在提取完后还需要去进行注释。第二种是基于视觉特征的索引,这一类相对提取比较简单,从关键帧中就可以去完成。

对视觉基元所包含的含义进行索引是要建立在视觉特征的基础上,一些科技人员通过对语言符号进行过分析和发表过自己的看法。把符号组成传递的信息看作是视觉基元的基本含义,把底层视觉特征定期进行检查,以及对它们的组合形式去自动提取含义就理所应当了。比如纹理、形状、颜色等视觉特征,我们就可以把它化为模型化当做多维特征的点,其中还包括点访问法这种索引形式,在实际运用当中对于表达性质所包含的特征数量和距离就是点访问法的核心理念,其中绝大部分在性能方面。它所包含的特征数量在超过10时都会呈下降趋势,所以先映射到低维空间,再对高维数据进行索引才是合理办法,领域相关性小是视觉特征最主要的特点。基于这一特点。在对视频特征进行索引时,可以将它运用到不同领域的视频当中,运用图像处理技术和分析技术去从视频中进行提取也是视觉特征所包含的特点之一。

其次对语义特征进行索引又是不同的方式,它主要是要将目标进行围绕的语义基元和有关视频元素掺杂的含义,还可以把它当做查询图中提取去做比较,其中所涉及到的专业知识技术非常复杂和广泛,它的视频内容和相关知识需要具有一定专业技能的人才才能去合理运用,总的来说,这个运动索引的提取过程是相当复杂的。

3.4 视频检索技术

对视频数据进行解析的时候,我们要先认识它的概念。它除了图像信息之外,同时还对时间和空间运动等信息有包含,在视频检索技术发展的途中,人们通常认为它是信息检索领域中一直让人头疼的一个问题。经过研究人们发现的主要原因是在时空信息方面的理解和描绘相当有限,缺少一定的实践工具。在对视频进行解锁的途中,对于人的感知存在和有关底层信息的获取存在一定的差异,在线研究数据上体现的主要原因,其中包括三大类:视频中出现的片段、如何定位镜头、相似性检索、相似的片段检索,其中运用的最多的使特征检索。

如何分辨视频跟图像的区别,通过运动的特征来进行分析是最有效的,所以在展开有关视频索取的工作的同时,绝大部分都会注意力放在运动特征上。在对特征进行提取时,我们一定要先对全局运动有所了解和估计,以此来减弱对视频运动的印象。通过群体运动来对摄像机运动进行合理的消除,在对一些事物进行分析时。可以通过帧差法去调整。

3.5 缺乏专业的知识人才和培训计划

视频处理技术严格意义上来说属于高新技术领域,对人才的需要和技术的考量有着非常严格的要求。所以就目前我国国内情况来看,缺少一定的专业性和实用性的知识人才。导致有关视频技术处理方面无法有效进展。同时应该对从事该领域的相关工作人员进行适当的培训和提升,从加强其基础专业技能为目标,最终为我国关于视频处理技术研究提供一份力。

4. 国内外视频检索现状

国内外把CBVR的系统运用都做出了不同诠释,其中国外把它则当为重点项目来进行研究,而目前的发展形势来看,国外已经对CBVR系统进行了多年的研究,已经有非常完善的系统体系了。麻省理工学院相关的研究团队已经研究出了photo book系统,已经可以基本的对视频检索和特征进行有效的运用了。而IBM公司对于视频检索技术也进行了有效的时间探析,做研发的QBIC系统也是用来作为商用服务的,它包含的价值信息是基于内容的形式下对信息检索系统的代表。还有一些比较著名的大学,比如卡耐基梅隆大学,它们已经研究出了IDVL项目,与此同时还有哥伦比亚大学,所研发出来的video Q系统在发展过程中竟然还有诸多不完善的地方,对于商业价值和需求还达不到目标。但是把它当做参考意义来说是非常值得的,具有一定的商业价值。

在有关视频文字识别、视频分段自然语言处理、语言分析、人脸检测等各个方面的知识,都是卡耐基梅隆大学所发明的IDVL系统中的内容,其中的内容大部分的包括了视频资料的检索,相对来说其包含的商业价值和信息量来说是非常完善的,而哥伦比亚大学的video Q系统在对主题浏览信息的查询途径和方法上进行了有效创新和升级,同时对于关键字进行了有效的扩充。让客户在信息系统使用的过程中,可以对时空关系和视觉特征来有效检索。

而在国内对于视频技术处理的内容检索还存在着一定的差距,从技术人员到基础设备和发展理念上都还需要完善和加强,还有非常长的道路要走。目前还处于一个探索的阶段。主要有着初步的理念和设计方法。在其中一些较为专业和具有规模性质的CBVR应用系统上,还是存在着较大的技术缺陷的,在与国外研究团队和人才进行对比时还有差距。所以我们需要正确的认识到自身的不足,抱着学习的态度进一步来提高自身的技术水平,进一步加强相关的技术研究和系统开发。

5. 结语

根据总结,关于视频处理技术的有关检索技术在我国还处于上升的发展状态,还有非常多可以进步和提升的地方。总体来说还处于一个初级阶段,目前我们只是在对某些算法上表达了自己的看法和做出了一定的实践设计,但在有关相应的操作系统和完整的体系方面,还存在着一定的缺陷。所以我们需要从培养人才的角度和提升专业知识进行培训教学方面都应该下更多功夫,经过不懈的努力和研究来获取更大的效果。

参考文献:

[1]余时强,张铮,张为华.近似重复视频检索方法研究[J].电子技术应用,2016,5:24-26.

[2]黄鹤,孟广仕.一种基于内容的视频检索系统设计[J].科技创新与应用,2015,1:53.

[3]郑银环.基于内容的视频检索技术研究[D].2010.

[4]武献宇,夏树伟.基于内容的视频处理和检索技术[J].科技情报开发与经济,2007(13):234-236.

作者简介;杨光明,四川绵阳人,工程师,硕士研究生,单位:四川九州电子科技股份有限公司,研究方向:视频处理技术.

猜你喜欢
视频
基于大数据的弹幕视频基本特征研究
视频侦查工作室的研究与设计
校园监控管理探究
计算机基础课MOOC视频的制作方法
新浪网副总裁谈移动直播如何带来媒体弯道超车新机会
基于IPv6组播技术校园网络视频服务设计
职校语文课堂导入方法研究