视频字幕自动生成技术研究

2021-11-15 22:49张大伟
江苏广播电视报·新教育 2021年25期
关键词:短视频研究

摘要:在信息技术、互联网技术快速发展的背景下,短视频平台出现在社会公众视野中且逐渐地融入到了人们的生活中,成为了人们生活的一部分。近年来,短视频平台用户数量处于增加的状态,足以证明了短视频平台的受欢迎度。短视频的制作水平影响着用户的体验感,以及短视频平台的健康发展,为此有必要构建完善短视频制作体系,科学指导短视频制作工作。字幕是短视频的构成要素,不仅可以正确传达视频内容,而且可以帮助用户把握视频重点。在短视频制作中,应格外关注字幕制作工作。研究发现,在短视频制作的过程中会应用到字幕自动生成技术,以提高短视频制作水平。本文主要阐述了与“短视频字幕自动生成技术”相关的理论,分析了在短视频中应用字幕自动生成技术的价值,深入研究了短视频字幕自动生成技术,介绍了短视频字幕自动生成软件,对短视频字幕自动生成技术发展进行了展望,以期为短视频字幕自动生成技术发展与应用提供科学的指导,从而确保短视频平台与行业的健康发展。

关键词:字幕自动生成技术;短视频;研究

引言

现如今,短视频处于飞速发展的状态。在观看短视频时,用户会通过字幕了解视频内容,把握视频内容。由此可见,字幕在短视频信息传达方面起着重要的作用。通常情况之下,字幕人员主要通过手动添加字幕的方式进行短视频字幕的制作工作。随着短视频的发展,字幕人员的工作量不断提高。若是仍然使用手动添加字幕的方式制作字幕,就容易影响工作效率,导致字幕人员面临巨大的工作压力。为提高字幕制作效率,缓解字幕人员工作压力,有必要认真地研究短视频字幕自动生成技术,将短视频字幕自动生成技术应用在实际工作中,为字幕人员开展工作提供极大的便利。

1相关理论介绍

1.1短视频

短视频指的是时间少的视频[1]。虽然视频的时间简短,但是视频所包含的内容足以满足用户需求。尤其是在生活节奏加快的当下,用户更喜欢观看短视频。在新媒体以及互联网技术发展的背景下,短视频应运而生,深受广大用户喜爱。

1.2短视频字幕

短视频字幕指的是在短视频中出现在字,用来介绍短视频内容。为提高用户阅读速度,方便用户获知视频信息,短视频平台会主动地制作字幕。由于普通用户也是短视频的发布者,所以他们也会在制作短视频的过程中添加字幕。

1.3字幕自动生成技术

字幕自动生成技术指的是基于自动化技术形成的字幕。通过在短短视频制作中应用字幕自动生成技术,可以节约字幕制作时间,提高字幕制作水平。当前,越来越多的人研究字幕自动生成技术,希望保障字幕制作工作效果。

2在短视频中应用字幕自动生成技术的价值

2.1提高字幕生成的效率

在社会经济快速发展的大环境下,人们更加注重追求工作效率,对于企业来讲更是如此。企业通过追求工作效率,就容易获得可观的经济效益。随着自动化技术、计算机技术、信息技术的发展,字幕自动生成技术出现在了社会中。通过将字幕自动生成技术应用在视频制作中,短视频平台就可以提高字幕生成效率,加快短视频发布速度,便于用户及时观看到最新信息,提高用户对短视频平台服务的满意度,进而保证自身在短视频市场中占据有利的位置。

2.2确保字幕生成准确率

目前,越来越多的人加入到字幕自动生成技术的研究、开发中,形成了多种字幕自动生成技术。随着对字幕自动生成技术的深入研究,字幕自动生成技术的性能大幅度提升。过去,应用字幕自动生成技术容易出现问题,而今字幕自动生成技术的发展水平不断提高,使得字幕生成准确率也得到了提高[2]。可以说,字幕自动生成技术的应用价值有效提升。

2.3缓解字幕人员的压力

在未出现字幕自动生成技术前,字幕人员需要手动打字,这样工作效率无疑是比较低的。伴随着短视频平台数量的增加,短视频市场的竞争日趋激烈。同时短视频平台用户的数量与日俱增。倘若使用手动字幕生成的方法,不仅会影响短视频制作效率,而且容易失去用户,难以提高企业在市场中的竞争力。与此同时,字幕人员的工作压力也会不断增加。而通过在短视频制作中应用字幕自动生成技术,就可以缓解字幕人员的压力,促进企业健康发展。正因如此,越来越多的短视频运营者引进了字幕自动生成技术,并在短视频制作中广泛应用字幕自动生成技术。

3短视频字幕自动生成技术研究

3.1说话者检测

说话者检测技术在字幕自动生成技术中起着重要的作用,因此要重点研究该技术。在说话者检测技术中,会应用到人脸检测技术。随着面部识别水平的提高,人脸检测技术进入到了一个新的发展阶段。当前,人脸检测技术已经由最初的研究状态进入到应用状态。通过研究人脸检测技术得知,基于灰度值的检测方法在人脸检测技术中发挥着重要价值。基于灰度值的检测方法是“原始图片、AdaBoost算法和级联分类器”相结合而形成的。在基于灰度值的检测方法下,人脸检测的速度与正确率得到了保证。

原始图片:即在某一点(x,y)左上角范围内的所有像素和。像素和是以矩形表现出来的。事实上,任何一个图像都可以用矩形表现像素和。矩形分为黑色与白色,矩形特征小不定,但黑白区域大小一样。这些矩形特征在图像中处于移动的状态。若是想要得到特征,就需要进行计算,其中应该用白色区域减去灰色区域得到特征值。通过把握矩形特征,就可以为人脸识别提供可靠依据。

AdaBoost算法:AdaBoost算法是人脸检测技术的构成要素。在研究人脸检测技术时一定要认真研究AdaBoost算法[3]。在AdaBoost算法下,首先分别训练正负样本,令其初始权重值相等,其次对该样本集合进行循环操作,而在每次循环时先要进行假设,再认真地分析、研究以及计算假设的错误率。之后,依据该假设的错误率改变每个样本的权重进入下一个循环。通过不断地循环,就可以更好地掌握矩形特征。另外,还需要在所掌握的矩形特征中提取T个特征,将T个特征作为一个分類器。在输入图像后,就可以根据矩形特征,判断人脸图像。只有在权重比较大的情况下才会判定其为人脸图像,这样会提高人脸识别水平。

级联分类器:级联分类器是由AdaBoost训练的每个分类器构成一个多层分类器[4]。由此可见,级联分类器与AdaBoost训练两者具有重要的关系。级联分类器的作用机理具体如下介绍。第一层分类器:第一层分类器用于判断人脸,并把人脸的判别信息传到第二层,用于二次判断,保证人脸识别的准确性、可靠性。第二层分类器:在接受到第一层分类器的人脸的判别信息后,就需要对这些信息进行再次分析。在完成信息分析后,就需要传递给下一层的分类器。通过反复的传递、分析,有利于大幅度地提高信息分析水平,确保检测效果。

接下来,要在人脸区域内找到唇部区域,以此推进字幕自动生产工作。经过研究发现,唇部区域一般是在人脸几何区域的下方1/3处。在人脸区域内寻找唇部区域时,一定要了解唇部区域在人脸中的位置,再应用Red Exclusion方法,用log(G/B)≤口判定是否为唇部像素。

我国属于黄种人,即使在口数值发生改变,仍旧可以提高唇部外形识别水平。唇部外形识别操作方法如下介绍:唇部外形是三维的,为保证唇部外形识别效果,需要应用Red Exclusion方法把三维降低到二维。在完成此项工作后,就需要应用Fisher进行判别,其中需要每个像素点(G,B)研值作为Fisher变换的二维矢量X训练、学习,便于找到最佳投影矢量[5]。在此之下,就可以确定唇部具体的位置以及轮廓。

在短视频中,说话者的唇部处于运动的状态,而在唇运动下,就会产生声音、话语,这些是音频数据的重要来源。通过在短视频中应用TDNN,就可以找到说话者,从而为短视频字幕自动生成提供指导。

3.2文字和语音匹配

文字和语音匹配是短视频字幕自动生成技术研究的重点。在研究、开发短视频字幕自动生成技术的过程中,研究人员重点探究了文字和语音匹配的方法。在探究文字和语音匹配中,采用了切分和标注语音数据的方法,以识别语音,将语音与文字进行匹配[6]。其中,还在此次研究中应用了基于模糊逻辑的多特征音频分类算法、基于扩展匹配网络的容错对准算法和大量连续非完全匹配语料的对准算法。在这些算法下,还可以找到每个字的起始点,即端点检测。在端点检测中,会用到短时能量、短时平均过零率、零能积等信息。在能量与过零率下,就可以顺利完成对语音信号的分段分析。

研究发现,短时能量过零率顺序为清音》浊音>静音。通过分辨清音和浊音,就可以更好地清楚过零率。在得出过零率的过程中,要先求出样本均值和样本均值标准差,再将标准差乘以一定系数与均值求和得到过零率门限值[见公式(1)]。经过计算与研究得知,k在0.15~0.25[7]。

在文字和语音匹配中,需要开展能量分析工作。而能量分析的重点是要分析濁音。这是因为在浊音开始时整个的能量将会上升。其中,可以采用均值和样本能量最大值计算能量门限值[见公式(2)]。

4短视频字幕自动生成软件介绍

4.1网易见外——电脑

在科学技术、计算机技术快速发展的背景下,短视频字幕自动生成软件的数量处于增加的状态。相关人员可以根据自己的需求,选择合适的软件对短视频进行字幕自动生成处理。网易见外属于一种操作简单便利的短视频字幕自动生成平台,相关人员可以应用该平台完成字幕处理工作。首先,可以在互联网上直接搜索“网易见外工作平台”;其次,在平台上注册账号、密码,这样就可以登陆平台了;再次,把所要上传的视频导出为音频,并上传到平台上,并选择选择字幕类型以及识别语言。稍微等待,就会生成字幕。在生成字幕后,还需要认真地检查字幕。如果字幕与视频内容不符,或者存在错别字,就需要更改字幕,确保字幕与视频内容相匹配。

4.2中译语通字幕——电脑

中译语通字幕是一款短视频字幕自动生成软件。在应用中译语通字幕软件时,需要先安装软件。其中,可以从网站上下载中译语通字幕软件。在安装完中译语通字幕软件后,同样需要注册账号,进而登陆软件进行视频字幕自动生成处理。操作步骤包括:上传视频-点击字幕识别-等待结果。

4.3Arctime——电脑

Arctime是由国外开发的短视频字幕自动生成软件。在应用短视频字幕自动生成软件时,需要支付一定的费用,否则就不能够应用该他软件进行短视频字幕自动生成处理。Arctime的应用优势是识别准确率高,因此Arctime受到了很多人的亲睐。

4.4人人译视界——电脑

人人译视界与arctime比较相似,在先进的短视频字幕自动生成技术下,就可以大幅度地提高短视频字幕自动生成水平。操作步骤与其他的短视频字幕自动生成软件类似,同样需要上传视频,再对视频进行字幕自动生成处理。在软件完成字幕自动生成处理后,还会用微信和短信提醒。

4.5快影——手机

除了在电脑上应用短视频字幕自动生成软件进行字幕生成处理之外,还可以在手机上完成字幕生成处理工作。快影这款短视频字幕自动生成软件就可以下载到手机上。在应用快影时,需要将视频上传到快影上,然后对视频进行语音转字幕处理。在等待片刻后,就可以生成字幕了。

5短视频字幕自动生成技术发展展望

短视频字幕自动生成技术取得应用成果,但是这并不代表短视频字幕自动生成技术不需要完善。所以,需要认真地研究短视频字幕自动生成技术,深化发展短视频字幕自动生成技术,进一步提高短视频字幕自动生成技术应用价值。本次从以下方面进行该技术发展展望。

1)强化语音识别效果。语音识别水平在很大的程度上影响着短视频字幕自动生成的准确性、可靠性。在未来的技术研究工作中,有必要深入研究语音识别技术,保证语音识别技术应用效果。

2)提高标点预测水平。标点是字幕的重要构成要素。在短视频字幕自动生成技术下,应做好标点预测工作。其中,相关人员可以根据更具体的音频停顿长短信息判断标点,进而将这些研究成果融入到短视频字幕自动生成技术中,提高字幕自动生成水平。

3)解决语音识别模型训练问题。在短视频字幕自动生成技术实践应用中出现了一些问题,包括同音词或者近音词识别率很低,语气词存在停顿问题。为提升这些问题的解决水平,相关人员需要探究问题出现的原因,进而引入先进的技术,从而保证问题解决效果。

结束语

综上所述,短视频字幕自动生成技术的出现与成熟发展对于短视频平台发展具有不可或缺的价值,同时应用短视频字幕自动生成技术还降低了人力成本,提高了字幕生成效率。为充分发挥短视频字幕自动生成技术的价值,还需要继续研究、开发短视频字幕自动生成技术,以便深层次发展短视频字幕自动生成技术。在这种情况之下,就可以更好地为相关人员提供短视频字幕生成便利。

参考文献:

[1]李妍青.以多模态语用学分析法探究影视字幕翻译的语义生成机制[D].上海外国语大学,2021.

[2]李昕妍,杜萌萌.功能学派目的论视角下中文慕课字幕英译策略选择——以《MySQL数据库设计及应用》慕课字幕翻译项目为例[J].英语广场,2021(05):45-48.

[3]胡中毓.一种通过语音识别和音频分割来自动生成字幕的解决方案[J].数码世界,2019(10):30.

[4]陆静.《安卓Q》黑科技所有APP播视频无需联网即可生成字幕[J].计算机与网络,2019,45(12):37.

[5]肖文艳.基于语料库的中小学英语词汇分析及试题自动生成研究[D].江西师范大学,2019.

[6]岳好平,龙湘君.综艺节目中涂鸦式字幕语言模因变体生成研究[J].哈尔滨学院学报,2017,38(05):117-120.

[7]吕洁.多模态语境参数视阈下字幕翻译的语义生成机制——以电影《血与骨》为例[J].外国语文,2016,32(06):128-135.

基金项目:2021年度北海职业学院校级科研项目“短视频中文字幕生成技术研究”(项目编号:2021YKY22)。

作者简介:

张大伟(1981.10),男,汉族,山东青岛人,本科,副教授,研究方向:计算机网络机器学习,工作单位:北海职业学院。

猜你喜欢
短视频研究
公司研究
谁说小孩不能做研究?
我国FDI和OFDI对CO2排放影响的比较研究
我国FDI和OFDI对CO2排放影响的比较研究
“去阅读”时代短视频自媒体发展现状及其文化解读
Applications of Deep Mixing to Earthquake Disaster Mitigation
A Thought:What have We Learned from Natural Disasters? Five Years after the Great East Japan Earthquake
符号学视角分析恶搞短视频
对周期函数最小正周期判定法的研究与应用
移动社交时代短视频的传播及营销模式探析