智能技术与人工编目深度融合的实践与思考

2023-07-29 16:24高雅萍
电视技术 2023年6期
关键词:媒资编目人脸

高雅萍,安 钧

(浙江广播电视集团,浙江 杭州 310005)

0 引 言

对于手握海量音视图文资源的广播电视行业,如何高效且最大化地挖掘资源价值,一直是值得探索的一个课题。国家广播电视总局通过制定相关编目规范,以确保编目数据的规范性和通用性。目前,广播电视行业普遍采用人工的方式进行媒资编目,存在较多问题,比如编目成本高,编目质量完全依靠编目人员自身素质,对于热点信息无法做到实时编辑,滞后性较强[1]。随着大数据、云计算、人工智能等技术陆续普及并赋能广大传统行业,深圳、浙江、湖南、北京等地电视台纷纷建设智能媒资系统,利用先进的人工智能(Artificial Intelligence,AI)技术,深入挖掘资源信息,让媒资焕发青春。本文以浙江广播电视集团(以下简称浙江广电)智能媒资为例,分析智能技术与人工编目深度融合的流程设计与实践成果,以期为媒资智能编目研究提供思路和参考案例。

1 智能技术在媒资系统中的应用

目前,智能技术在媒资系统中的应用,主要是对音视图文进行智能识别,自动分析和提取关键信息,并以此为基础,对节目进行智能层级切分(分为节目层、片段层、场景层、镜头层),形成可用标签。

1.1 智能识别

在节目生产过程中,有价值的信息通常集中在人物、场景地点、语音以及画面中出现的文字等。浙江广电智能媒资通过人脸识别、语音识别、文字识别(Optical Character Recognition,OCR)等智能技术,将视频内容转换成文本,提取智能标签。通过建立人物库、机构库、事件库、敏感库等多维度库,对各库数据进行归一化处理。

1.1.1 人脸识别

人脸识别是基于人的脸部特征信息进行身份识别的一种技术。识别前,需要先建立人物库,存储待识别人物的人脸图片、姓名以及人物信息,通过对图片进行人脸特征提取,将人脸图像转换成特征向量值,并与人物库信息进行关联,以便在识别时进行人物信息输出。浙江广电智能媒资采用逐帧识别的方式,对每一帧画面进行人脸定位和特征提取,遍历、比对人物库中的人脸特征值,计算出人脸相似度,通过设置阈值来判定人物。若遍历人物库后仍无法匹配上,系统会记录为未知人物,若后续该人物增加到人物库中,系统会自动更新所有识别到该人物的素材,避免重复识别占用计算资源。该技术在系统中的应用包括人脸检索、人脸定位以及敏感人物提示[2]。在实际使用中,人脸识别准确率整体较高,但对于表情夸张的人脸信息,也存在误识别的情况。

1.1.2 字幕识别

字幕识别技术对视频帧进行分析处理以获取文字信息,可支持对中英文、数字、标点符号等多内容识别。系统根据视频中字幕的变化提取视频关键帧图片,通过对图片的全幅定位(也可以指定区域)进行文字提取,精准获取文字及时码信息,同时关联敏感库,对敏感信息进行标红提示。在实际使用中,字幕识别还存在着信息重复的问题,造成信息冗余,还需要优化改进。

1.1.3 语音识别

语音识别技术是让机器通过识别和理解把语音信号转变为相应的文本,主要包括特征提取、信号建模和模型训练。特征提取主要是从语音信号中提取相关参数来识别主要信息,信号建模主要用的是模式匹配法;模型训练主要是基于声学模型训练方法和人工神经元网络模型法,获得最佳匹配,提高声学模型的准确率[3]。浙江广电智能媒资系统在将语音转换成文字及对应时码的同时,关联敏感库,对敏感信息进行标红提示。在实际使用中,语音识别对新闻类节目的识别率较高,而对于方言、戏曲、外语类节目,以及背景音干扰较大的节目,识别效果相对较差。

1.1.4 自然语言处理

自然语言处理(Natural Language Processing,NLP)技术旨在帮助机器理解和分析人类语言。浙江广电智能媒资对音视频节目进行智能识别后,对提取的文字内容进行分析,获取到人物、关键词、新闻摘要、机构、地点等智能标签。自然语言处理与系统知识图库关联,通过对标签、机构、地点等知识库的管理,提高标签提取的有效性和准确率。NLP标签提取效果如图1 所示。在实际使用中,自然语言处理对新闻类节目的标签提取效果较好,对综艺和晚会节目效果相对较差,而对于空镜类素材,则无法获取到有效信息。

图1 NLP 标签提取效果

1.2 智能切分

对新闻成片进行智能层级切分,是浙江广电智能媒资的核心功能之一。系统采用基于场景分类的切分技术,结合人脸、字幕、语音识别结果,通过搜索视频镜头的边界帧,将视频切分成一个个镜头,并获取相关场景及镜头信息,再通过场景相关度聚合为场景层,最后结合新闻摘要和演播室场景的提取聚合为片段层,形成类似传统编目节目层-片段层-场景层-镜头层的四层编目结构。每个层级都有不同的标签提取,为用户检索和人工编目提供参考[4]。新闻节目智能切分效果如图2 所示。

图2 新闻节目智能切分效果

2 智能编目与人工编目的融合实践

智能技术的发展,为提高传统广播电视音像资料编目效率提供了可能,但仍存在一些问题。一是目前的智能技术仍有待提升,比如本文前面提到的人脸误识别、语音优化、内容去重等,需要人工进行审校和优化;二是部分信息仍存在主观性,智能提取的标签无法完全覆盖原有的编目规范要求。因此,只有将智能编目与人工编目进行深度融合,以智能辅助人工,以人工优化智能,才能探索出一套符合自身特色的编目逻辑。

2.1 基于策略的编目流程设计

基于策略的编目流程设计可在不同条件下对智能编目和人工编目进行多种组合。传统的编目流程主要包括编目、一审、二审以及终审等环节,各电视台根据自身业务实际进行适当的增改。浙江广电集团在符合编目规范的基础上,结合自身特点,针对不同类型的资源,通过策略来控制智能和人工编目的调用。比如,对新闻类节目采用智能切分+人工编目的策略,对其他类型的音视频资源则采用智能识别+人工编目的策略。随着智能识别能力的不断优化,对于部分新闻单条和素材已经不再进行人工编目,智能识别提取的标签就能满足用户日常使用需要[5]。

2.2 智能编目与人工编目的融合

系统对节目进行智能切分时,会产生上百个场景层和镜头层,如果全部进行人工审校,人工编目的工作量不减反增。对此,结合实际编目场景,系统将编目区域分成了智能展示区和人工编目区。对于智能切分的片段层,系统自动将其挑选入人工编目区,而场景和镜头层则需要人工挑选。人工编目时,通过校准层级的入出点,系统会将结果反馈到融合推理引擎中进行模型更新,而对智能标签的增改则会反馈到标签库中进行优化。智能编目和人工编目结合的流程如图3 所示。

图3 智能编目和人工编目相结合的流程

3 结 语

随着智能技术的不断迭代发展,智能识别的准确性越来越高,适用性越来越强。近年来,互联网公司更是致力于研究针对特定领域探索处理复杂场景的通用智能技术。尽管在广电媒资领域,智能编目仍无法覆盖实际编目所需,但作为辅助技术,其已经为人工编目减轻了很大的压力。同时,敏感库和人物库的设置,可实现对已编目资源人物和敏感标签的自动更新,弥补人工编目完成后无法及时更新最新信息的不足。

浙江广电智能媒资自2021 年12 月上线以来,新入库资源13 万余条,其中约10 万条资源采用智能+人工的方式进行编目,约3 万条资源则直接采用智能编目,不再进行人工编目。在智能变革的趋势下,随着传统编目的智能化实践逐步深入,对于编目的深层次经验和探索变得尤为重要,简单的人工智能叠加无法满足用户的智能化预期,相信随着智能编目和人工编目的深度融合,广电媒资管理将更加科学化,同时也将强有力地提升我国文化建设水平,实现文化大繁荣和大发展。

猜你喜欢
媒资编目人脸
大数据技术的媒资档案管理方法
有特点的人脸
国家图书馆藏四种古籍编目志疑
三国漫——人脸解锁
浅析媒资系统在电视台业务中的应用
粤剧编目整理之回顾与展望
MRG9000媒资卫士在市级电视台全台网的应用
CALIS联机合作编目中的授权影印书规范著录
马面部与人脸相似度惊人
长得象人脸的十种动物