人工智能赋能智慧融媒体建设

2023-01-05 13:39谭荣皓

西部广播电视 2022年23期

谭荣皓

（作者单位：甘孜州广播电视台）

国家广播电视总局在“十四五”规划中提到：建立人工智能技术开发服务平台，为人工智能算法训练、智能工具、服务优化、测试评估、服务认证等提供支撑服务，推进人工智能在内容生产、传播分发、终端呈现等环节的全面应用。甘孜州广播电视台建设经历了从模拟到数字，从模块建设到全网一体化智慧建设的过程，目前，已经建成“贡嘎云”州县融媒本地化部署的技术平台，实现了媒体数字化目标。推进媒体深度融合，原有的业务范围更广，需要生产和发布的内容更多，迫切需要借助先进的人工智能技术为前台各种应用工具提供智能化、多样化、便捷化的服务，以便提升台内的节目生产、审核、发布效率。

1 系统建设目标

1.1 内容资源智能处理能力

构建一套满足使用需求的智能媒体服务平台，为甘孜州广播电视台提供完善的智能处理能力，完成对视频、音频、图片、文字等类型的内容资源进行智能处理，包括人脸识别、场景识别、文字识别（optical character recognition，OCR）、语音识别、图片识别、内容分类、标签提取、主题识别与智能藏汉翻译等，系统建成后具备较为全面的智能处理能力，能够随着业务需求变化进行智能服务扩展。

1.2 支撑全媒体业务

智能媒体服务平台从功能设计、应用交互、业务流程设计各方面按照全媒体业务需求进行，以互联网思维、全媒体思维进行业务适配，将广播业务、电视业务、新媒体业务等对媒体内容的需求进行整合，既适配传统媒体生产、审核、发布，又能适配面向互联网的媒体服务需求。

1.3 “自用+租户”服务模式

通过智能媒体服务平台的建设，搭建起“自用+租户”的运营模式，在满足甘孜州广播电视台对智能媒体服务的基础上，为平级企事业单位、下级县级融媒体中心单位等提供一些智能的媒体处理功能，提供基础资源、平台服务能力、应用工具等租赁服务，为单位持续地创收增效。

2 系统总体设计

基础平台充分采用甘孜州广播电视台原有的私有云平台资源、虚拟化计算资源、图形渲染资源、存储资源，部分轻量级人工智能服务直接对接公有云平台，如语音合成服务、藏汉翻译服务。系统总体设计如图1所示。

图1 智能媒体服务系统总体设计

通过智能媒体服务平台提供的各种智能引擎，将甘孜州广播电视台私有云现有的各类数字媒体资产结构化处理，包括媒资元数据、语音数据、图片数据、视频数据、标签数据、OCR数据等，打造智能媒体服务平台的智能数据中心。智能媒体服务平台提供了包括语音识别、人脸识别、场景识别等多种智能化服务，为前端的应用提供具体的智能化辅助[1]。

智能媒体服务平台和原有“贡嘎云”融媒体平台、圣洁甘孜新媒体应用程序（Application，App）发布平台、互联网视频生产平台、传统音视频生产（非编网）、媒资网、文稿系统等业务系统对接，为原有业务系统的应用智慧赋能。智能媒体服务平台主要提供语音智能服务、图片智能服务、视频智能服务、语言文字处理、内容智能审核这几大类服务，并把以上的智能服务和现有的业务工具对接，解放更多的生产力，赋予现有应用工具更多的智能处理能力。

3 系统功能设计

3.1 人脸识别

人脸识别模块能快速识别视频中的人脸信息并快速定位出视频中的人物所在帧画面，以及人脸所在区域。可调用自定义的甘孜州本地人物库或调用已经创建的视频公共人物库进行人脸识别。

3.2 语音识别

语音识别模块能快速识别视频中的声音并转化成文字，支持自定义关键词并定位出关键词所在视频的时间点。

3.3 场景识别

场景识别模块基于深度学习方案，能够设定视频截帧间隔，自动识别截帧画面内的各种预设场景，并定位场景标签所在的视频位置；涵盖人物、风景、人造物、建筑、动植物、食物等多个大类，包含日常生活的各个信息维度。

3.4 OCR识别

OCR识别模块能对视频图像文件进行分析处理，获取文字及版面信息，可用于视频内的自定义关键词的提取。

3.5 内容识别

基于连续亮度灰度直方图的相似度比较算法来转场识别素材的镜头信息，形成一系列的镜头信息和镜头封面，并且提供镜头信息的合并、拆分以及形成新的片段。

3.6 智能翻译

智能翻译模块集成应用深度神经网络、高级机器学习、大数据智能等人工智能技术，大规模采集并构建藏语（含词汇、短语等）库，建立数据驱动、以自然语言理解为核心的认知计算模型，构建甘孜州广播电视台藏汉互译系统。

3.7 智能标签

基于对视频内容进行深度学习和理解，输出场景识别信息、人物识别信息，并利用语音识别以及自然语音处理技术，智能生成多元素视频标签，用于视频的管理和检索应用。

4 系统应用设计

甘孜州广播电视台利用智能媒体服务平台提供的人工智能能力，具体赋能到各项业务系统中的应用工具，设计如下：

4.1 语音合成的具体应用设计

非编系统能够通过智能媒体服务平台提供的语音合成引擎将文字转化为自然流畅的人声，把非编系统时间线上的字幕自动生成音频文件[2]。根据节目类型的不同，可预先定义好音色、语速、音量、合成音频采样率等，定制完成多种不同类型的人声，提升台里某些讲解类、资讯类、广告类节目的生产效率。

4.2 语音转写的具体应用设计

媒资管理系统能够通过智能媒体服务平台提供的语音转写引擎对内容库中已有的音频文件、视频文件进行识别，将音频内容转写为文本信息，辅助人工进行快速检索，提升内容的检出率，并支持在检索选项栏录入语音进行内容检索[3]。

非编系统能够通过智能媒体服务平台提供的语音转写引擎对时间线上的视频进行智能分析，并自动输出带有时间戳的字幕。为了提升字幕整理速度，充分利用声纹技术，根据声纹特征，自动将采访者和被采访者说的内容分开。

4.3 人脸分析的具体应用设计

非编系统能够通过智能媒体服务平台提供的人脸识别引擎对时间线上的视频进行智能拆条，根据人脸自动定位。该功能可将相同的人物条目进行分段合并处理，并以人工进行镜头批注，只需要极少的人力对拆条后的素材进行微调即可，减少了大量的人工拆条的工作，这样既提升了效率，也节约了人力成本。

媒资系统通过智能媒体服务平台提供的人脸识别引擎对内容库中的视频、图片进行人物标签管理，自动对人脸特征库中的人物信息进行标签标注处理，在检索时支持人名和图片两种方式，凡是包含该人脸的素材都会出现在检索结果中[4]。若该人脸在敏感人物库中，会在检索结果中进行高亮提示。

在新媒体发布平台中，能够对入库的视频、图片进行敏感人物识别，增强新媒体发布内容的安全性。

4.4 智能标签服务的具体应用设计

非编系统、媒资系统均能通过智能媒体服务平台提供的其他智能识别引擎，基于对视频内容进行深度学习和理解，输出场景识别信息、OCR识别信息、地标信息等，智能生成多元素视频标签，用于视频的管理和检索应用。

在新媒体发布平台中，对新媒体内容库进行结构化处理，基于对视频的场景分类、人物识别、OCR文字识别、地标识别等分析，形成层次化的分类标签，支撑新媒体发布平台根据观看用户的爱好进行推荐。

4.5 媒体内容审核的具体应用设计

新媒体发布平台和媒资系统均能通过智能媒体服务平台提供的内容审核引擎，对上传的图片、视频进行内容安全检测，包括色情、低俗内容检测；涉恐涉政识别；Logo识别，对含有旗帜、台标、水印、商标的内容进行检测；垃圾广告识别，对含有广告信息的内容进行识别；不良场景识别，对涉及毒品、赌博、画中画的内容进行识别；风险人物识别，对敏感人物进行识别。对待发布内容进行安全审核，可以提升发布安全性。

4.6 藏汉互译的具体应用设计

文稿系统能够通过智能媒体服务平台提供的智能翻译引擎，实现汉语到藏语的翻译。首先，自动将视频的字幕或语音提取成文字，并按时间点分割成一段段的文字，形成列表；其次，将汉语文字结果列表，自动翻译成藏语列表，并包含人工的角色和标签信息，工作人员能够对照汉语文字，调整翻译的藏语结果。提供专有名词、短语片段、句子级的翻译纠正功能。在后期人工配音时，点击某段，能够自动跳转到视频的对应位置（可提前1秒或10帧），对视频重新进行藏语配音，并细调语音和视频对应的位置，提升藏语译制节目的生产效率。

5 结语

通过集成各种人工智能引擎技术，打造了甘孜州广播电视台的智能媒体服务中台，硬件资源由原有私有云提供，节省了投入。甘孜州原有业务系统的媒资、非编网、新媒体发布平台均能对接。智能媒体服务平台能够从人物、语音、场景、地标等多维度自动添加标签，支持快速检索，提升了各个业务系统的素材使用率。通过人工智能技术进行自动拆条、语音合成、藏汉翻译，使得台内节目生产的质量和效率得到显著提高，同时也节约了大量人力成本。通过内容智能审核服务，让内容中可能存在的黄、暴、恐安全隐患无处可藏，提高内容安全鉴别效率和准确度。未来，还将继续拓展智能媒体服务平台的人工智能能力，并在此基础上，赋能现有业务工具，创建更多用应用场景。