基于深度学习的视频语音提取文本系统设计与实现

2021-12-27 08:12彭长岭

电子乐园·中旬刊 2021年3期

彭长岭

摘要：伴随人类社会步入信息化时代，多媒体技术在网络教学当中应用范围愈加广泛，并且，在新冠疫情时期，网络教学自身优势得到充分发挥，但是，现阶段市面上的线上视频编辑平台功能单一，且效率不高。基于此，本文将主要以深度学习为基础，针对视频语音提取文本系统的设计与实现展开探讨。

关键词：深度学习;音频语音;文本提取

引言：语音识别技术在过去的几十年中取得了一定的发展，目前，大部分语音识别是基于在线云服务平台和电子计算机，嵌入式终端设备采用的离线语音识别技术并不完善，不能满足移动机器人、声控机械设备等在离线终端设备语音识别要求。

1研究背景

在线远程教育市场持续发展，该领域的教育平台百花齐放，但大多缺乏竞争优势，传统视频解决方案服务平台功能单一，效率较低，用户实际操作复杂，在激烈的市场竞争中，视频语音采集和语音识别功能的开发设计，完成快速的文字转换，提高课堂教学视频的质量，无疑将占据有利的地位[1]。功能齐全、操作简单的视频、视频、语音采集，不仅能以高视频质量吸引学生，也能以优秀的用户体验吸引教师，本系统的开发设计，必将推动互联网科技教育云平台的快速发展。音视频语音采集文字系统软件的首要目标是准确编辑教师教学课堂视频、视频和语音。系统软件智能分为网页和网站后台管理。智能管理系统，网页向教师展示视频仓库控制模块、视频剪辑控制模块、视频编辑控制模块、语音识别技术控制模块、审理控制模块、个人中心控制模块的功能。

2系统总体架构

系统主要由麦克风、音频编解码集成ic、嵌入式CPU、PC四部分组成，麦克风采用MP34DTO1TR规格的MEMS数据麦克风，完成视频和语音信号的记录和采集，输出PDM文件格式的视频信号数据信号;音频编解码集成ic采用WM8994EC超功耗低质保码解码集成ic，用于接收麦克风输出的视频信号数据信号，解压后将数据信号编号输出到嵌入式CPU;嵌入式CPU采用STM32F746NGH6规格的嵌入式MCU，根据集成ic的SAI插座与音频解码集成ic连接完成对输入的音频数据信息的识别，并将识别结果输出到串口端口通讯;由于嵌入式服务平台资源相对有限，无法满足基于深度神经网络的声学材料模型练习的要求，因此使用PC来完成声学材料模型的练习[2]。

3语音功能实现及算法分析

3.1语音识别实现

在语音识别方面，从动态时间整洁模型，到混合高斯函数-隐马尔可夫模型，再到使用机器学习的端到端语音识别模型，最终百度搜索开源系统的PaddlePaddle架构被选中，在DeepSpeech2的基础上开发，选用端到端语音识别技术，应用CTC损失函数，采用双层CNN、RNN深度神经元网络模型进行训练。与传统的DNN/HMM语音识别相比，有很大的命中率和效率提升[3]。一、svm算法：将视频和语音数据库查询中的音频特征提取为电子计算机可以识别的空间矢量数据信息，是进行验尸神经元网络练习的基础，在获取特征时，有两个常用的状态参数作为获取模板的关键，即线性预测分析指数（LPCC）和梅尔倒谱指数（MFCC），LPCC的主要概念是通过多个历史时间和时间信号的线性组合，可以使当前时间数据信号成为可能。MFCC是源自人类听觉系统研究扩声功能，它采用同态求解的方法得到音频数据信号的离散变量傅立叶变换的对数，然后逆变换得到倒谱指数，与MFCC相比，LPCC的完成更容易，响应速度也快，同时，也会对特征解析的信息进行指标值归一化、预处理等实际操作。其次，声学材料模型：一个好的优化算法模型可以逼近基础理论的极限，团队对语音识别的技术性进行了调研，选取了学术界时尚的识别框架和新颖的工艺，并结合具体的业务流程，改变了训练集，完成了课堂教学视频的语音识别系统。

3.2声学模型训练与移植

声学材料模型练习使用Google语音命令数据集作为训练集，应用Tensorflow架构中标准化的交叉熵损失和adam优化器进行练习。大batch size为100，模型更新20000次迭代，原始学习率为5×10-，前10000次迭代后降为10-4。运动数据信息改善环境噪声和任意时移可达100ms，以模拟复杂的环境，提高操作系统的可扩展性[4]。使用ARM开发设计的深度神经网络库amnn创建DS-CNN神经网络架构，将声学材料模型练习得到的各种模型的主要参数键入结构的相应部分。之后创建新的嵌入式项目时，可以移植已经进入声学材料模型主要参数的DS-CNN神经元网络，就可以移植声学材料模型。

4系统设计与实现

4.1后台管理系统

（1）登录模块：后台管理人员输入账号和登录密码完成信息的实际操作。（2）首页模块：在该模块中，还可以对网站系统日志进行查询和管理，并根据浏览量、用户总数、用户在线时间、收入、信息、订单信息等信息进行查询和管理等根据比率图、直方图、折线统计图进行数据可视化，简单明了，提高了管理员对信息的理解。（3）管理信息系统模块：管理信息系统分为用户管理方式和人员角色管理方式，审批用户资料，维护服务平台一般用户和VIP会员用户的资料信息内容。（4）视频存储管理模块：该模块分为三个模块：视频文档管理、用户视频个人收藏、用户变更历史时间管理。能够管理用户的各种类型的视频。（5）语音识别管理模块：网站管理员对用户的声音模型进行管理，保证用户可以在网络平台上选择声音模型完成语音识别。最后，课程内容视频基本不变，提高了学生的课堂体验。（7）审理管理：用户审理信息的管理。

4.2用户Web端

（1）新增用户注册控制模块：门户服务于教师和客户。简单的大数据可视化方式，可以轻松唤起最复杂的操作流程，为用户带来简单合理的管理员账户操作流程管理方法。（2）视频库控制模块：视频库控制模块给出了视频文件格式管理方法功能。客户还可以进行提交、一键下载、删除视频文件格式等操作。此外，控制模块还产生采集、访问、分类等功能。其他省时省力的功能。（3）进一步提升客户体验和工作效率。同时客户可以返回列表页面对所有切片进行监管操作流程，实现简单的xml分析和检查。（4）视频加载控制模块：视频加载控制模块是该方向的重要控制模块，可以将视频分片，获取文字提示和错误的音频集锦。不正确的音频更改包括两种方法：文本智能语音系统系统生成和音频替换。（5）语音识别技术控制模块：一般的文字转语音都有非常明显的机器设备视频和视频语音情况。为了更好更快地满足消费者的感受，新的语音识别技术的使用带来了多种智能语音系统软件实物模型供客户选择，从而达到更细致、更具体的更换实际效果[5]。（6）个人中控模块：客户还可以在个人中控模块中查看个人隐私信息的内容。如果遇到问题，可以通过帮助中心综合服务平台的助手了解问题。

结语：

本文明确提出了当今视频编辑服务平台、整体项目设计、实际语音识别建立方案中存在的一些难点问题，集成k8s和服务网格，完成云端省时省力部署，真正保证语音识别的准确性和效率，实时音文本转换，多种视频传输文件格式，一键切片省时省力，审理信息多元化呈现，用户数据信息形象可视化、服务平台助手正确引导提醒，用户应用方便高效等特点，最终将提升在线教学视频的质量，推动文教行业大数据、智能化、智能化系统的转型发展，以全步骤的数据信息聚合和整合，完成高效的数据共享。

参考文献

[1]姚錦江，程允权. 基于深度学习的视频检索系统设计与实现[J]. 计算机测量与控制， 2019， v.27;No.249（06）：237-241.

[2]许业宽，黄鲁. 基于深度学习的嵌入式离线语音识别系统设计[J]. 信息技术与网络安全， 2019， 38（04）：67-70.

[3]张千，王庆玮，张悦，等. 基于深度学习的文本特征提取研究综述[J]. 计算机技术与发展， 2019（12）：61-65.

[4]梁建胜，温贺平. 基于深度学习的视频关键帧提取与视频检索[J]. 控制工程， 2019， 026（005）：965-970.

[5]胡婕，陶宏才. 基于深度学习的领域问答系统的设计与实现[J]. 成都信息工程大学学报， 2019， 034（003）：232-237.