基于残差网络和OCR技术的人物敏感广告识别

2022-11-10 07:48杜佳

电子测试 2022年18期

杜佳

（深圳市标准技术研究院，广东深圳，518000）

0 引言

随着互联网的移动端的飞速发展，人类自农业社会、工业社会后逐渐步入信息社会，人们的数字习惯在很短的时间内发生了巨大的变化。拥有互联网宽带连接的家庭数量迅速增加，经常使用互联网的人数(即每周至少连接一次的人)也增加了。如今，孩子们经常上网，要么是为了娱乐，要么是为了学习。就像现实世界一样，互联网有很多不安全的地方，孩子们可能会接触到有害的内容。

随着互联网的普及，广告也随之成为人们生活中随处可见的信息输出源。大量的广告信息鱼龙混杂且难以监管，不少不法份子趁虚而入，披着广告的“外衣”传播不良信息，荼毒人民尤其是青少年的心灵，引起严重的后果。传统的广告内容监管主要是文本审查方面，以人工审查为主。目前广告内容监管范围主要是如新浪微博、贴吧等社区平台，以文本内容为主，有关监管部门通过投入大量的人力资源对各种社交平台的内容进行人工审核，在过去取得了一定得监管效果，但是费事费力费人。由于科学技术的发展，广告也逐渐摆脱了纯文字的范畴，内容丰富图片、视频广告逐渐进入国民的生活，让广告内容的监管更加困难。加上现在整个人类社会进入大数据时代，海量且多模态的广告信息人人工审核这一监管方法显得更加不适应当下社会。如何进行有效、高效、快速、精准的非文本广告内容审核成为不可避免需要解决的问题。

自2021年来，国家网信办、公安局、文化和旅游局、市场监管局联合开展“2021雷霆净网”网络生态治理专项行动，对互联网上的广告信息进行严格监管。为响应国家“净网行动”的号召，本实验提出了一种底层基于残差网络（ResNet）[1]的人脸检测识别方法和利用OCR（光学字符识别）技术获得图片中文本信息然后利用文本匹配的文本识别方法，图文结合对包含敏感人物的广告进行识别检测，达到广告监管的目的。

1 国内外研究现状

关于广告审核技术，国内外主要以文本审核为主。主要应用自动文本分类器进行审核工作。这些系统最初主要用于信息检索，后来用于信息过滤、文本分类、推荐系统、情感分析、文档摘要等。同样，这些技术也被应用于许多领域，如医学、工程、心理学、商业等。大多数文本分类过程可以分为以下五个阶段(a)数据采集和标签;(b)预处理;(c)特征提取或文本编码(d)降维(e)分类器训练(f)评价，不同的研究解决了这个领域中出现的不同问题。

2 图文监管流程图

本实验分别将图片广告分成图片信息和图片里蕴涵的文本信息两部分，先构建相关敏感人物人脸图片库，利用face_recognition库进行人脸识别，并和人脸数据库图片进行对比，识别图片中是否含有敏感人物；文本部分则采用基于百度paddle深度学习平台里的paddleocr库进行文字抽取，然后利用flashtext算法基于敏感人名字典进行高效匹配，判断图片中文字部分是否含有敏感人名，对广告图片进行图文结合的审核。具体的流程图如下。

3 人脸识别

3.1 残差网络（ResNet）

本实验采用的face_recognition库是基于由c++编写的dlib图像处理库，而其最底层实际是一个具有29个卷积层的 ResNet网络。ResNet（Residual Neural Network）是由微软提出的特殊CNN（卷积神经网络）结构，残差网络由多个残差块组成，结构简单便于优化，并且能够进一步加深神经网络来提高效果。其内部的残差块在输入输出直接加了一条直接通道，即输入直接加到输出上，可以减缓在神经网络中，随着训练的网络深度逐渐加深，可能会出现的vanishing gradient问题，使得在训练更深更大的神经网络的同时还能保持良好的性能。残差块的模型结构图如下。

图1 图文监管流程图

图2 残差块的模型结构图

3.2 敏感人物人脸图库建立

Scrapy是一个基于python的网页爬取和网页爬取框架[2]，可以用来爬取网站本身，也可以从页面内容里抽取出所需要的相应数据。它用法多样，可扩展性很强，能做最基本的数据挖掘工作，也能做自动化层面的数据监控和测试工作。而且Scrapy是一个网页爬取的框架，可以根据具体需求方便的修改，具有较高的易用性和高效性。

本实验利用scrapy网络爬虫技术从公开的百度图库数据集上爬取目标敏感人物的人脸照，按人名保存至相应的文件夹，构建敏感人物人脸图数据库。

3.3 基于dlib的人脸识别

3.3.1 人脸检测

人脸识别的首要任务是人脸检测，这是一种特殊的物体检测技术，是一个非常重要的过程，简而言之是从数字图像或者视频中检测到人脸正面的计算机视觉技术。本实验采用的face_recognition库通过对鼻子和上嘴唇进行面部地标检测，根据面部中心店标志鼻子来检测正面人脸。

3.3.2 人脸对齐

Face_recognition库是对由c++编写的计算机图像处理库dlib，Dlib的核心组件包括线性代数组件（BLAS）和机器学习工具组件两部分。前者是从数学的角度出发解决线性代数问题，后者主要用于基于Bayesian network的分类、聚类、排序等算法的实现。

线性代数组件基于Veldhuizen和Ponnambalam(1996)在Blitz++数值软件中陈述的模板表达式技术。与BLAS一起使用的Dlib可以获得作为优化库的代码的性能和速度。Dlib调用线性代数组件里的库转换用户输入的表达式，从而使用户能以最直接简单的的形式编写等式，而将软件优化的细节留给库本身来操作。

机器学习组件的主要目标是为机器学习的相关算法提供简单和高模块化的体系结构。Dlib的限制较少，输入只需要结构化数据，无论是正常的图像还是一个向量都可以实现功能。Dlib所处理的数据和它背后封装的算法几乎没有关联性，这样就可以保证dlib可以灵活的操作对象，和一些只能处理固定长度的算法相比，dlib更加实用，可操作性也更强。

3.3.3 面部剪裁

人脸裁剪是使神经网络只学习人脸图像的特征的过程。人脸裁剪的优点是根据人脸的距离以可变的分辨率切割人脸。如果正面的距离高，则一般采用分辨率为64×64；如果距离低，则96×96将是更合适的分辨率。

3.3.4 特征提取

人脸图像特征提取是人脸识别中最关键的任务，卷积神经算法提取的特征是深度学习的一种变体[3]。在目前的计算机视觉领域，无论是目标检测、模式识别还是其下游任务人脸识别，基于深度学习的特征抽取方法效果一直是最好的，而在图像中CNN（卷积神经网络）是应用最广泛的。卷积神经网络使用三个主要的手段来抽取面部图像的特征:局部接受域、权重共享和池化。Dlib利用含有29个卷积层的残差网络对面部图像特征进行抽取，从而达到人脸识别的效果。

4 文本抽取审核技术

4.1 光学字符识别（OCR）技术

OCR是指对于利用打印机等外接设备打印在纸上的字词内容[4]，通过检测每一个像素的三通道颜色情况来确定字词的外框形状，然后通过这种亮暗模式将形状转换为机器可以理解的字符的过程，以便计算机可以直接编辑文字部分完成后续的下游任务。

4.2 飞浆 paddleocr

本实验采用基于百度的开源平台飞浆paddlepaddle里的paddleocr包，采用PP-OCRv2[5]算法进行ocr文字抽取工作。该算法主要有五个特点。

采用CML协同互学习知识蒸馏策略。在CML中，两个子学生模型使用DML方法互相学习。同时，还有一种教师模式来指导两种学生模式的学习。教师模型以ResNet18为骨干，学生模型以规模为0.5的MobinenetV3大模型为骨干。CML旨在优化子学生模型。冻结教师模型的参数，只对子学生模型进行设计损失训练。一般情况下，子学生模型的监督信息包括ground truth标签、另一个学生模型的后验熵和教师模型的输出三部分。

利用CopyPaste数据增强。它可以合成新的具体文本图像数据来自动对训练数据中的正负数据比例进行一定程度上的平衡，这是传统的图像增强技术如改变色偏、随机取像素点等做不到的。由于前台的所有文本都是独立的，CopyPaste粘贴文本时不会在随机选择的背景图像上重叠。

提出了一个轻量级的CPU神经网络。该神经网络是一种基CPU的轻量级骨干网络，在启用mkldnn的情况下提供了更快、更准确的OCR识别算法。主要改进包括提供了更好的激活函数、将SE模块放到合适的位置、更大的卷积核和GAP后更多维度的1×1卷积层。

提出了深度相互学习(U-DML)方法。这是一种两个学生网络相互学习的方法，不需要一个更大的具有预先训练权重的teacher网络来进行知识蒸馏。在DML中，对于图像任务，损失函数包含两个部分:(1)student网络和groundtruth之间的损失函数。(2)student网络输出标签中的kl散度损失函数。

改进增强的CTC loss。对了解决汉语识别中大量的相似字符的混淆问题，它结合了原始的CTCLoss和度量学习中的CenterLoss的思想。并对其进行了改进，使其适合于序列识别任务。

4.3 基于flashtext的字典匹配

Flashtext是一种基于前缀树字典和AC自动机算法。它首先整合所有关键词，把他们一起作为输入，通过这些关键字建立一个非压缩前缀树字典，构造有限状态模式匹配机，然后就可以将文本字符串输入模式匹配机进行匹配。基于flashtext的关键词匹配方法相较于正则表达式匹配，其优点在于速度更快、性能更高，flashtext的查找速度是正则表达式的近80倍左右。

5 结论和展望

本文对当前网络环境下的图片广告监管工作，创新性的提出了基于人脸识别和基于OCR文字抽取技术的图文信息结合的人物敏感广告审核系统。通过构建敏感人物的人脸库和人名库进行对比识别，具有较高的效率、较高的准确率和较强的可扩展性。同时经过知识蒸馏、压缩后的模型拥有更小的体量，在实际应用部署中更加简单，对硬件设备要求低，甚至在移动端也能支撑该审核系统。

面对复杂的网络广告信息和飞速发展的广告形式，我们应该时刻保持警惕，学习最先进的技术来对不同模态的广告审核，甚至做到多模态融合审核监管，严守互联网底线，响应国家“净网行动”维护积极向上、充满正能量的网络空间。