刍议基于人工智能的图像处理技术

2023-08-09 06:39周媛媛

计算机应用文摘·触控 2023年15期

摘要：文章对基于人工智能的图像处理技术中多任务卷积神经网络的实现原理、应用场景进行了介绍，旨在为从业者提供一定的参考，以及为行业外感兴趣之人提供一定的科普知识。

关键词：人工智能：图像处理：多任务卷积神经网络

中图法分类号：TP391文献标识码：A

基于人工智能的图像处理主要进行“数字图像处理”，即通过编制计算机程序控制算法，在原始数字图像中定向执行某些功能作业。在图像处理的过程中，可以从数字图像中完成基本信息的提取。在现代生活中，大众已经习以为常的“相机美颜” 功能、电影《流浪地球２》中令刘德华、吴京等人饰演的角色“年轻化”的方法均应用了人工智能图像技术。总体而言，对此技术的实现原理及应用展开分析具有重要意义。

１基于人工智能的图像视觉处理技术原理

当前应用较为广泛的图像处理技术以多任务卷积神经网络（Ｍｕｌｔｉ?ＴａｓｋＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ，ＭＴＣＮＮ）为代表［１］。此项技术的核心原理是，能够将“人脸区域检测” 以及“人脸关键点检测” 融合于一体，形成类似ｃａｓｃａｄｅ的主题框架［２］。ＭＴＣＮＮ网络一般分成Ｐ，Ｒ，Ｏ三层?ＮＥＴ网络结构。在上述三个级联网络形成图像检测跟踪模型之后，进一步添加“候选框＋分类器”处理机制，能够自动捕捉人脸图像并进行检测。上述三个级联网络各自具有的功能是：Ｐ?ＮＥＴ具有“快速生成候选窗口”功能；Ｒ?ＮＥＴ具有“基于高精度候选窗口过滤选择”的功能；Ｏ?ＮＥＴ具有“生成最终边界框与人脸关键点”的功能［３］。

２基于人工智能的图像视觉处理技术的应用历程

ＭＴＣＮＮ网络模型在人脸识别领域的应用范围最广，处理人脸图像信息的过程如下。

（１）图像金字塔的构建。首先，在处理一张人脸图像之前，需要对图片进行缩放，但缩放的程度并不固定［４］。如图１所示，右侧的效果便是“图像金字塔”。这一过程在计算机图像处理软件中的实现方法为设定缩放系数ｆａｃｔｏｒ。经过对不同人脸图像的反复试验，研究人员得出一个结论，将ｆａｃｔｏｒ取值设定为０．７０９，取得的缩放效果最佳。于是“ｆａｃｔｏｒ＝０．７０９”被编入控制程序中。图１右侧的“金字塔”型人脸图像的“金字塔具体分层” 取决于人脸图像的原始大小———“ｆａｃｔｏｒ＝０．７０９”实际上是缩小比例，将原始图像的长度、宽度均乘以这一系数，一直到长度、宽度低于某个特定值（不同处理软件有不同的标准，同样可以自行设定）便停止。经过几轮的“缩放”，图像的“金字塔层级”便是多少。基于上述原理对某人脸图片进行处理，核心处理程序如下。

ｄｅｆｃａｌｃｕｌａｔｅＳｃａｌｅｓ（ｉｍｇ）：

ｃｏｐｙ＿ｉｍｇ＝ｉｍｇ．ｃｏｐｙ（）

ｐｒ＿ｓｃａｌｅ＝１．０

ｈ，ｗ，＿＝ｃｏｐｙ＿ｉｍｇ．ｓｈａｐｅ

ｉｆｍｉｎ（ｗ，ｈ）＞５００：

ｐｒ＿ｓｃａｌｅ＝５００．０／ｍｉｎ（ｈ，ｗ）

ｗ＝ｉｎｔ（ｗ?ｐｒ＿ｓｃａｌｅ）

ｈ＝ｉｎｔ（ｈ?ｐｒ＿ｓｃａｌｅ）

ｅｌｉｆｍａｘ（ｗ，ｈ）＜５００：

ｐｒ＿ｓｃａｌｅ＝５００．０／ｍａｘ（ｈ，ｗ）

ｗ＝ｉｎｔ（ｗ?ｐｒ＿ｓｃａｌｅ）

ｈ＝ｉｎｔ（ｈ?ｐｒ＿ｓｃａｌｅ）

ｓｃａｌｅｓ＝［］

ｆａｃｔｏｒ＝０．７０９

ｆａｃｔｏｒ＿ｃｏｕｎｔ＝０

ｍｉｎｌ＝ｍｉｎ（ｈ，ｗ）

ｗｈｉｌｅｍｉｎｌ＞＝１２：

ｓｃａｌｅｓ．ａｐｐｅｎｄ（ｐｒ＿ｓｃａｌｅ?ｐｏｗ（ｆａｃｔｏｒ，

ｆａｃｔｏｒ＿ｃｏｕｎｔ））

ｍｉｎｌ ?＝ｆａｃｔｏｒ

ｆａｃｔｏｒ＿ｃｏｕｎｔ＋＝１

ｒｅｔｕｒｎｓｃａｌｅｓ

按照上述程序对图片进行比例缩放，其中存在２个数据，分别是“５００”和“１２”。前者指利用处理软件处理图片前，可通过人工方式对图片的长度、宽度进行调整，使其高于５００，否则软件处理的图片过小，信息提取容易失真［５］。后者指经过多轮次自动缩放，当图片的长度、宽度达到１２时，缩放即可停止。

（２）基于Ｐ?ＮＥＴ（ＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）的网络层。经过步骤（１）的缩放处理，在“人脸金字塔”图像中形成一个“全卷积网络”。这一过程的主要作用是通过全卷积网络，对图片中的重要区域———人脸所在位置进行“边框标定”，之后初步提取人脸特征，完成上述作业，还可进行窗口调整及大部分窗口过滤作业。需要注意，在该阶段，Ｐ?ＮＥＴ存在２个“输出”，应用层的核心控制程序是：

ｃｌａｓｓｉｆｉｅｒ＝Ｃｏｎｖ２Ｄ（２，（１，１），ａｃｔｉｖａｔｉｏｎ＝＇ｓｏｆｔｍａｘ＇，ｎａｍｅ＝＇ｃｏｎｖ４?１＇）（ｘ）

设置ｃｌａｓｓｉｆｉｅｒ指令的作用是，对网格点上框的可信度进行判断。在该条控制程序之下，还需编制：

ｂｂｏｘ＿ｒｅｇｒｅｓｓ＝Ｃｏｎｖ２Ｄ（４，（１，１），ｎａｍｅ＝＇ｃｏｎｖ４?２＇）（ｘ）

对这一条程序的深度理解是：虽然ｂｂｏｘ＿ｒｅｇｒｅｓｓ能够表示相框的位置，但这一位置是经过缩放后的图像中的人脸所在位置，并非原始真实位置。

（３）将ｂｂｏｘ＿ｒｅｇｒｅｓｓ映射到真實图像上，然后完成一次解码作业。在编制控制程序时，上述“映射＋解码”过程的实现需要调用函数库中的ｄｅｔｃｔ＿ｆａｃｅ＿１２ｎｅｔ函数［６］。具体的程序是：

ｄｅｆｄｅｔｅｃｔ＿ｆａｃｅ＿１２ｎｅｔ（ｃｌｓ＿ｐｒｏｂ，ｒｏｉ，ｏｕｔ＿ｓｉｄｅ，

ｓｃａｌｅ，ｗｉｄｔｈ，ｈｅｉｇｈｔ，ｔｈｒｅｓｈｏｌｄ）：

＃０，１表示维度的翻转

ｃｌｓ＿ｐｒｏｂ＝ｎｐ．ｓｗａｐａｘｅｓ（ｃｌｓ＿ｐｒｏｂ，０，１）

ｒｏｉ＝ｎｐ．ｓｗａｐａｘｅｓ（ｒｏｉ，０，２）

ｓｔｒｉｄｅ＝０

＃ｓｔｒｉｄｅ略等于２，图片压缩比例（经过ｐ?ｎｅｔ导致的），（ｘ，ｙ）是有人脸概率大于ｔｈｒｅｓｈｏｌｄ的点

ｉｆｏｕｔ＿ｓｉｄｅ！＝１：

ｓｔｒｉｄｅ＝ｆｌｏａｔ（２?ｏｕｔ＿ｓｉｄｅ?１）／（ｏｕｔ＿ｓｉｄｅ?１）

（ｘ，ｙ）＝ｎｐ．ｗｈｅｒｅ（ｃｌｓ＿ｐｒｏｂ＞＝ｔｈｒｅｓｈｏｌｄ）

ｂｏｕｎｄｉｎｇｂｏｘ＝ｎｐ．ａｒｒａｙ（［ｘ，ｙ］）．Ｔ上述程序对应的解析内容是：针对经过缩放及Ｐ?ＮＥＴ处理后的图片，找到其对应原图的位置，反向复盘“Ｐ?ＮＥＴ比例＋图像黄金比例”，最后完成映射。完成函数调用及编制程序控制语句后，需要解决的问题如下。

①ｂｂｏｘ＿ｒｅｇｒｅｓｓ映射到真实图像后，图片中会出现多个网格点。这些网格点的置信程度有高有低，需要从中筛选出具有高置信度的网格点［７］。具体的筛选原理是：围绕“置信程度” 设定一个“ 临界值”，超出该临界值，意味着该网格点内存在“人脸信息”；低于该临界值，表明该网格点内不存在人脸信息。为便于理解，笔者举一个更简单、更容易验证的例子。对很多图像处理初学者而言，Ｐｈｏｔｏｓｈｏｐ一般是所接触的第一个图片处理软件。在Ｐｈｏｔｏｓｈｏｐ软件中打开一张图片后，很多人都尝试过“前推鼠标滑轮，放大图片”的操作。之后看到的景象是，图片仿佛被切割成多个“小方格”。这些小方格的本质是“像素”———如果一张背景是白色的人脸图像，那么在一定深度色彩的像素区间内便“有图像内容信息”；依然保持白色的像素区间便“没有图像内容信息”。这里还需注意一个问题，即当前阶段的ＡＩ人工智能（可理解为具有多种处理功能的软件工具）依然停留在“类人化”的阶段，而非“完全具备人类大脑的思维能力”。之所以提出该问题，是因为软件控制程序的“思考判定逻辑”具有极强的“直观性”，并不懂得“转弯”。比如，在人工处理一张人脸图片时，如果背景是白色，图像中人的脖颈处出现了部分白色衬衫，那么其会将该“白色衬衫”所在的像素区域认定为“人脸的一部分”，在手动抠图时会将该区域与人脸区域作为一个整体提取。图像处理软件则不具备上述功能，在相关控制程序启动后，所有“白色像素区域”都会被认定为“该区域不存在人脸信息”，故会将该区域筛除［８］。基于此，所设定的“置信程度临界值”不能引起歧义，否则会导致人脸识别效果大幅度降低。

②对网格点所在的位置进行记录，即记录框架内的ｘ，ｙ轴信息。

③继续利用函数，完成图像中框的左上角基点、右下角基点之间的“像素差”。完成堆叠处理后，可以得到ｂｏｕｎｄｉｎｇｂｏｘ。在此基础上，可以利用ｂｂｏｘ＿ｒｅｇｒｅｓｓ完成对解码结果的计算，对应的程序为：ｂｏｕｎｄｉｎｇｂｏｘ＝ｂｏｕｎｄｉｎｇｂｏｘ＋ｏｆｆｓｅｔ１２．０ｓｃａｌｅ

（４）Ｒ?ＮＥＴ层（ＲｅｆｉｎｅＮｅｔｗｏｒｋ）处理。这一层同样需要构造一个“卷积神经网络”［９］。与Ｐ?ＮＥＴ层相比，该层多出一个“圈层连接”功能。这样设置的目的是，以更加严格的标准，对图像相关信息及输入数据进行筛选。具体来说，当图片进入Ｐ?ＮＥＴ层时，很多用于“预测”的窗口会被留下。通过编制控制算法，将这些预测窗口送入Ｒ?ＮＥＴ层，接受深度筛选。由于卷积神经网络的存在，大量效果较差的候选框会在该环节被筛除，最后剩下的候选框均具有较为清晰的效果，之后会被送入Ｂｏｕｎｄｉｎｇ?ＢｏｘＲｅｇｒｅｓｓｉｏｎ，以完成深度优化预测。总体而言，Ｒ?ＮＥＴ层在使用最后一个卷积层后，还会对规模达到１２８的全连接层进行充分利用，以实现“保留更多图像特征”的目标。基于此，Ｒ?ＮＥＴ处理层的性能、对图像信息处理的精确度均优于Ｐ?ＮＥＴ层。

（５）Ｏ?ＮＥＴ层（ＯｕｔｐｕｔＮｅｔｗｏｒｋ）处理。该层的基本结构是一个复杂程度更高的卷积神经网络，比Ｒ?ＮＥＴ层多一个卷积层［１０］。从某种程度上来看，相较于Ｒ?ＮＥＴ层，Ｏ?ＮＥＴ层的主要功能更接近“辅助回归”功能———可对图像中的人脸面部区域进行更具侧重性的识别，之后对图像中能够体现出人脸面部特征的点位进行“回归处理”。完成相关作业之后，在图片中，筛选出一定数量的人脸面部信息对应的多个面部特征点（可进行设置，按照特征代表性由高到低分布），之后完成输出。完成上述处理后，还需对ＮＭＳ结果进行验证处理，最终生成人脸识别信息。一张图片中存在多个人，依次完成人脸信息的缩放、筛选、提取，可自动完成识别检测，效率极高。

３结束语

人工智能的本质是“程序控制”，是指人类编制出具有“定向控制、定向作业”功能的程序算法，在“跑程序”的过程中，将其对特定对象信息进行识别、捕捉、分析、处理，最终给出人们希望看到的结果。相关“处理”流程最初由人工完成，但随着计算机计算能力的提升，人类大脑的计算速度已经远远低于计算机，人工处理过程还容易受到诸多因素的干扰，最终处理效果远远无法达到人们的要求。在这种情况下，人工智能技术应运而生，极大地提高了运算处理效率。总之，相信在不久的未来，更多令人惊叹的人工智能图像处理技术会在各行各业得到应用，从而使人类世界更加“多姿多彩”。

参考文献：

［１］李峰泉．人工智能的皮革自适应视觉图像处理切割技术研究［Ｊ］．中国皮革，２０２２，５１（９）：４４?４８．

［２］曾光华，肖洋．人工智能算法在图像处理中的应用见解［Ｊ］．电子元器件与信息技术，２０２２，６（７）：９７?１００．

［３］宋朝晖．人工智能算法在图像处理中的应用探讨［Ｃ］／／２０２２年第五届智慧教育与人工智能发展国际学术会议论文集，２０２２：２７８?２７９．

［４］何映彤．人工智能技术下图像处理教学的应用研究［Ｊ］．科学咨询（教育科研），２０２２（６）：１２４?１２６．

［５］刘云川，韩梦瑶，王浩全，等．人工智能算法在图像处理中的应用分析［Ｊ］．电子世界，２０２１（１６）：６７?６８．

［６］刘磊，袁林德，王紫宁，等．基于人工智能算法的敦煌舞图像处理技术［Ｊ］．软件，２０２１，４２（８）：３９?４１．

［７］邓晨曦，蒋一锄．人工智能算法在图像处理中的应用探讨［Ｊ］．中国新通信，２０２０，２２（１８）：９８?９９．

［８］张超．人工智能图像处理的边缘计算硬件优化［Ｄ］．哈尔滨：哈尔滨工业大学，２０２０．

［９］梁斌．试论人工智能算法在图像处理中的应用［Ｊ］．数码世界，２０１８（９）：２２０．

［１０］張薇．人工智能算法在图像处理中的应用［Ｊ］．通讯世界，２０１８（４）：６３?６４．

作者简介：

周媛媛（１９８８—），硕士，实验师，研究方向：教育信息化、图像识别技术、数据可视化。