数字图像处理课程的一种自顶向下教学方法

2021-09-01 10:24向德辉
数字通信世界 2021年8期
关键词:数字图像图像处理卷积

向德辉

(苏州大学电子信息学院,江苏 苏州 215006)

0 引言

2012年,AlexNet在ImageNet大型图像识别挑战赛中精度了显著的精度提升,这是卷积神经网络在图像处理中取得的第一次巨大成功。后来,更多的网络模型比如Unet,VGGNet,GoogLeNet和ResNet相继被提出并进一步成功地应用于图像处理领域。人工智能技术的学习与研究成为热点,多媒体、互联网、医学、制造业和遥感等许多行业也因此正在发生着前所未有的变化,其中图像处理技术的蓬勃发展尤为突出。

数字图像处理是信息学领域的热门方向,也是电子信息、计算机、医学影像等多个专业的重要课程,并涉及多门学科领域包括数学、模式识别、计算机科学、物理学以及机器学习等。通过学习本课程,信息类专业的本科生不仅可以掌握图像处理的基本概念和原理,而且可以结合实验与应用体会到创新的乐趣。由于数字图像处理课程涉及了众多学科,内容多,交叉性强,技术更新速度快,理论晦涩难懂,实践要求高,学生在学习这门课程中容易产生厌学、弃学的情绪,因此,如何改进教学内容与教学模式,顺应新技术的发展,激发学生的学习兴趣,提高教学效率,是这门课程实践教学和研究中需要考虑的重要问题。本文旨在探讨和构建数字图像处理课程的教学模式,不仅重视课程的基础理论教学,而且也要增强大学生的工程实践与创新能力。

1 传统教学中的存在问题

传统教学中,教师一般按照教材中数字图像基础、图像增强、频率域滤波、图像复原与重构、图像分割等章节依次讲授知识点,重点介绍数字图像处理的数学理论、算法流程、实验演示以及验证。学生在课堂上主要学习理论与流程,在上机实验中主要使用Matlab验证算法的效果,在考试中主要以考察学生对简单理论知识点的掌握为主。采用这种传统教学模式,较难激发学生的学习兴趣,培养学生创新实践能力,主要体现在以下几个方面:

(1)内容陈旧。国内高校采用的教材普遍是冈萨雷斯版,虽然内容丰富,但是缺少相关技术(例如,人工智能等)的介绍,学生很难接触到科研的热点与动态,从而降低学习好奇心、主动性和积极性。

(2)知识点分散。各章节之间的相关性不大,每一章对应着图像处理领域一个重要研究方向,在传统的教学中,通常对每章知识点进行逐一讲解,从公式推导到算法流程,理论性较强,需要学生扎实的数学功底与算法设计的能力,容易让学生产生畏惧的心理。这让学生学习兴趣大大降低,同时,很难意识到知识点之间联系,导致学生很容易陷入“只见树木,不见森林”的境地。

(3)理论基础薄弱。每一章节都涉及大量复杂的数学理论,教学过程中很容易与矩阵、微积分、信号与系统等相关课程脱节,在考试中仅涉及简单理论知识点,使得学生的理论算法的基础与功底并不扎实,难以培养创新思维。

(4)实验教学薄弱。作为理论教学的辅助手段,大多仅安排了少量的实验学时,有不少学校也没有安排。然而,很多实验教学使用Matlab,以验证为目的,在实际应用过程中当遇到新问题时,很多学生很难根据相关的理论、算法与工程项目结合起来,导致学生缺乏实际问题分析能力与动手解决能力。

2 课程教学改革研究现状

张颖以兴趣为导向从教学内容、教学方式和考试方式三个角度提出了教学改革策略,酒明远指出应以图像处理的经典问题为切入点,结合人工智能进行教学方法改革,激发学生兴趣。陈章宝等人以单层感知机模型、多层神经网络到卷积神经网络案例介绍了深度学习的渐进式教学方法。王立等人也指出课程需要教学与机器学习有机融合,并介绍了卷积的拓展教学方法。刘东等人探讨人工智能视域下数字图像处理课程内容、教学方法到实验实施。李新利等人将理论讲解与程序演示、教师讲解与学生编程等方式结合,以便能够达到理论与实践紧密结合的目的。

3 一种自顶向下的教学模式

结合当前课程教学现状,本文提出一种自顶向下的教学模式,如图1所示。首先,以图像分类为出发点,通过卷积神经网络模型的搭建、训练与测试,让学生能够接触到科研的前沿,激发学生的学习兴趣。然后,针对卷积神经网络中的核心技术,讲解数字图像处理中卷积运算的工程实现及其扩展。最后,回归到卷积的数学本质,让学生与前期课程联系起来,从而重视理论基础,并意识到数学理论的重要性。

图1 一种自顶向下的教学模式

3.1 图像分类案例

在教学过程中,学习积极性和主动性的提高是教学成功的关键手段之一,也是大学培养创新型人才的基本保证。人工智能是当前的前沿研究,因此,将前沿研究融入教学内容之中,可以使得数字图像处理这门课程能够更好地与前沿知识接轨,吸收国内外最新的研究成果,提升课程教学内容的质量,让学生感受到与科研之间的零距离。因此,最新的研究热点应该适当地选择并加入教学内容,以跟上图像处理技术的发展。下面以MNIST数据集图像分类为讲解案例。

MNIST(Modified National Institute of Standards and Technology database,美国国家标准技术研究院的修改数据库)手写数字图像分类问题是图像处理和深度学习中使用大型的标准数据集。它是根据采集的不同人手写数字笔迹数字图像为研究人员提供图像处理算法训练与测试的开放数据,如图2所示,包含60000张训练图像和10000张测试图像。结合该数据库,可以讲解图像感知、图像取样与量化、像素等数字图像基础,以及彩色模型、伪彩色处理、彩色变换等彩色图像处理。

图2 MNIST数据集手写数字图像

针对上述图像分类问题,可以使用目前最流行的卷积神经网络,学习和练习如何开发人工智能技术。定义一个卷积神经网络模型,如图3所示:由卷积和池化层组成的图像特征提取器以及进行预测的分类器。

图3 MNIST卷积神经网络分类器模型

模型中图像特征提取器以卷积层为主。绿色第一卷积层接收了尺寸为28×28的1通道灰度图像,选择的卷积核大小为3×3,步长为1,输出通道设置为32个(将使用32个卷积核提取32个特征图)。以1的填充大小填充图像,以使输入和输出尺寸相同,因此,该层的输出尺寸为32×28×28。对第一层卷积输出应用RelU激活,然后是核大小为2且步长为2的最大池化层,将图像特征映射下采样为32×14×14的尺寸。第二卷积层接收了尺寸为32×14×14的特征图像,选择的卷积核大小为3×3,步长为1,输出通道设置为64个(提取64个特征图)。以1的填充大小填充图像,以使输入和输出尺寸相同,因此,该层的输出尺寸为64×14×14。对第二层卷积输出应用RelU激活,然后是核大小为2且步长为2的最大池化层,将图像特征映射下采样为64×7×7的尺寸。最后,使用两个全连接层。从而使输出尺寸与总分类类别数10匹配。教学中,可以在深度学习库pytorch、tensorFlow、caffe,实现、训练与测试卷积神经网络。在构建MNIST卷积神经网络分类器的同时,学生可以学习深度学习库的基本构建模块。这样将最前沿的生动实例和最新的编程练习方式融合在一起,形成了独特的学习体验。另外,通过图像分类这一任务介绍,可以推广到图像分割。

3.2 卷积的工程实现

离散卷积是卷积神经网络的核心操作之一,它是卷积神经网络能够在底层的图像特征到高层次的图像处理的基础。卷积神经网络中的卷积层提取图像局部区域的特征,不同的卷积核可以提取不同的图像特征。在数字图像处理中,卷积操作是利用卷积核(也称卷积模板)在图像上逐步滑动,将图像像素的灰度值与对应的卷积核上的数值相乘,将所有相乘后的值相加,作为卷积核中间像素对应的图像上像素的灰度值,从上到下、从左到右依次完成图像所有像素的滑动过程,如图4所示。在卷积的标准定义基础上,卷积神经网络中引入了卷积核的零填充和滑动步长来增加卷积的多样性,可以更灵活地进行特征提取。根据输入与输出尺寸,卷积可以分为窄卷积、宽卷积与等宽卷积。根据卷积与原始图像像素对应关系,除了标准的方式,还可以扩展为膨胀卷积、平铺卷积等形式。通过离散卷积运算的扩展,使学生对卷积的理解有了更加开阔的视野。

图4 离散卷积操作

在传统的图像处理教学过程中,离散卷积通常是空间域的图像增强内容,可以进行图像平滑与锐化的操作。卷积核中所有值都一样,则是均值滤波;如果值的分布按照高斯函数,那么高斯滤波,这些都可以用来对图像进行平滑去噪。卷积核若被定义为一阶微分算子(例如Sobel算子、Prewitt算子)、二阶微分算子(例如Laplacian算子、LOG算子)可以对图像锐化,同时也可以增强与检测图像的边缘,如图5中所示低阶特征;Canny算子为了降低噪声干扰,在用高斯滤波器平滑图像的基础之上,增加了非极大值抑制和双阈值提高边缘检测性能。

图5 手写数字图像的卷积后的特征

在卷积神经网络中,卷积则是作为特征提取的有效方法。图像或者图像特征在经过小窗口的代数加权运算,实现对图像局部特征的提取与抽象表示。通过滑动一个卷积核(即滤波器),卷积操作得到一组新的特征,使用的卷积核数目越多,提取到新特征的可能性越大。随着卷积层深度的提升,图像低阶的局部细小特征到高阶的抽象特征逐渐被网络提取到,如图5所示的低阶到高阶特征。将卷积加入神经网络模型,就可以将特征提取和识别联系起来完成识别任务。

3.3 卷积的理论基础

卷积是数学中一种重要的运算。对于一幅数字图像X∈R(M×N)和 一 个 卷 积 核W∈R(U×V),U<<M,V<<N,输入图像X和滤波器W的二维卷积定义为

式中,*表示二维卷积运算。离散卷积的输出像素计算方式为

式中,i,j是输出图像F索引;u,v是二维卷积核的索引。因此,在离散卷积的计算过程中,需要进行卷积核翻转。相似地,互相关输出像素计算方式为

在图像处理或者卷积神经网络中,一般用互相关来代替卷积,从而会减少一些不必要的运算。另外,对于卷积神经网络来说,卷积核的参数是根据优化算法调整,卷积核是否进行翻转与其特征提取的能力无关。

由于很多数字图像为一个二维结构,式(2)使用了两重求和,该式来自于数字信号处理中的一维离散卷积。对于离散线性时不变系统来说,系统的响应可以表示为如下的卷积:

式中,n是离散系统响应o索引;k是一维卷积核的索引;h是离散系统的冲激响应;s是输入离散信号。对于信号与系统中的线性时不变系统来说,一维连续信号的卷积运算定义为:

式中,t是连续系统响应o索引;τ是一维卷积核函数的积分变量;h是连续系统的冲激响应;s是输入连续信号。根据卷积的性质,两个信号在时域的卷积积分对应于频域中该信号傅里叶变换的乘积。对于数字图像处理来说,空域中根据卷积实现的图像平滑与锐化,在频域中,则对应于低通滤波、高通滤波、带通滤波、带阻滤波等。

4 结束语

在人工智能技术显著发展的背景下,本文分析了数字图像处理这门课程在教学中存在的问题以及面临的挑战。首先,结合当前科学研究的热点问题,以学生的兴趣为出发点,将图像处理与卷积神经网络紧密结合,课程内容既包含传统的图像处理内容,又包含了最新的图像处理方法。同时,学生可以了解到主流的卷积神经网络设计平台,也可以通过搭建自己的网络模型,提升动手能力。然后,通过卷积的工程实现,论述了卷积的实现及其扩展、卷积与滤波、特征提取之间的联系。最后,在数学理论层面将卷积运算与相关运算、数字信号处理、信号与系统、频域滤波联系起来,让学生意识到以前学习的知识与理论是当下课程的基础,技术的创新来源于理论的支撑。因此,结合最新技术与应用案例到数学基础的自顶向下的教学方式,既可以激发学生的兴趣,又可以让学生知其所以然,从而使学生能够适应新技术快速的发展,提高学生的综合实践能力与理论水平。

猜你喜欢
数字图像图像处理卷积
海战场侦察图像处理技术图谱及应用展望
人工智能辅助冠状动脉CTA图像处理和诊断的研究进展
数字图像水印技术综述
基于3D-Winograd的快速卷积算法设计及FPGA实现
卷积神经网络的分析与设计
基于ARM嵌入式的关于图像处理的交通信号灯识别
从滤波器理解卷积
机器学习在图像处理中的应用
基于傅里叶域卷积表示的目标跟踪算法
面向拼接与克隆篡改的数字图像内容取证系统设计