基于多视图医学图像处理的COVlD-19诊断算法及应用研究

2022-11-10 07:48乔国泰李景赫范文研向宇戈李康申炜豪魏丽娟
电子测试 2022年18期
关键词:特征选择视图样本

乔国泰,李景赫,范文研,向宇戈,李康,申炜豪,魏丽娟

(西南科技大学国防科技学院,四川绵阳,621010)

1 研究背景及意义

尽管目前改进的CNN在以往医学图像处理中耗时、大量的冗余计算、难以选择合适的像素块大小、选择相似像素块进行网络训练时造成干扰等问题上有较大改进,但由于COVID-19属于突发性公共卫生事件,对于COVID-19病灶区域的检测,数据样本明显不如自然图像样本丰富,高质量的像素级标注数据更加稀少,并且医学影像与自然图像截然不同,所以基于自然图像的算法无法直接在肺炎图像上使用。加之COVID-19和非COVID-19肺炎具有很多重叠的特征,因此当前大多数算法准确率欠佳。而根据COVID-19医学影像上的特点以及和非COVID-19肺炎之间的异同,我们设计出的这套基于多视图医学图像处理COVID-19诊断算法,能够在拥有少量样本的情况下,有效从CT影像中检测出肺炎并且区分出COVID-19和非COVID-19肺炎,且对于提高诊断准确率、减轻医务人员工作量、提升检测效率以及减小主观误诊率等方面具有十分重要的意义,符合当前社会发展利益。

2 研究内容和拟解决的关键问题

2.1 研究内容

在医学图像分析和处理中,图像分割变得更加复杂和关键,医学图像分割就是将医学图像中的特定器官组织分割出来,通过研究并提取相关的特征。由于医学图像中不同结构之间的高度相似性和边界处的模糊性,目前为止还没有一种通用的分割方法能够对人体的器官进行分割。深度学习能够有效的解决上述问题,大多数深度学习模型对于像素的类别识别有一个较高的准确率,对于像素之间的联系欠缺考虑,最终直接导致分割效果不佳。因此本项目的研究内容如下:

2.1.1 研究基于多视图的半监督特征选择和聚类基本原理

现有的特征选择方法大多用于处理传统的单视图数据。多视图数据给传统的特征选择算法带来了挑战,应用传统的特征选择方法处理多视图数据有两个简单的策略是:(a)将多视图数据组合成单视图数据,再利用单视图特征选择方法处理;(b)对多视图数据的每个视图独立地执行传统的单视图特征选择。组合策略明显忽略了不同特征空间之间的差异,而分离策略却认为各视图之间相互独立。然而,不同视图之间是有内在关联的,因为它们描述相同的一组对象。本文研究的多视图特征选择方法通过探索不同视图之间的关系的同时对所有视图进行特征选择。

2.1.2 研究深度学习在医学图像分割中的应用

U-Net是FCN的变体,广泛应用于生物医学影像领域,尤其是语义分割。U-Net是一种典型的编码结构。编码器主要负责特征提取。它不仅可以使用U-Net等多组卷池,还可以将各种常见的特征提取网络放置在这些位置。解码器用于将编码器获得的特征恢复到原始分辨率。U-Net网的网络结构是对称的,主要包括下采样、上采样和跳转连接。U-Net避免了在高阶特征图上直接进行监督学习和损失计算,通过结合和融合不同尺度的低阶和高阶特征生成最终特征图,提高了模型的结果精度。

2.2 拟解决的关键问题

2.2.1 如何在有限容量样本情况下获取多视图数据特征

由于涉及到病人的隐私信息,故当前COVID-19的CT数据集信息较为单一且样本较少。此外由于COVID-19与普通肺炎有诸多相似之处,且样本标记是一个十分依赖专业能力且较为耗时的工作,因此其中有标记的样本较少,这对模型训练带来了不小的挑战。

2.2.2 如何剖析、利用多视图数据

高维多视图数据中可能包含有许多不相关的冗余信息,以及噪声、离群值等。因此需要选择一个合适方法探索视图之间的关系以及最大化的利用各视图样本的特征信息。

2.2.3 如何有效设计多视图数据识别COVlD-19和非COVlD-19肺炎的神经网络模型

图1 处理多视图数据的策略

当前COVID-19的公开数据集较少,像素级标注数据更加稀少。COVID-19和非COVID-19肺炎也具有较多重叠的特征。因此需要通过合适的方法设计一种能够有效利用多视图数据使得即能识别COVID-19也能和非COVID-19肺炎区分开的算法。

3 特色与主要创新点

3.1 特色

3.1.1 采用特征选择方法处理多视图数据

应用传统的特征选择方法处理多视图数据有两种简单的策略,其一是将多视图数据组合成单视图数据,再利用单视图特征选择方法处理;二是对多视图数据的每个视图独立地执行传统的单视图特征选择。虽然组合策略显然忽略了不同特征间的差异,但分离策略认为每个视图彼此独立。一般来说,多个视图可以相互补充。本文研究的多视图特征选择方法通过探索不同视图之间的关系的同时对所有视图进行特征选择。

3.1.2 构建基于CNN的深度学习模型

CNN是基于人工神经网络的一种改进。CNN的训练包括前向传播和反向传播算法,其中反向传播尤为重要。前向传播就是数字图像以矩阵的形式输入网络,经卷积层计算提取有效特征,并利用激活函数做非线性处理以增强网络的学习能力,当产生的特征图较大或参数量较多时可适当采用池化层进行下采样,最后通过全连接层进行映射输出预测的结果。反向传播算法是通过链式求导法则进行权重的更新。一个经典的卷积神经网络,包含有卷积层,池化层和全连接层。通过研究卷积神经网络的基本结构,可更好的用于构建医学分割领域的网络模型。

图2 CNN卷积神经网络

3.2 主要创新点

3.2.1 针对医学图像分割问题,采用深度学习中的U-Net网络

U-Net网络的每个卷积层得到的特征图都会拼接到对应的上采样层,从而让网络能够有效的利用浅层特征和深层特征。U-Net避免了直接在高级特征图进行监督学习和损失计算,而是在将低级和高级特征在不同尺度下拼接融合产生最终的特征图,提高模型的结果精确度。

3.2.2 针对分割标注的二维CT图像数量的有限性,创建COVlD-19分割网络

分割标注的二维CT图像数量非常有限,而手动分割肺部感染区域是一项困难且费时的工作。为解决此问题,本文使用半监督学习策略来改进分割网络,利用大量未标记的CT图像来有效地扩充训练数据。在训练之前,统一将所有输入图像的大小缩放至统一大小,然后使用多尺度训练策略来训练分割网络,从而提高了模型的泛化性能。

3.2.3 针对多视图数据的获取,提出多视图数据特征选择策略

多视图特征选择通过探索不同视图之间的关系同时在多个视图数据上学习,且可以在异构的特征空间中选择特征。在多视图的半监督学习中,一方面数据有多个视图,另一方面数据集由标签和未标签数据集组成。多视图半监督学习要考虑如何利用多个视图蕴含的信息和标签数据以及未标签数据蕴含的信息,然而,数据集中大部分数据的标签难以获取,所以本项目利用伪标签来探索不同视图之间的关系。

4 拟采取的研究方法、技术路线或研究方案

4.1 技术路线

本文围绕研究内容和目标以多视图学习为基础,挖掘COVID-19数据中的一致性信息和特异性信息,利用深度学习网络完成COVID-19感染区域的分割以及诊断。具体的研究路线和研究方法如下。

图3 研究路线

4.2 研究方案

针对此问题,我们制定了以下研究方案:

图4 研究方案

4.2.1 制作多视图数据集

根据现有COVID-19数据集,从图像尺度、纹理、边缘、局部二值模式、尺度不变特征转换、方向梯度直方图等方向制作COVID-19的多视图数据集。

4.2.2 研究多视图数据特征选择策略

多视图特征选择可以在异构的特征空间中选择特征,而单视图特征选择只能从同构的特征空间中选取特征。在多视图的半监督学习中,一方面数据有多个视图,即x={x(1),…x(k)},另一方面数据集由标签(XL,YL)={(x1,y1),,…,(xl,yl)}和未标签数据集XU={xl+1,…,xl+u}组成。假设数据集(X,YL),其中n为样本数,xdi∈R是由k个视图组成的d维特征空间,其中第v视图X(v)有dv个特征是标签数据集XL的类别信息,c为类别数。多视图半监督学习应考虑如何利用多个视图蕴含的信息和标签数据以及未标签数据蕴含的信息。

现有的多视图学习大多假设所有的视图共享标签信息,然而,数据集X中大部分数据的标签难以获取,所以本设计利用伪标签来探索不同视图之间的关系,这里假设伪标签为Z=[z1,z2,...,zn]T∈Rn×c,若xi属于第j类,则Z(i,j)=1;否则Z(i,j)=0。因此Z满足条件:Z(i,:)∈{0,1}n,Z(i,:)0=1,∀i,1,1≤i≤n。另外,已标签数据XL对应的伪标签Z(1:l,:)应尽量与已知的标签信息YL一致;而且同一类别中的样本点因相似,则对每一个视图数据的限制条件可被描述为如下优化问题。

猜你喜欢
特征选择视图样本
规划·样本
Y—20重型运输机多视图
SA2型76毫米车载高炮多视图
《投影与视图》单元测试题
随机微分方程的样本Lyapunov二次型估计
基于智能优化算法选择特征的网络入侵检测
故障诊断中的数据建模与特征选择
reliefF算法在数据发布隐私保护中的应用研究
一种多特征融合的中文微博评价对象提取方法
Django 框架中通用类视图的用法