多模型投票的深度学习ECG分类方法设计与研究

2023-09-20 10:36李伟康邵海见
计算机仿真 2023年8期
关键词:分类器波形准确率

李伟康,邓 星,邵海见

(江苏科技大学计算机学院,江苏 镇江212100)

1 引言

心电信号是评价心脏是否健康的一项重要依据,它记录了心脏跳动周期所产生的电位变化[1,2]。根据世界卫生组织(WTO)统计数据显示[3],以2010年至2020年的十年数据为例,平均每年有1500万人死于心血管疾病,占全部非传染性疾病致死率的48%。心律失常是心血管疾病中最为常见的病症之一,长期心律失常通常会导致严重的心脏病,基于心律失常分类算法的计算机辅助医疗手段也随之出现。根据美国医疗仪器促进协会[4](AAMI,The Association for the Advancement of Medical Instrumentation)制定的标准[5,6],心拍可以被分为5大类:非异位(Normal beat)、室上性异位(Supraventricularectopic beats)、室性异位(Ventricularectopic beats)、融合心跳(Fusion beats)和未知心跳(Unknown beats)。准确快速地识别异常心律,对病人的诊断具有重要意义。

目前,心律识别常用方法包括传统机器学习分类算法和基于深度学习的分类算法。传统的机器学习通常先人工提取特征,然后将该特征作为最终分类器的输入并进行实验评估。Thomas[7]等利用小波包分解、小波包信息熵等特征提取方法,将RR间期三种特征作为输入,并使用随机森林算法对心电信号进行分类,达到了94.61% 的准确率。Li.H等[8]提出采用主成分分析法PCA以及独立成分分析来提取特征,并使用SVM进行分类,该方法的准确率为93.8%。其分类结果易受到人工提取的特征的影响,并且特征提取的步骤较为复杂。Acharya[9]等设计9层CNN实现心电信号自动分类,并采用小波变换对数据降噪,同时进行了数据扩充。最终分类准确率为94.03%。由于扩充数据直接从原始数据生成,增加了产生偏差结果的可能性。针对少样本的数据分类准确率偏低。D.Verma[10]将卷积神经网络与长短期记忆神经网络结合,利用复合的神经网络对ECG心电信号进行分类。该方法利用了心电波形的时序性:卷积神经网络提取空间特征,长短记忆网络挖掘其时间关联性。Sean S X[11]等利用3层DNN进行基于对齐心跳的特征提取和分类。在心拍分段阶段采用零填充和裁剪保证心拍大小相同;分类精度为94.7%。缺点:进行了心跳对齐,剪裁和扩充,操作复杂。Chu J[12]等首次提出用于多导联ECG信号的2D-CNN网络以提取交叉导联ECG特征。改进的多导联LSTM网络提取特征更方便。将CNN,LSTM提取的特征以及传统特征融合,并使用二进制PSO对特征区分。最终分类精度达到了96.6%。基于深度学习出色的特征提取能力,本文提出了一种多模型投票的深度学习ECG波形分类方法,集成四个全连接的弱分类器组成强分类器,并且对数据集进行平衡处理,然后利用加权投票机制来提高ECG心电波形的分类准确率。

2 多模型投票的深度学习ECG波形分类方法设计

2.1 多模型投票的深度学习ECG波形分类过程分析

如图1所示,本文提出的基于深度学习多模型投票机制的ECG波形分类具体步骤如下:①原始ECG心电波形预处理。首先对原始心电信号波形进行去噪处理,使用小波阈值去噪法,避免噪声对心电信号分类准确率的影响;然后对数据集进行平衡处理,数据增强有利于提高模型的鲁棒性。②多模型深度学习。将预处理完成的数据分别输入四个具有不同网络参数的深度神经网络,并得到不同的预测结果。③投票机制。计算出各分类器的权值,利用加权投票确定最终的分类结果。

图1 多模型深度学习投票机制的ECG分类算法

本文的主要结构如下:第一部分介绍了ECG心电信号分类的研究意义以及国内外研究现状,并提出了多模型投票的深度学习ECG波形分类方法。第二部分具体介绍了多模型投票的深度学习ECG波形分类方法的设计过程,包括数据预处理方法设计、多模型深度学习投票机制分析、多模型深度学习加权投票模型设计。第三部分为实验评估,使用本文方法得出ECG心电波形的分类结果,将本文方法与支持向量机、卷积神经网络、深度神经网络和长短期记忆网络进行对比,并分析了本文方法较上述方法的优势。

2.2 原始数据集去噪

在原始ECG信号中,往往夹杂着各种噪声,比如工频干扰、基线漂移等等[13]。噪声很大程度上影响着ECG信号分类结果的准确性,为了提高ECG信号的分类准确率,需要将原始数据进行滤波去噪处理。本文采取小波阈值去噪,包括3个部分:分解过程、阈值处理过程与重构过程。经小波分解后,选取一个合适的阈值,使用阈值函数对各层进行量化;最后用处理后的系数重构信号。采用阈值方法可以保留信号系数的同时,滤除大部分噪声系数。小波阈值去除ECG心电信号噪声的具体处理过程为:将含噪声的ECG心电信号在各尺度上进行小波分解,设定初始阈值,将幅值低于阈值的小波系数置为0,高于阈值的小波系数做相应的“收缩(shrinkage)”处理。最后将处理后获得的小波系数用逆小波变换进行重构,得到去噪后的信号。阈值函数选取软阈值函数

(1)

其中T为阈值,Wnew为处理后的小波系数。阈值T选择固定阈值

(2)

其中,N为信号的长度,图2中虚线为带噪声原始ECG信号,实线为小波阈值去噪后的波形,小波阈值去噪法较好地消除了噪声,并且完好地保留了ECG信号的有效成分。

图2 原始波形与去噪后的波形

部分数据去噪后的信噪比(SNR)和均方误差(MSE)如表1所示。

表1 小波阈值去噪结果评价

2.3 多模型深度学习投票机制方法分析

(3)

(4)

反向传播的过程本质上就是神经网络的最优化过程[15]。在激活函数中,使用最普遍的有 Sigmoid函数、Tanh函数、和ReLu函数,ReLu函数是一个非线性激活函数,相比Sigmoid函数与Tanh函数,它能够克服梯度消失的问题,加快训练速度。因此本文采用ReLu激活函数。

目前,集成学习中既可使用各种不同分类器进行集成,也可以使用同一种分类器进行集成,只是同种分类器之间的参数有所不同[16]。集成学习通过利用多个分类器之间的互补信息来减少单个分类器的误差,提高预测性能和分类精度。常用的集成学习方法有Boosting、决策树、随机森林、投票法和Bagging等等,其中,投票法最简单、最可靠,但由于简单投票法的集成过程只是结果的集成,输出单纯的分类决策,没有体现基分类器之前的性能差异。在投票法的基础上,有学者提出了加权投票;给分类性能高的基分类器赋予一个较高的权值,给分类性能低的赋予一个较低的权值。加权投票能使高性能基分类器的优势充分体现出来。本文采用不同网络参数的深度神经网络作为基分类器。

2.4 多模型深度学习加权投票模型设计

面对数据量大且特征不易分的ECG心电数据,使用深度学习算法无疑是最好的处理办法;深度学习算法不需要人工提取特征,直接输入完整的心电波形,这避免了人工提取的特征存在表征能力不足的问题。在基于深度学习的基础上,将加权投票法与之结合,能够最大程度地纠正单个深度神经网络的分类错误。首先,对各个基分类器进行初始化,输入心电信号并训练模型,然后得出各分类器的预测标签。再计算出所有基分类器的权重,把各分类器的预测准确率相加得到准确率之和,将分类器的准确率与准确率之和相比,得到单个基分类器的权重λi,其数学公式为式(5)(i表示分类器的个数,本文提出的方法利用了4个基分类器,所以i=1,2,3,4)

(5)

(6)

其中hi表示第i个基分类器在样本x上的输出。最后利用投票机制对这4个基分类器的预测结果进行投票表决,将得分最高的标签作为最终的分类结果。

具体的算法如下所示。

算法1:加权投票法

输入:D为心电数据集;n为弱分类器个数

输出:P(x)为预测结果

1)加载ECG心电数据集D,划分70%的训练集DT;30%的测试集Dt

2)fori=1ton

3)利用训练集DT训练得到基分类器hi(x)

4)由弱分类器hi(x)对测试集Dt中每个样本xm(m=1,2,3,…,t)的类别进行预测,得到预测值Pm(i)

5)计算每个基分类器的权值:

6)将基分类器hi(xm)的预测值Pm(i)乘以权值λi

3 实验分析设计与模型性能评估

3.1 数据集介绍

为了验证和比较模型的分类效果,本文采用MIT-BIH数据库[17]来验证。MIT-BIH心律失常数据库包含了48条ECG记录,每条记录长30min左右,采样频率为360Hz。每条ECG记录由两个导联组成,考虑到每条记录的导联并不相同,为了保持数据分布的一致性,本文仅利用Ⅱ导联和Ⅵ导联的40条记录。根据R峰的位置对ECG信号进行分割,取R点前后各80个采样点和R点本身的共161个采样点作为一个训练样本,最终从40条记录中提取共87550个样本,将26265个样本作为测试集,其余样本作为训练集。将心拍按AAMI标准划分为5类,5种类型的心拍的数量见表2。

表2 MIT-BIH数据集中5类心拍数量

3.2 数据集平衡处理

从表2可以看出,正常心跳的样本数量占据了82.8%,而室上性早搏和心室融合心跳的样本数量分别占了2.5%、0.7%;正常心跳样本数量是室上性早搏样本数量的33倍,是心室融合心跳样本数量的117倍。所以该数据集是非平衡数据集。非平衡数据集在模型训练的时候会产生过拟合现象,影响模型的精确度。所以本文对该数据集进行平衡处理,多数类进行下采样,少数类进行上采样,达到数据集平衡的效果,如表3所示。

表3 数据集平衡处理后的各类数量

对处理完成后的MIT-BIH数据集进行标准化处理,分为两个步骤:去均值的中心化和方差的规模化,即将所有数据的均值变为0,方差变为1。原始的MIT-BIH数据不服从正态分布,存在离散的点,模型在拟合的时候会被离散点影响,使模型性能下降。为了保证结果的可靠性,对原始MIT-BIH数据集进行标准化处理,有利于模型初始化、调整学习率、加速权重参数收敛,提高模型的性能。本文实验将MIT-BIH心电信号数据集的70%作为训练集,30%作为测试集。

3.3 实验结果分析与模型性能评价

将预处理好的数据分别输入四个结构精简的全连接神经网络中进行训练,通过集成融合的思想以及投票的策略对所有模型输出进行重构,输出最终的识别率。下面将具体介绍多模型的组成类型和训练参数。由两个全连接层构成的全连接网络,每个网络的权重各不相同。第一层有10个神经元,使用ReLu激活函数;第二层有5神经元,激活函数则采用Softmax函数。优化算法采用Adam优化器,学习率设置为0.01。将不同权值的model.h5文件分别载入4个模型中,按各个模型训练出的结果进行加权投票,最后加权投票分类结果的混淆矩阵如表4所示。

表4 ECG分类混淆矩阵

从表4可以看出来,在不平衡数据集中,即使对少数类进行了数据扩充,在训练的时候依然会影响该类的识别准确率,表中室上性早搏和心室融合心跳便反映出了这一问题,这两类的分类准确率低于多数类的分类准确率,正常心跳,室性早搏和未分类心跳的识别率则是非常高。如果仅仅根据模型准确率(ACC)来衡量一共分类器的性能是不科学的;本次实验中,ECG波形分类准确率(ACC)达到了98%。为了能科学地评估分类器的性能,本文使用了ROC曲线,如图3所示。

图3 ECG波形5分类ROC曲线

图3所示的ROC曲线,5分类中每个类别AUC的值(即图中的area)趋近于1或等于1;AUC的值越接近1,表示分类器的性能越好。本文采用混淆矩阵来全面评估本研究方法对心拍分类的性能,主要包括三个评价指标:准确率(ACC)、敏感度(Se)、特异性(Sp)。

(7)

(8)

式中:真阳性Tp表示正样本被预测为正样本的数目;真阴性Tn表示负样本被预测为负样本的数目;假阴性Fn表示正样本被预测为负样本的数目;假阳性Fp表示负样本被预测为正样本的数目。

将本文方法与支持向量机(SVM)算法、卷积神经网络(CNN)、深度神经网络(DNN)、长短期记忆网络(LSTM)以及CNN-LSTM的组合网络进行对比,结果如表5所示。

表5 各分类方法的结果对比

由表5可以看出,本文基于深度学习多模型投票法的分类准确率、敏感度和特异性是所有方法中最高的。与传统的机器学习方法相比,本文方法的准确率(ACC)比PCA+SVM算法提高了4.2%;这主要是由于本文基于深度学习多模型投票法能够从ECG信号中主动学习有高区分性的特征,并从数据中挖掘出相关的信息,这是人工提取特征无法做到的。与其它深度学习的方法相比,本文方法的准确率(ACC)比卷积神经网络提高了1.3%,比长短期记忆网络提高了3.6%,比卷积加长短期记忆组合网络提高了1.4%;敏感度(Se)和特异性(Sp)均有不同程度的提高;使用卷积神经网络与长短期记忆网络对ECG心电数据进行分类时,均使用了深层神经网络,而深层的网络会增加网络参数,容易出现过拟合的问题,而本文的方法使用了精简的网络结构,减少了参数量,能够有效避免过拟合问题,该方法能利用单分类器间的互补信息来减少单个分类器的误差,提高整体预测性能和分类精度。上述实验说明本文提出的基于深度学习多模型投票法在ECG心电信号分类上是可行的、有效的。

4 总结

本文提出了一种基于多模型投票的深度学习ECG波形分类方法,通过集成多个不同的深度神经网络对5类心电信号进行分类;本文使用小波阈值去噪法对原始的ECG波形进行去噪处理并针对数据集的不平衡问题进行数据增强;利用加权投票的方法提高ECG心电波形的分类准确率。实验表明,本文的方法在MIT-BIH心电数据集上取得了98%的分类准确率,与传统方法以及其它深度学习方法比如PCA+SVM,1D-CNN、LSTM、DNN以及CNN+LSTM的结果比较,均有不小的提升。在未来的工作中,网络结构及参数的选定、集成学习、从医疗知识方方面构造特征等方面都值得进一步研究。比如基分类器数量的选定;尝试损失函数联合训练,得到一个泛化性强的模型,来解决数据集采样范围小的问题。

猜你喜欢
分类器波形准确率
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
对《压力容器波形膨胀节》2018版新标准的理解及分析
基于LFM波形的灵巧干扰效能分析
高速公路车牌识别标识站准确率验证法
BP-GA光照分类器在车道线识别中的应用
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
基于ARM的任意波形电源设计