基于脑电信号及共空间模式的抑郁症多分类算法研究

2022-04-23 04:46杨子贤罗涛李剑峰范艺晶
北京生物医学工程 2022年2期
关键词:脑电电信号分类器

杨子贤 罗涛 李剑峰 范艺晶

0 引言

抑郁症作为一种常见的精神疾病,已成为人类第二大杀手。但是抑郁症并非不可治愈,大部分患者通过及时干预可有效控制病情。因此,准确、及时地诊断对抑郁症患者康复具有重要意义。然而,精神科医生通过各种量表进行评估费时费力,同时存在很大比例的漏诊及误诊,且轻度抑郁症患者的症状较轻,不易察觉,很有可能错过最佳治疗时期。脑电信号作为一种记录神经细胞电活动的生理信号,可以反映不同情绪和心态的变化,已有研究人员利用脑电信号进行精神疾病如癫痫、阿尔茨海默病的辅助诊断[1-4]。利用脑电信号准确识别出轻度抑郁症患者是很有研究价值的。因此,基于脑电信号对健康人、轻度抑郁症患者、重度抑郁症患者的三分类必不可少。

目前通过机器学习算法实现三分类的手段主要分为3种,直接进行三分类、通过集成学习训练多个弱分类器实现三分类和利用3个二分类器进行投票实现三分类。由于数据量较小、任务较为复杂,直接进行三分类方法的准确率往往较低。而集成学习[5]能够通过对训练样本随机选择或者分配权重的方式合理利用数据,通过训练多个弱分类器提升强分类器的性能,使得三分类的准确率有一定提升。然而,这种算法存在弱分类器的数目不好确定以及性能不易提升的缺点。还有一些传统机器学习模型如支持向量机(support vector machine,SVM )使用多个二分类器投票的策略实现多分类[6]。此类方法能够快速确定子分类器的数量,且通过提升二分类器的性能就能达到较高的多分类准确率。常用的投票策略有“一对一”、“一对多”和“层次分类”。由于“一对一”策略的高准确率,且对于三分类问题,3种策略所需的分类器数量差异不大,本文使用“一对一”投票策略实现多分类,并通过提升二分类器的性能来提高三分类的准确率。

基于脑电信号对抑郁症患者和健康对照进行二分类已有一定的研究基础。Mohammad等[7]利用53名重度抑郁症患者和43名健康对照的脑电数据,提取4个频段的特征,在线性判别分析模型上达到了90%的准确率。Cai等[8]利用92名抑郁症患者和121名健康对照的脑电数据,提取两个波段的绝对功率,在KNN模型上达到了79.27%的准确率。Bachman等[9]利用13名抑郁症患者及13名健康对照的脑电数据,提取线性及非线性特征,利用逻辑回归模型,达到88%的准确率。喇蓉[10]利用24名轻度抑郁症患者的数据,在卷积神经网络模型上达到了85.62%的准确率。然而,当前研究只考虑到脑电信号的时域和频域特征,准确率不高,且文献[11-12]表明健康人与抑郁症患者在不同脑区可能有不同的脑电特征,因此将空域特征引入模型能够进一步提高二分类的准确率。

在运动想象的脑机接口领域,共空间模式算法(common spatial pattern,CSP)[13]可以综合考虑时域、频域和空域特征,采用同时对角化两类信号协方差矩阵的方式使其方差差异达到最大,在二分类问题的特征提取中表现出了优良性能。然而与SVM相同,CSP也不能直接应用于多分类。因此,本文利用CSP进行特征提取,以提升二分类器的性能,并结合SVM的扩展策略,解决CSP在多分类问题上的局限性。

为此,本文将应用当前二分类学习器解决多分类问题的“一对一”扩展框架,提出了一种基于CSP的脑电信号二分类器投票算法,实现基于脑电信号的健康对照、轻度抑郁症患者、重度抑郁症患者三分类。

1 基于CSP的脑电信号二分类算法

该算法针对当前基于脑电信号的抑郁症患者及健康对照的二分类研究中未考虑到空域特征的问题,引入CSP算法进行特征提取以提升模型的性能,实现健康对照和重度患者、健康对照和轻度患者、轻度患者和重度患者的二分类。

将原始训练集根据数据类别划分为3个子数据集,其中健康对照和重度患者数据组成子数据集1,健康对照和轻度患者数据组成子数据集2,轻度患者和重度患者数据组成子数据集3,如表1所示,分别训练3个二分类器。二分类器模型流程如图1所示(i=1,2,3),包括数据预处理、特征提取及二分类器训练3个步骤。

表1 二分类器训练数据说明Table 1 Description of two-classifier training data

1.1 数据预处理

脑电研究中常用的频带为1~44 Hz,如表2所示,医学中根据脑电成分的波动特征将脑电信号分为5种节律波。

表2 医学常用脑电节律波Table 2 EEG rhythm wave commonly used in medicine

为了消除工频干扰等伪迹对脑电信号的影响,保留有效的脑电成分,首先,对数据段进行1~44 Hz的滤波提取。为扩充数据集,通常要对原始的脑电信号进行分段处理。然而时长过短可能会破坏脑电频谱的稳定性,时长过长又不能充分利用数据。方差分析[14]作为一种差异性分析方法,通过计算组间及组内方差的比值来评估各组数据间的差异程度,能够在一定程度上反映不同分段方式间的差异,保证在最大程度扩充数据的同时不破坏脑电频谱的稳定性,因此本文将方差分析用于脑电分段研究。考虑到不同脑电采集仪器的信号放大倍数不同,本文对信号进行了标准化,使所有数据在[-1,1]范围内。由于脑电信号包含不同的脑电成分,为了后续特征提取阶段能提取到更多有效的特征,本文又通过带通滤波方法对各个子数据集进行5种节律波的提取。

方差分析操作的具体流程如图2所示:选取一些健康受试者,采取不同分段规则截取数据,分为不同截取时长的数据组,然后计算每段数据的功率谱最大值。将不同数据组看作定类变量,每段脑电信号功率谱的最大值看作定量变量,进行功率谱方差分析,确定各频段最佳分段时长。

图1 二分类器模型流程图Figure 1 Flowchart of two-classifier model

图2 方差分析操作流程Figure 2 Flowchart of analysis of variance

1.2 特征提取

本文的特征提取步骤应用CSP算法,包括空域滤波器的设计及信号能量提取。为了在每个频段都能提取到不同类别间的区分性特征,本文针对5种节律波分别展开CSP算法。首先基于5种节律波对两类信号创建最优公共空间滤波器,如图3所示。两类数据经对应滤波器处理后方差达最大差异化,然后提取信号能量作为特征输入到后续的分类器中进行训练,如图1中的特征提取步骤所示,其中需要在频段提取后进行滤波器Wi(i= 1,2,3,4,5)的求解,具体步骤如下。

图3 三个滤波器求解Figure 3 Solution of three filters

(1)

式中:X为数据的协方差矩阵;φc为其中一类数据的数据集;|φc|为数据集φc中元素的数量。

(2)

R=UΛUT

(3)

式中:U为R的特征向量;Λ为R的特征值。

(3) 计算白化矩阵P:

(4)

(5)

(6)

式中:B1为S1的特征向量;Λ1为S1的特征值。

(5) 计算空域滤波矩阵W:

(7)

(6) 计算优化空域滤波矩阵W*:

B*=(b1,…,bn,bN-n+1,…,bN)

(8)

W*=B*TP

(9)

式中:B*为B1中前后各n(n∈[1,N/2])个特征向量组成的特征矩阵;bi为B1中的第i列;N为W的行数。

1.3 二分类器的训练

将特征提取步骤得到的特征输入到随机森林分类模型中进行训练,得到3个二分类器,分别为健康对照和重度患者二分类器、健康对照和轻度患者二分类器、轻度患者和重度患者二分类器。

2 基于CSP的脑电信号三分类算法

CSP在处理多分类问题时,由于无法同时对角化多类信号,不能直接应用,常用的扩展策略有“一对一”和“一对多”策略[15]。这两种策略通过拼接多个空域滤波器提取到的特征来实现特征提取,如图4所示。由于拼接后的特征纬度较高,算法复杂度高,且对二分类特征进行简单拼接仍不能很好地区分出多类信号。本文将基于“一对一”框架的多个二分类器投票的方法结合CSP应用到抑郁症脑电信号识别中,解决CSP仅适用于二分类的局限性,模型流程图如图5所示,包括数据预处理、特征提取和子分类器投票。将未知类别样本的特征分别输入到3个二分类器中,得到3个识别结果并对最终识别结果进行投票决策。

图4 CSP传统扩展策略Figure 4 CSP traditional expansion strategy

图5 三分类器模型流程图Figure 5 Flowchart of three-classifier model

3 实验验证及结果分析

为验证上述算法的效果,本文应用Gansu Provincial Key Laboratory of Wearable Computing,Lanzhou University,China的抑郁症研究数据集MODMA[16],该数据集包含53名受试者的脑电数据,采用128导联进行静息态脑电采集,采样频率为250 Hz,每段数据时长为5 min左右。

首先本文根据数据集中每位受试者的PHQ-9抑郁症筛查量表得分以及量表评判标准,将数据集划分为3类:0~4分(健康受试者,共24名),5~14分(轻度抑郁症患者,共8名),15~27分(重度抑郁症患者,共21名)。根据1节中的划分规则,将原始数据集划分为3个子数据集,子数据集详情如表3所示。子频段提取采用四阶巴特沃斯带通滤波器,各频段的参数设置如表4所示。其中Wn为截止频率,表示为奈奎斯特频率的一部分,是采样频率的一半。btype为频带类型。原始数据经截取后每段时长为280 s,本文随机选取10名健康对照者进行方差分析,在每种分段规则下分别截取前7段,之后特征提取阶段的空域滤波器采用最大和最小的10个特征值来构造,最后通过五折交叉验证测试算法性能。

表3 子数据集详情Table 3 Details of the sub dataset

表4 带通滤波器参数Table 4 Parameters of bandpass filter

3.1 数据分段最佳截取时长的确定

方差分析的结果如表5所示,当P值大于0.05时,可以认为该分段方式与时长间隔更大的分段方式在频谱含量上无显著性差异。由表5可知,1~44 Hz频段的最短分段时长间隔为24 s。

表5 1~44 Hz频段不同间隔时间切片方差分析P值Table 5 P value of slice variance analysis at different intervals in 1-44 Hz frequency band

因此,在数据预处理阶段,对提取到的1~44 Hz的数据进行时间窗口为24 s的数据分段,表3中的子数据集经方差分析分段后,数据量扩增到10倍。

3.2 二分类器的训练结果

改进模型训练过程中3个二分类器最佳模型参数及识别准确率,如表6所示。其中模型参数n_estimators为随机森林中决策树的棵数。

从结果可以看出:CSP算法在处理二分类问题时,以较少的树的棵数就能达到优良性能。健康受试者和重度患者的二分类准确率为94.44%,健康受试者和轻度患者的二分类准确率为93.75%,轻度患者和重度患者的二分类准确率为93.10%。该算法在二分类中的高准确率,保证了“一对一”框架应用的可行性。

3.3 基于“一对一”框架的CSP三分类与传统方法的对比结果

本文共设计了3个实验,用于验证方差分析分段的合理性、CSP算法的优越性及本文策略的有效性,并用识别准确率及轻度患者召回率对模型进行评估。

实验一:方差分析分段与10 s/段两种分段方式的对比实验,用于验证方差分析分段的合理性。如表7所示,模型①使用方差分析的结果24 s/段的分段方式,模型为adaboost;模型②使用传统的10 s/段的分段方式,模型为adaboost。

实验二:集成学习与本文策略的对比实验,用于验证CSP算法的优越性。由于本文的扩展策略为多个子分类器决策投票策略,集成学习方法为多个弱分类器的联合决策,有一定的相似性,因此本文通过与集成学习对比实验验证CSP算法的优越性。如表7所示,模型②使用集成学习中的Boosting方法,选取了adaboost模型;模型⑤为CSP与扩展策略结合的多分类模型。

实验三:传统扩展策略与本文策略的对比实验,用于验证本文策略的有效性。传统策略通过特征拼接的方式对CSP进行扩展。如表7所示,模型③应用“一对一”传统策略;模型④应用“一对多”传统策略;模型⑤为本文扩展策略。

各个模型的模型参数及性能如表7所示。

表7 改进投票策略与传统模型性能比较Table 7 Performance comparison between improved voting strategy and traditional strategy

从结果可以看出:

(1) 由模型①与②对比结果可知,方差分析确定分段规则,能提高脑电信号的识别准确率及轻度抑郁症患者的召回率。究其原因,方差分析能确保分段方式不破坏脑电频谱的连续性,保留脑电信号完整的特征。

(2) 由模型②与⑤对比结果可知,CSP算法在处理抑郁症脑电信号分类问题时,能极大提高脑电信号的识别准确率及轻度抑郁症患者的召回率。究其原因,CSP算法能将多类信号在空间上最大差异化,提取到除时域、频域外的空域特征,更好地区分多类信号。

(3) 由模型⑤与③④的准确率对比结果可知,“一对一”框架扩展策略相较传统的“一对一”及“一对多”扩展策略,能达到更高的三分类识别准确率,从而为抑郁症患者的脑电识别提供可能。究其原因,传统策略提取到的特征维度大且在多分类中不一定有效,而改进模型提取到的特征能很好地区分二分类,当二分类的准确率足够高时,投票决策也表现出优势。

(4) 由模型⑤与③④的轻度抑郁症患者召回率对比结果可知,传统的“一对一”及“一对多”策略模型轻度抑郁症患者的召回率都不高,由于改进模型的识别准确率足够高,其轻度抑郁症患者的召回率也能大幅度提高,从而为抑郁症的早发现和及时治疗提供可能。

4 讨论

针对抑郁症及健康人静息态脑电信号的分类问题,本文首先通过方差分析对分段方式进行确定,之后采用CSP算法在抑郁症脑电信号识别中进行应用。为促进抑郁症的早发现和及时治疗,提高轻度抑郁症患者脑电信号的识别准确率,本文将二分类学习器解决多分类问题的扩展框架应用到CSP算法上,设计了一种二分类器投票机制,之后在MODMA数据集上与传统的“一对一”及“一对多”多分类CSP策略进行对比,改进模型在识别准确率及轻度抑郁症患者召回率性能方面都有所提升。本文算法对传统流程的每个步骤都进行了细微调整,不仅提高了模型性能,还考虑到算法落地的一些问题。在数据处理阶段,考虑到脑电的连通性及仪器放大倍数问题,加入方差分析分段及数据标准化处理。在特征提取阶段,考虑到脑电的空间特征,采用CSP算法进行特征提取。在模型训练阶段,为了解决CSP传统扩展策略特征维度过长的缺点,引入投票机制,提高模型性能。最后基于抑郁症现状,选取准确率及轻度抑郁症患者召回率为评估指标,具有现实意义。

然而改进模型的复杂度较高,每个未知数据都要经过3个分类模型,未来的工作重点将放在模型复杂度的降低上。另外,训练及测试数据集都为公开数据集,为了验证算法的通用性,课题组在自行采集数据集上进行测试,由于仪器的不同、脑电通道数量的不同以及采集手法差异,模型测试性能不够理想,因此考虑到算法落地问题,采集手法及数据的标准化也需要考虑,未来的研究内容可以放在通道的优化上。

5 结论

本文通过提高轻度抑郁症患者的识别准确率和召回率,促进抑郁症的及时发现和早治疗。由方差分析结果可知,脑电数据截取时长过短,段间的频谱差异过大,破坏了脑电信号的特征,因此截取方式不能过于随意,需适当增大截取长度以保证脑电的特征不被破坏。通过CSP算法与传统特征提取方式的对比结果可知,CSP能有效提取到不同人群脑电区分性特征,在脑电特征提取中有一定的优势。另外,改进扩展策略在识别准确率及轻度抑郁症患者召回率上同传统策略相比都有了明显提升,验证了子分类器投票策略的适用性,可为抑郁症的早发现早治疗提供算法支持。

猜你喜欢
脑电电信号分类器
认知控制的层级性:来自任务切换的脑电证据*
少样本条件下基于K-最近邻及多分类器协同的样本扩增分类
学贯中西(6):阐述ML分类器的工作流程
工作记忆负荷对反馈加工过程的影响:来自脑电研究的证据*
基于成本最小化信息的社会性意图识别:来自脑电和行为的证据*
基于单片机的心电信号采集系统设计
基于朴素Bayes组合的简易集成分类器①
神经元电生理模型的构建及分析
机电工程中存在问题之我见
基于AdaBoost算法的在线连续极限学习机集成算法