基于相关性和稀疏表示的运动想象脑电通道选择方法

2022-03-09 01:51董芝超高云园孔万增
电子与信息学报 2022年2期
关键词:字典受试者准确率

孟 明 董芝超 高云园 孔万增

①(杭州电子科技大学自动化学院 杭州 310018)

②(浙江省脑机协同智能重点实验室 杭州 310018)

1 引言

脑机接口(Brain Computer Interface, BCI)是一种先进的通信系统,旨在大脑和计算机之间建立直接的通信[1]。脑电信号(ElectroEncephaloGram,EEG)因为其低成本、高时间分辨率而成为BCI中最常用和广泛研究的信号[2]。目前,最广泛采用的实验范式有事件相关电位(Event-Related Potentials,ERP)[3]、稳态视觉诱发电位(Steady-State Visual Evoked Potentials, SSVEPs)[4]和运动想象(Motor Imagery, MI)[5,6]。根据EEG研究表明,不同身体部位的想象运动可以导致在相应的活跃皮层区域的感觉运动节律(α和β节律)的功率衰减,称为事件相关去同步(Event-Related Desynchronization,ERD);与此同时,在相应的对侧皮层区域的感觉运动节律的功率增强,称为事件相关同步(Event-Related Synchronization, ERS)[7]。通过ERD/ERS模式的分类,可以识别不同身体部位的想象运动,从而产生控制信号用于MI-BCI系统中。

现有研究中,通常利用较多的EEG通道信号获得更多的空域信息来提升性能[8]。然而同时也会引入包含与MI任务无关或冗余信息的通道[9],从而使用较多的EEG通道并不能保证性能的提升[10]。为了去除与MI任务无关的、冗余的通道,研究者提出了许多通道选择的方法。Feng等人[11]提出了基于多频带的共空间模式滤波器排序进行通道选择的方法(Common Space Pattern-Rank channel selection for Multi-Frequency band, CSP-R- MF),结合多频带信号分解滤波和CSP-Rank方法选择通道;Jin等人[12]提出了基于皮尔逊相关系数进行通道选择的方法(Correlation based Channel Selection, CCS),CCS利用皮尔逊相关系数选择与MI任务相关的通道,之后对这些通道进行正则化共空间模式(Regularized CSP, RCSP)[13]特征提取;Han等人[14]提出了基于特征压缩和通道排序(Feature Compression and Channel Ranking, FCCR)的通道选择方法,通过K-Means方法聚类降低特征维数,进而通过结构稀疏最小二乘回归等特征选择方法,对脑电通道进行排序和选择。

MI任务的执行需要多个大脑区域的参与,并且这些区域相互联系[15,16]。因此通道选择方法应充分考虑通道间的整体性和大脑区域内电极的相互联系。为此,本文提出一种基于相关性和稀疏表示的运动想象脑电通道选择方法(Correlation and Sparse Representation based Channel Selection, CSRCS),用以选择含有判别性信息的通道。首先计算训练样本通道的皮尔逊相关系数来选择显著通道,对显著通道所在的每个区域提取滤波器组CSP(Filter Bank CSP, FBCSP)[17]特征并拼接成字典矩阵,通过验证样本的FBCSP特征用字典稀疏表示[18],得到每个区域的非零稀疏系数个数,利用其个数表征每个通道区域的分类能力来选出显著区域,将显著区域所包含的显著通道作为最优通道,最后用CSP和支持向量机(Support Vector Machine, SVM)分别进行特征提取与分类,利用BCI 第3次竞赛数据集IVa(Competition III Dataset IVa)和BCI第4次竞赛数据集I (Competition IV Dataset I)对提出的方法进行验证。

2 方法

本文所提基于相关性和稀疏表示的运动想象脑电通道选择方法考虑了通道间的整体性和大脑区域内电极的相互联系,可以有效排除与MI任务无关的冗余通道,从而改善后续特征提取和分类的准确性。

图1是CSR-CS方法的框图。首先计算训练样本EEG通道的皮尔逊相关系数,选择高于阈值的通道,称为显著通道;然后将每个区域提取的FBCSP特征拼接成字典,利用得到的每个区域非零稀疏系数个数表征其区域分类的能力;接着在通道区域的选择中选出K个显著区域,显著区域所包含的显著通道称为最优通道,从而构造新的EEG矩阵作为CSP的输入,并提取CSP特征,最后采用SVM进行分类。

2.1 基于相关性的显著通道选择

相关性有利于检测出与MI任务相关的活跃皮层区域[19]。研究表明当受试者执行MI任务时,与MI任务相关的那些通道应该包含共同信息,并且在多次MI任务中都存在这种通道之间的相关性[12]。基于这一结论,本文使用皮尔逊相关系数去除一些与MI任务不相关或者相关性小的通道,从而减少后续特征提取和分类所需要的脑电通道数量。计算皮尔逊相关系数具体步骤如下:

首先,采用Min-Max归一化方法将所有通道的EEG数据归一化。

图1 CSR-CS方法框图

2.2 CSP特征提取

共空间模式(CSP)是处理二分类任务的空域滤波算法,该算法提取多通道的脑电信号中每类的空间分布成分,通过空间投影寻找最好的投影方向,使其中一类方差最大化而另一类最小化,从而达到分类的目的。

2.3 基于稀疏表示的显著通道区域选择

近年来,稀疏表示(Sparse Representation,SR)[20]作为一种新的信号采集方法受到了广泛的关注。稀疏表示可以使数据的表示形式更加简洁清晰,其原理为利用字典中的少量原子进行线性叠加来重构输入信号。稀疏表示算法中重要的两个部分是字典的构建和利用字典表示信号[21]。图2是稀疏表示方法的模型构建。

在字典的构建阶段,将给定的训练特征集合记为X,得到的字典记为D,本文将得到的每个通道区域的训练特征集拼接成字典。

建立字典矩阵后,可以通过矩阵形式来获得输入的验证样本信号的稀疏表示,其表示形式为

通过式(15)可以得到每个通道区域的稀疏系数,同时每个通道区域的非零稀疏系数个数表征其分类能力,所以将每个区域的非零系数个数降序排列,选出显著区域,显著区域中包含的显著通道即最优通道将会进行后续的特征提取和分类。

2.4 分类

支持向量机(Support Vector Machine, SVM)在分类中有着广泛的应用,并且可以取得良好的分类效果。本实验采用SVM作为分类工具。SVM的基本思想是首先通过非线性变换将输入空间变换到一个高维空间,然后在这个新空间中求最优分类面即最大间隔分类面。SVM分类器旨在解决优化问题

3 实验

3.1 数据描述

数据集Ⅰ:第1个数据集来自BCI Competition III Dataset IVa。该数据集记录了5个健康受试者(aa, al, av, aw, ay)的两类运动想象任务EEG数据,每位受试者要求在视觉提示后想象右手或者脚的运动,每次实验持续时间3.5 s,每组EEG信号均采用118个电极进行记录,采样率为100 Hz,每个受试者进行每类运动想象140次实验,共280次实验。每次实验流程:前3.5 s内在电脑屏幕上出现向右或者向下的箭头,受试者根据箭头方向执行对应的运动想象,然后放松1.75~2.25 s,单次实验时间轴如图3(a)所示。

数据集Ⅱ:第2个数据集来自BCI Competition IV Dataset I。该数据集记录了4个健康受试者(a, b, f, g)的两类运动想象任务EEG数据,每位受试者要求完成左手或者双脚的两类运动想象任务各100次实验,每组EEG信号均采用59个通道进行记录,采样率为100 Hz。每次实验流程:首先一个固定十字显示在电脑屏幕的中央,时间为6 s,第2 s时电脑屏幕出现向左或者向下的箭头,受试者根据箭头方向执行对应的运动想象,然后在6~8 s内出现黑屏,单次实验时间轴如图3(b)所示。

3.2 数据预处理

由于EEG是一种非平稳、低幅值、低信噪比的生物电信号,并且运动想象系统的稳定性较差,易受干扰,所以EEG信号通常含有不同形式的噪声和干扰,比如50 Hz工频干扰(脑电信号频谱图在50 Hz处有一个明显的干扰脉冲),还有眼电、心电、肌电的干扰。结合运动想象任务的特点,即执行运动想象任务时会出现ERD和ERS现象,执行单手和双脚运动想象任务时会在对侧和中央运动皮层区域的α频段(8~12 Hz)和β频段(13~30 Hz)出现明显的ERD现象,故本文截取每次实验中视觉提示后0.5~2.5 s的EEG数据,并且采用有限单位冲激响应滤波器(Finite Impulse Response, FIR)对EEG信号进行4~40 Hz的带通滤波。

3.3 通道选择及分类

(1)选择显著通道。计算训练样本所有通道的皮尔逊相关系数ρi,(i=1,2,...,Nch),并将ρi的平均值设置为阈值,低于阈值的通道将被去除,高于阈值的通道称为显著通道,并选择进行后续操作。

(2)划分通道区域。将分布在脑皮层的所有通道划分K个区域(数据集Ⅰ:K=9;数据集Ⅱ:K=7),如图4所示,中央区域一些通道(Fpz, AFz, Fz, FCz,Cz, CPz)的填充色和线框色是属于两个颜色的,说明该通道同时属于两个通道区域。图4(a)是数据集Ⅰ的9个通道区域,图4(b)是数据集Ⅱ的7个通道区域。

图3 单次实验时间轴

图4 通道区域划分

(3)选择通道区域。使用4阶巴特沃斯滤波器将每个通道区域的EEG信号划分为P=17个带宽为4 Hz,重叠率为2 Hz的子频带(4~8 Hz, 6~10 Hz,8~12 Hz , ···, 32~36 Hz, 34~38 Hz, 36~40 Hz),用以FBCSP特征的提取(2M=4),所以每个通道区域得到68维的特征向量。

将训练样本的特征向量拼接成字典D ∈RF×(Ntr×K),D=[f(1),f(2),...,f(K)],其中f(i)为第i个通道区域的特征向量;验证样本用字典D稀疏表示,求解稀疏向量u的目标函数如式(15)所示,可以得到每个通道区域的非零稀疏系数个数,将其降序排列设置阈值进而选择显著的通道区域。

(4)分类。显著区域内的显著通道作为最优通道提取CSP特征,用SVM进行分类,本文中采用径向基(Radial Basis Function, RBF)函数作为SVM的核函数,正则化参数C通过交叉验证确定。

4 结果与讨论

4.1 电极分布

将CSR-CS方法应用于数据集Ⅱ,图5是数据集Ⅱ经过通道选择后的电极分布,黄色填充部分代表被选择通道。由图5可以看出,4个受试者所选择的通道都位于通道CCP3和CCP4附近,这一结果表明CSR-CS方法基本符合神经生理学意义;同时每个受试者经过选择后通道分布各不一样,这也充分说明了基于不同受试者进行通道选择的必要性。

图5 数据集Ⅱ电极分布

4.2 分类性能比较

用CSR-CS方法分别在两个数据集上进行实验,并与CCS-RCSP, CSP-R-MF和FCCR方法进行比较,10折交叉验证得到的测试集平均分类精度如表1所示。

针对上述两个数据集,CSR-CS方法表现出了最佳的分类性能。针对数据集Ⅰ,与上述3种方法相比,本文方法的平均分类准确率分别提高了1.17%, 6.13%, 2.7%;针对数据集Ⅱ,与上述3种方法相比,本文方法的平均分类准确率分别提高了2.3%, 6.1%, 3.8%。与CSP-R-MF方法相比,CSRCS方法在分类精度上取得了非常显著的提高(p<0.01)。虽然与另外两种方法相比没有体现出非常显著的优势,但是无论是在数据集Ⅰ还是数据集Ⅱ,CSR-CS方法在经过通道选择后并没有降低分类性能反而有一定提升。

与上述3种方法相比,其中受试者aa , a和f的分类准确率提升较多,说明CSR-CS方法所选择的最优通道多位于运动想象区域,在运动想象时该区域内信号更具有区分性。FCCR作为一种通过特征压缩和特征选择来选择通道的方法在个别受试者上表现出了一定的优越性,但通过此方法选出来的通道并不像CSR-CS方法选出来的通道那样考虑了通道间的整体性和大脑区域内电极的相互联系,而CSP-R-MF方法更偏向于子带的特征选择,缺少对通道的选择,CCS-RCSP方法没有考虑到通道间的整体性,这都导致部分分类精度的损失。

综上所述,CSR-CS方法在电极数量较多和较少的数据集都可以展现出较好的分类效果,从而验证了本文提出的通道选择方法的可行性。

4.3 通道选择的比较

(1) 选择通道区域个数k对分类准确率的影响。以数据集Ⅰ中的5位受试者为例介绍选择通道区域个数k对分类准确率的影响,由图6看出对于大多数受试者来说,随着所选通道区域数量的增加,分类准确率的总体趋势是先增加后降低的。这是因为最初选择的通道数量太少,导致特征太少,分类精度较低。当通道数量过大时,含有冗余信息的通道或者与MI任务无关的通道会降低分类精度。受试者aa和aw使用CSR-CS方法选择较少通道区域时,分类准确率可以达到最高,这是因为选择的较少通道区域中的特征已经足够用以准确分类;其中,受试者al , av和ay达到最高分类准确率时选择了较多通道区域,这是其通道含有较少的判别性特征信息的缘故。

(2) 通道选择与否对分类准确率的影响。为了验证进行通道选择可以提升分类精度的必要性,本文还对上述两个数据集进行了没有通道选择用CSP进行特征提取进而分类(All-Channel CSP,AC-CSP)和使用本文提出的通道选择方法对比,从表2可以看出,CSR-CS方法在两个数据集的9位受试者的分类精度均高于AC-CSP。对于数据集Ⅰ中的al , ay和数据集Ⅱ中的f , g 4位受试者,可以看到经过通道选择后分类精度的提升幅度很小,对于其他受试者,经过通道选择后分类精度的提升幅度很大,所以这也充分说明了基于不同受试者进行通道选择的必要性。与AC-CSP方法相比,本文所提方法在分类精度上取得了非常显著的提高(p<0.01)。图7绘制了最显著的两个CSP特征的分布,这两个特征是由CSR-CS和AC-CSP方法从数据集Ⅰ中的受试者aa中提取的。显然,CSR-CS方法的特征相对于不同的MI任务更具有可分离性。

表1 数据集Ⅰ、数据集Ⅱ分类精度比较

(3) 选择显著通道或者通道区域与否对分类精度的影响。为了验证选择显著通道和通道区域的必要性,本文将仅选择通道区域(Sparse Representation based Channel Selection, SR-CS)、仅选择显著通道(Correlation based Channel Selection, CCS)方法和CSR-CS方法进行对比。SR-CS方法不通过相关性选择显著通道,而是将所有的电极划分固定通道区域,与CSR-CS方法的通道区域划分规则是一样的。C-CS方法通过计算皮尔逊相关系数选择显著通道,进而特征提取与分类。同样在上述的两个数据集进行实验,测试集10折交叉验证分类精度对比结果如图8所示。

图6 选择通道区域个数对分类精度的影响

表2 通道选择与否对分类准确率的影响

图7 受试者aa在CSR-CS和AC-CSP方法上获得的最显著的两个特征的分布

图8 选择显著通道或区域与否对分类精度的影响

可以看出,两个数据集的所有受试者在选择相同通道区域时,CSR-CS的分类性能明显优于SRCS;在选择相同显著通道时,CSR-CS的分类性能明显优于C-CS。这表明通过稀疏表示选择显著区域和通过计算皮尔逊相关系数选择显著通道,可以去除含有冗余信息和与MI任务无关的通道,从而可以提取判别性特征,最终提高分类精度。其中,对于数据集Ⅰ中的受试者ay和数据集Ⅱ中的受试者f,CSR-CS方法与SR-CS方法、C-CS方法得到的分类准确率相差很小(<1.5%),这是因为一些与MI任务无关的冗余通道包含在未选择的通道区域中或者受试者ay和f含有冗余信息的通道较少。

5 结束语

本文提出一种对于多通道脑电信号的通道选择方法CSR-CS,即基于相关性和稀疏表示选择运动想象脑电通道的方法。首先,通过计算皮尔逊相关系数选择显著通道,将通道划分为K个通道区域,然后通过稀疏表示得到每个区域的非零稀疏系数个数来选择显著区域,最后用显著区域中的显著通道作为最优通道进行特征提取和分类。在电极数分别为118和59的公共数据集进行测试,并与其他3种通道选择算法进行对比,且对不同的受试者给出了利于分类的最优通道,结果表明通道的选择是有必要的,分类精度有一定提升。此外,频段信息对EEG分类也十分重要,使用稀疏组表示方法[22]同时选择最优通道和最佳频段将是后续工作的研究内容。

猜你喜欢
字典受试者准确率
涉及人的生物医学研究应遵循的伦理原则
涉及人的生物医学研究应遵循的伦理原则
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
涉及人的生物医学研究应遵循的伦理原则
字典的由来
涉及人的生物医学研究应遵循的伦理原则
高速公路车牌识别标识站准确率验证法
大头熊的字典