基于相频特性的稳态视觉诱发电位深度学习分类模型

2022-03-09 01:51林艳飞臧博宇郭嵘骁刘志文高小榕
电子与信息学报 2022年2期
关键词:受试者卷积频率

林艳飞 臧博宇 郭嵘骁 刘志文 高小榕

①(北京理工大学信息与电子学院 北京 100081)

②(清华大学医学院 北京 100084)

1 引言

脑-机接口(Brain Computer Interface, BCI)是一种融合神经科学、电子信息科学、控制科学及计算机科学等多学科领域的全新人机交互方式,通过将大脑活动所包含信息转化为可以直观识别和使用的信息,令大脑与外部环境进行直接通信。帮助丧失行动能力的患者与外界进行交流是BCI系统的主要用途之一,目前主要以基于稳态视觉诱发电位(Steady-State Visual Evoked Potential, SSVEP)的脑电拼写来辅助使用者进行交流。SSVEP信号由固定频率的视觉闪烁刺激所诱发,表现为与刺激相对应频率和倍频的近似正弦信号。SSVEP具有信噪比相对较高、信号稳定性强、易于分析等多种优势。通过事先将按照不同频率闪烁的视觉刺激与相应的字符进行关联,使用者即可通过观看目标视觉刺激诱发出相应的SSVEP信号,并通过算法分析得出被诱发SSVEP信号的频率和与其相对应的语义。同时,还可通过控制视觉闪烁刺激的相位进一步扩展SSVEP信号的类别数量,减小刺激频率间隔,从而使基于SSVEP信号的脑电拼写系统更加贴近实用。因此基于SSVEP信号的BCI系统其性能很大一部分依赖SSVEP信号的分类准确率。

在现有研究中,用于SSVEP信号分类任务的方法主要基于典型相关分析算法(Canonical Correlation Analysis, CCA)。2007年,林中林等人[1,2]开创性地将CCA算法用于SSVEP分类中,为后续基于CCA的SSVEP分析奠定了基础。作为一种相关算法,CCA算法仅需要提前获知视觉闪烁刺激的频率即可设置用于相关计算的模板信号,从而对采集到的SSVEP信号进行分析分类。在此基础上,更多改进算法被不断提出。2014年,Nakanishi等人[3]在基于SSVEP的脑电拼写系统中应用了多通道CCA算法。2015年,Chen等人[4,5]提出了滤波器组CCA(Filter Bank Canonical Correlation Analysis,FBCCA)算法,提高了基于SSVEP的BCI系统性能。同年,Yin等人[6]根据SSVEP之间的典型相关性,提出了变异削弱CCA(CCA-Reducing Variation, CCA-RV)算法,用于动态确定分析窗长,并将该算法用于控制外部机械臂[7]。2018年,Yang等人[8]将空时均衡技术引入SSVEP分类并进一步改善了分类效果。然而CCA算法作为一种无监督分类方法,在信号受到外界较大干扰时性能会出现明显下降,无法学习到脑电信号中除SSVEP以外其他可能提供判别信息的成分,也无法针对受试者的个体差异进行针对性优化,因此近些年来有监督算法逐渐被应用于SSVEP信号的分类任务之中,深度学习作为目前最强大的有监督学习方法之一,也受到了广大研究人员的关注。

近些年来,得益于强大的非线性计算能力和数据驱动的自动特征提取学习能力,深度学习在诸多领域取得了成功实践。目前基于深度学习的SSVEP信号分类模型主要以卷积神经网络(Convolutional Neural Network, CNN)为主。2014年Bevilacqua等人[9]使用CNN提取SSVEP空域和频域特征进行分类,并应用于虚拟导航系统中。2017年Kwak等人[10]比较了不同方法对控制外骨骼条件下采集的SSVEP数据的分类效果,结果表明CNN具有更加鲁棒和准确的解码能力。2018年Attia等人[11,12]使用CNN结构对经过快速傅里叶变换(Fast Fourier Transform, FFT)的SSVEP数据进行分类,取得了良好的分类效果。2018年El-Fiqi等人[13]则通过与典型相关分析、支持向量机等传统方法的对比验证了深度CNN的优越性。Aznan等人[14]则设计了一种基于1维卷积的CNN模型,并应用于干电极设备采集的SSVEP数据上,在跨受试测试中性能优越。2019年西安交通大学的杜光景等人[15]则在CNN模型中引入Inception结构用于SSVEP分类,在短时SSVEP分类和鲁棒性上表现良好。在目前基于CNN结构的SSVEP信号分类模型中,部分采用原始信号数据作为输入,对频率隐式特征的学习提取不够充分;部分模型采用频谱图、功率谱图或时频谱图等形式作为输入,但仅利用了频域幅值信息,对相位信息利用不足。

因此,本文提出了一种相位学习及频率增强分类网络(Phase Learning & Frequency attention Network, PLFA-Net),实现跨受试情况下(用户独立模型)对SSVEP信号数据的有效分类。PLFA-Net模型中针对SSVEP信号的相频特性设计了相位学习结构和频率特征增强结构,从而实现对相位特征的学习和对频率信息的增强,提高SSVEP信号的分类效果。

2 数据集及预处理

2.1 BETA公开数据集

本实验采用清华大学提供的BETA公开SSVEP数据集[16]。该SSVEP公开数据集的刺激范式采用虚拟键盘设计,包含40种类频率的刺激,频率从8.0Hz递增到15.8Hz,步长0.2Hz,并且使用了0,0.5π, π和1.5π 4种相位对刺激范式进行调制。其刺激范式界面如图1所示,其中图1(a)为虚拟键盘图,图1(b)为各虚拟键位所对应的刺激频率和相位信息。刺激范式使用68.6 cm、刷新率为60 Hz的LED显示器播放。

BETA公开SSVEP数据集共包含70位受试者的数据,平均年龄25岁,所有受试者视力正常或矫正视力正常,在实验前均签署了知情同意书。实验符合赫尔辛基宣言,得到了清华大学伦理委员会的认可。

对于每位受试,共进行4个Block的测试,每个Block包含40个trial,每个trial对应40个目标中的随机一个进行闪烁。脑电数据使用Neuroscan公司生产的64导联SynAmps2记录仪进行采集,导联分布遵从国际系统的标准化电极位置,数据采集期间各导联阻抗低于10 kΩ。记录仪的初始采样率为1000 Hz,所采集的数据经过50 Hz陷波、0.15~200 Hz的硬件滤波和3~100 Hz的2次软件滤波处理。滤波处理后按照刺激标记位置对数据进行了试次划分,每个试次包含刺激前0.5 s、刺激时长和刺激后0.5 s的脑电信号数据,其中对于前15位受试者,刺激时长为2 s,对于其他受试者刺激时长为3 s。在划分结束后还对数据进行了降采样处理,采样率从1000 Hz降至250 Hz。

2.2 数据预处理

对于BETA公开SSVEP数据集,本实验使用其中刺激时长为3 s的受试者数据,即后55位受试的数据,并对数据集进行了清洗,剔除了其中幅度超过±100μV的受试者数据。限于数据量、网络模型结构、采样率和FFT处理后频率分辨率等因素的限制,在实验验证过程中选择了每位受试者全部4个Block数据的40个刺激中的8种类刺激信号数据,所选数据频率和相位为8.6Hz, 9.6Hz + 0.5π,10.6Hz +π, 11.6Hz + 1.5π, 12.6Hz, 13.6Hz + 0.5π,14.6Hz +π, 15.6Hz + 1.5π。脑电数据使用带通FIR滤波器进行滤波,滤波范围为6~50 Hz,滤波器使用基于Matlab的EEGLAB工具箱实现。

对于所使用64导联的SSVEP脑电数据,本文使用了后脑顶叶区域和枕叶区域附近的共30个导联电极(导联序号34-42及44-64)。鉴于深度学习模型对于数据量的需求,对于导联挑选后的数据通过2次数据划分实现数据扩充增强,在去除刺激前和刺激后0.5 s的数据后,以1.5 s长度的时间窗按照0.5 s步长对刺激时长进行2次数据划分。

其次,对于扩充增强后的数据集,对每个导联的信号进行FFT处理,取其单边频率信息,并分别提取实部频率信息和虚部频率信息组成实部向量和虚部向量,并按照原本导联顺序对各个导联的实部向量和虚部向量进行排列,其基本形式如图2所示。网络使用的原始信号长度为1.5 s,采样率为250 Hz,因此原始信号的采样点数为375。由于信号傅里叶变换幅度的共轭对称性,只需查看前一半点数的结果即可。本文对原始信号进行了375点的FFT,最终输入网络的FFT频率点数为一半,即188。

由于本文所提出的PLFA-Net为用户独立模型,因此在预处理的最后步骤,将所有受试者的数据进行拼接,组成跨受试的SSVEP信号数据集。对于数据标签,将其转换为独热编码(One-Hot)形式以便于网络进行训练、验证和测试。

3 基于相频特性的分类模型设计

3.1 相位信息学习模块

目前SSVEP信号的诱发范式除使用频率调制外,为了增加可分的种类还对范式进行了相位调制,使SSVEP信号带有频率和相位两种类的特征。因此在对使用相频调制闪烁刺激范式诱发的SSVEP信号进行分类时,应该考虑其相位特性。基于此,在模型中设计了相位特征学习结构。

相位特征学习结构主要包括一个卷积层,其结构如图3所示。该卷积层针对预处理后的频域数据设计,对于每一个导联所具有的实部向量与虚部向量,使用大小为(2, 1)的卷积核进行无填充卷积,通过赋予实部向量与虚部向量不同的权重实现网络模型对于SSVEP信号相位特征的学习。

3.2 频率特征增强模块

图1 BETA公开SSVEP数据集刺激范式界面

图2 FFT处理示意图

图3 相位特征学习模块示意图

在幅频特性上,SSVEP信号作为一种节律同化信号,在与视觉闪烁刺激相同的频率及其谐频成分上具有较高能量,一般基频成分能量最高,谐频成分能量较低。同时SSVEP信号中刺激相近频率成分也可能具有较高能量,对分类效果造成干扰。因此在模型中,引入了计算机视觉模型中的空间注意力模块。

空间注意力模块(Spatial Attention Module,SAM)由Woo等人[79]在2018年提出,空间注意力主要聚焦在2维矩阵图像中对于分类提供较多信息的部分,本文将其引入到脑电信号处理。该模块主要由1个最大池化层、1个平均池化层、1个连接层和1个卷积层组成,基本结构如图4所示。对于输入数据,沿着通道维度计算最大池化和平均池化,两者可分别获得输入数据的细节信息和背景信息。对于两类池化的结果按通道维度使用连接层进行拼接,再使用卷积核数量为1的卷积层将两类池化计算的结果进行聚合,计算出最终的空间分布权重矩阵,即空间注意力图。通过将计算得到的空间注意力图与输入数据进行逐元素的点乘计算,得到增强矩阵。再将增强矩阵与输入数据相加,得到最终的输出结果,实现按照空间注意力分布对输入数据中的判别性成分进行放大。对于SSVEP信号的频域数据,通过引入空间注意力模块可以使网络模型更加关注目标频率成分,减少其他无关信息对分类造成的干扰。

3.3 网络整体结构

PLFA-Net模型整体结构如图5所示,主要包括4个模块:相位学习模块、频率特征增强模块、空频特征提取模块和分类输出模块,具体参数细节如表1所示。需要说明的是,本网络模型所处理的数据集输入维度为60×188,共包含8个类别,表1及下文所提及的参数均针对该输入数据进行设置。

第1个模块为相位学习模块,其作用如3.1节所述,用于学习SSVEP数据的相位特征。该模块主要包含了输入层、1个重塑层、1个2维卷积层和1个批归一化层。重塑层用于对输入的脑电数据进行维度变换,将其由2维转换为符合2维卷积层输入要求的3维形式,扩展维度为通道维度。随后2维卷积层对转换后的数据进行卷积,大小设置为(2, 1),步长为(2, 1)。批归一化层对卷积后的数据按通道维度进行归一化处理,缓解梯度消失、梯度爆炸和过拟合问题。随后使用ReLU激活函数对归一化后的数据进行非线性计算。

图4 频率增强(空间注意力)模块示意图

第2个模块为频率特征增强模块,其作用如3.2节所述,用于针对第1个模块输出数据进行判别信息增强。该模块主要包括1个2维最大池化层(MaxPooling2D)、1个2维平均池化层、1个连接层(Concatenate)、1个2维卷积层、1个逐元素相乘层(Multiply)和1个相加层(Add)。2维最大池化层和2维平均池化层沿着输入数据的通道维度进行池化计算,连接层将池化结果按通道维度进行拼接。2维卷积层中卷积核大小为(5, 5),对拼接后的池化结果进行卷积运算,将两种池化的结果进行聚合,并使用Tanh激活函数进行非线性计算,得出空间注意力图,即权重矩阵。再通过逐元素相乘层对输入数据和权重矩阵进行乘法运算,得到增强矩阵。最后使用相加层对增强矩阵和输入数据进行相加,实现判别成分的放大。

第3个模块为空频特征提取模块,其作用为对相频信息增强后的数据进行空域和频域特征提取,主要包含1个2维卷积层、1个批归一化层和1个2维最大池化层。2维卷积层卷积核大小设置为(5, 5),步长为(1, 1),同时对空域和频域两个维度进行卷积,从而实现对空域信息和频域特征信息的提取。随后使用批归一化层对数据进行归一化,使用ReLU激活函数进行非线性计算。最后使用2维最大池化层对数据进行降维,池化窗大小为(2, 2),缓解过拟合,增加网络模型的鲁棒性。

图5 PLFA-Net模型整体结构图

表1 PLFA-Net模型详细结构及参数设置

第4个模块为分类输出模块,其作用为对经过之前所有模块处理后的特征数据进行分类和输出,主要包括1个展平层和3个全连接层。展平层用于将空频特征提取模块所输出的最终特征图进行向量化,展平为1维特征向量。随后两个全连接层对展平后的1维特征向量进行特征组合计算,其中第1个全连接层的神经元数量为512,第2个全连接层的神经元数量设置为256,激活函数均使用ReLU函数。最后一个全连接层为输出层,神经元数量与数据类别一致为8,激活函数使用Softmax函数,其输出为网络模型判决为各类别的决策概率值。

除上述主要网络层外,在空频特征提取模块最后使用了空间随机失活机制,从而对网络进行正则化,减缓过拟合问题,随机失活概率为0.5。最大范数约束也用于除去频率特征增强模块以外的所有卷积层和全连接层,用于在训练过程中约束其权重大小,约束值为0.5。PLFA-Net模型中所有参数的初始化方法均采用He Uniform随机初始化。

3.4 网络训练参数设置

PLFA-Net模型使用默认参数设置的Adam优化器进行训练,使用交叉熵作为损失函数,批次梯度下降的批次大小参考已有研究设置为64。此外,在PLFA-Net模型的训练过程中使用了学习率衰减机制和早停机制。在训练过程中,当验证数据集的损失连续5次迭代没有下降时,学习率会减半。早停机制会监测验证数据集的损失,当其连续20次迭代没有出现下降时,训练过程将会自动停止。

PLFA-Net模型使用基于Tensorflow后端的Keras API完成编程实现,使用英伟达RTX 2070 GPU显卡进行并行加速计算,GPU显卡对应CUDA版本10,cuDNN版本7.6。

4 模型性能分析

4.1 实验结果

对于经过预处理后的SSVEP信号数据集,采用5折交叉验证对PLFA-Net模型的性能进行测试,同时在训练过程中训练数据集的10%会作为验证数据集供早停机制对模型训练进行监测。

本实验中,用于衡量模型对SSVEP信号分类性能的指标主要包含两种,分别是分类准确率(Accuracy, ACC)和ROC曲线下面积(Area Under the Curve, AUC)。PLFA-Net模型在5折交叉验证中的性能表现如表2所示。

从表2可见PLFA-Net模型在每折均具有较好的分类准确率,5折交叉验证平均准确率达到了80%以上,平均AUC高于0.97,说明PLFA-Net模型在使用跨受试数据集的情况下性能良好。对于所使用的8种频率SSVEP信号,PLFA-Net具有较为稳定的分类性能表现,能够在跨受试的情况下学习到SSVEP信号的公共相频特征,完成对不同频率、不同相位SSVEP信号的分类任务。

表2 5折交叉验证PLFA-Net模型分类结果

4.2 算法对比

本文还使用CCA方法对所使用的SSVEP信号进行了计算分类,并与PLFA-Net模型进行了效果对比。CCA方法所使用的数据预处理步骤除未经FFT处理外与PLFA-Net完全相同。图6展示了CCA算法与PLFA-Net模型在5折交叉验证中的性能对比结果,可见PLFA-Net模型分类性能优于CCA算法。使用重复测量方差分析进行验证,结果表明该差异具有显著性(ACC: F (1, 4) = 19.573, p <0.05; AUC: F (1, 4) = 10.586, p < 0.05)。

图7则展示了CCA算法和PLFA-Net模型对于不同频率相位SSVEP信号分类的性能对比结果。可见PLFA-Net模型在低频SSVEP信号分类中准确率低于CCA算法,但在高频SSVEP信号分类中性能则明显优于CCA方法,同时效果较为稳定。

以上结果表明,PLFA-Net模型作为一种有监督的深度学习方法,相比CCA算法能够更好地从已有数据中进行特征的学习,而非依照固定的对比模板进行匹配,使其较为贴合实际数据。同时对比结果表明PLFA-Net模型在不同频率的分类效果上更加稳定,具有更好的鲁棒性。

4.3 训练集增强

在数据清洗中发现SSVEP诱发良好的受试者占比有限,因此通过训练得到的PLFA-Net模型,在一定程度上会受到诱发效果较差的受试者数据影响。如2.3节所提,传统方法一般按照刺激的频率与相位信息构造标准正弦匹配模板,通过计算标准正弦模板与真实数据的相关性来进行分类。因此,本文参考CCA算法的标准模板,通过构造仿真SSVEP信号对原有的训练数据集进行数据增强,观察对PLFA-Net模型性能的影响。仿真SSVEP信号包含刺激频率的基频、2倍频及3倍频,同时按照-20 dB的信噪比添加高斯白噪声,表达式如式(1)所示:

其中,r1,r2,r3为取值范围0.5~1.5的均匀分布随机数,A为信号幅度,f为刺激频率,p为刺激相位,n为噪声。

在4.1节的5折交叉验证基础上,将预处理后的仿真SSVEP数据加入训练数据集,对PLFA-Net模型进行训练,增加等同于5位受试者的数据量。其结果与未经过训练集数据增强的PLFA-Net模型对比如图8所示。

由图8发现经过仿真数据增强后,PLFA-Net模型性能具有一定提升。使用重复测量方差分析进行验证,表明该差异具有显著性(ACC: F (1, 4) =12.785, p < 0.05; AUC: F (1, 4) = 11.269, p < 0.05)。结果表明在训练数据集中增加一定的标准仿真SSVEP数据,有助于增强跨受试的SSVEP分类模型性能。

图9则展示了经过仿真数据增强后,PLFA-Net模型在不同频率相位上的分类性能差异,可以发现在大部分频率相位中PLFA-Net模型的性能都得到了一定的提升,进一步验证了结论。

4.4 分析讨论

图6 CCA与PLFA-Net 5折交叉验证性能对比示意图

图7 CCA与PLFA-Net各频率相位SSVEP分类准确率对比示意图

图8 PLFA-Net与训练集数据增强的PLFA-Net 5折交叉验证性能对比图

图9 PLFA-Net与训练集数据增强的PLFA-Net各频率相位分类准确率对比示意图

SSVEP信号由外界固定频率的视觉刺激诱发而成,其在低频段(如8~11 Hz频段)所诱发的SSVEP信号幅值往往较强,而随着刺激频率的增加,SSVEP幅值会出现相应下降。而CCA算法的原理是根据已知频率相位去构造标准正弦匹配模板,它只关注特定频率,所以在SSVEP信号幅值强的低频段表现好,而在幅值低的高频段表现差。但是在实验过程中不只存在SSVEP成分,例如自发脑电与可能出现的事件相关电位等都在8~11Hz的低频段有分布。PLFA-Net中的频率特征增强部分是由神经网络自主学习感兴趣的频率部分,不局限于某一特定频率段特征。因此由图7可以看出其在8个频率中的表现较为稳定,但由于不同受试低频处的脑电噪声干扰不同,特征增强部分的关注部分可能会出现偏差,而不像CCA固定的关注目标频率,由于这一可能的原因,PLFA-Net在低频处的表现会较差。针对这一问题可能的解决方法,一是通过其他预处理的手段尽可能去除这些EEG背景噪声,二是去寻找其他受EEG背景噪声干扰较小的频率学习机制。

5 结论

本文提出了一种用户独立模型的SSVEP信号分类的网络模型PLFA-Net。首先概述了基于SSVEP信号的BCI系统应用价值,并介绍了现有的传统方法和深度学习方法在SSVEP信号分类任务中存在的不足;其次详细介绍了本文所提出的PLFA-Net模型的设计原理和具体结构;随后通过公开的BETA SSVEP脑电数据集,对网络进行了性能验证,包括SSVEP信号数据的预处理方法、PLFA-Net分类结果和与CCA方法的对比分析,验证和说明了PLFA-Net模型在SSVEP信号分类任务中的良好性能。

猜你喜欢
受试者卷积频率
涉及人的生物医学研究应遵循的伦理原则
涉及人的生物医学研究应遵循的伦理原则
基于3D-Winograd的快速卷积算法设计及FPGA实现
涉及人的生物医学研究应遵循的伦理原则
振动与频率
卷积神经网络的分析与设计
从滤波器理解卷积
涉及人的生物医学研究应遵循的伦理原则
基于傅里叶域卷积表示的目标跟踪算法
无线电频率的特点