基于混合刺激诱发放松状态的方法研究∗

2019-11-12 06:38伍能彪朱珍民
计算机与数字工程 2019年10期
关键词:脑电分类器频段

伍能彪 朱珍民 王 毅

(1.湘潭大学信息工程学院 湘潭 411105)(2.中国科学院计算技术研究所 北京 100190)

1 引言

脑电图是一种客观可靠的评估脑功能的方法,经常当作是一种辅助的手段来检测抑郁,精神分裂,癫痫等疾病。脑电图的优势在于它的灵敏性高、成本低,便捷地记录数据。按照国际上通用的分类方法,脑电频谱可以分为Delta,Theta,Alpha,Low Beta,Midrange Beta,High Beta,Gamma 等。它们的频带范围,以及出现的条件和所处的精神状态如表1 所示。本次研究的目的就是通过在视觉、听觉、混合刺激下,降低实验者脑电的高频波段的占比,提升实验者脑电低频波段占比,让实验者调整到一种放松的精神状态,同时通过计算每种刺激方式的有效时间,比较视觉、听觉、混合刺激的调节效率。

表1 脑电类型

2 相关工作

精神疲劳容易引起警觉性降低、工作效率下降,一直以来被认为是引起交通和工业事故频发的主要原因之一。为了缓解这种情况,近年来,许多大脑研究人员和计算机专家使用脑电信号来识别人的情感,检测人的精神状态。Lal and Craig,Papadelis,Fan[1~3]等验证了通过提升Alpha 和Theta 波段的功率,降低Beta 和Gamma 波段的功率可以达到缓解精神疲劳的效果。Sibsambhu Ka[4]等使用相对 能 量 比(Alpha+Beta)/Delta、Shannon entropy、

Rényi entropy、Tsallis wavelet entropy、Generalized Escort-Tsallis entropy 等指标用来评价疲劳程度。Rebecca S.Schaefer[5]指出脑电Alpha 波在听觉刺激下比视觉刺激下产生的变化更明显。卢英俊[6]等选取古典、流行、摇滚等不同风格的音乐缓解悲伤的情绪通过分析主观悲伤度和重心频率的关系为重心频率越低,缓解的效果越好。Yang Wei,John Tudor[7]等使用情感图片库中的图片作为刺激源,提取功率谱密度、信号功率、共空间模式(CSP)作为特征,使用线性判别式(LDA)分类算法对愤怒、激动、悲伤、平静四种状态进行分类,获得了91.75%的准确率。Xiaowei Li[8]等使用Hamming Window滤波器分解Theta,Alpha,Beta 三种频带的脑电信号,在自回归模型的基础上分别计算三种脑电信号的功率谱密度,均方差等816 维特征,使SVM,LR,KNN 分类器对数据进行分类,用来检测抑郁症,取得了88%的准确率。Laurent 和Vézard[9]等设计了如下实验,每2.5s 播放一次警报声,实验者同时观看出现屏幕上显示的警报图标,并在过程中采取脑电信号,作者通过使用PCA 提取主成分,然后使用CSP(Common Spatial Patten)和LDA 相结合的方法对放松状态和警戒状态的脑电进行分类,得到了71.59%的准确率。Adnan Mehmood Bhatti[10]使用说唱、金属、摇滚、嘻哈类型风格的音乐来识别快乐、悲伤、爱和愤怒的情绪,作者使用基于时域、频域、小波提取脑电数据特征,使用ANN,KNN,SVM 等分类器进行分类,其中SVM 取得了最佳的效果,高兴,悲伤情绪的单一准确率为84.87%,78.125%。

在已有研究的工作中,大部分都是在视觉或者听觉刺激下,对刺激前后的脑电进行分类,并没有对视觉、听觉和混合刺激对脑电波的影响进行比较分析。所以本文研究在视觉、听觉和混合刺激下,诱发实验者进入放松状态,比较不同刺激对脑电波的影响,并计算有效的刺激时间。

3 研究方法

基于视觉、听觉、混合刺激诱发实验者进入高度放松状态。研究的总体流程如图1 所示,该流程包括数据获取、信号预处理、特征提取、生成分类器和计算有效刺激时间五个模块,数据获取模块获取EEG脑电数据,然后信号预处理模块对脑电数据进行预处理,消除外部噪声信号带来的干扰。特征提取模块提取滑动时间窗口内均值、方差、极差等时域特征和功率熵和重心频率等频域特征。生成分类器模块,使用支持向量机、LSTM、随机森林、GBDT 训练数据集,生成分类器。计算有效刺激时间模块,通过分类切分数据集和实时测算两种方式计算有效刺激时间。

图1 总体流程图

3.1 EEG数据获取

数据采集模块采集视觉刺激数据,听觉刺激数据,混合刺激数据。在下面分步详细介绍刺激方法,参与者,实验设备和实验过程。

3.1.1 实验设备

为了获取脑电数据,使用了Neurosky 耳机。Neurosky 耳机是一个带有单个获取EEG 信号生物传感器的嵌入式系统。这个耳机的主要优点是便于数据采集和可穿戴性。它的采样率为512 Hz,可以记录非侵入性EEG 信号,并通过耳机中的蓝牙传输记录的数据,因此为终端用户提供了可移动性。在本研究中,所有的EEG 记录都是在隔离和无噪音室完成。

Android 手机:实时接收Neurosky 耳机蓝牙发送的数据,存储数据集。

Mac Air 笔记本:运行视觉刺激、听觉刺激、混合刺激程序平台。

3.1.2 参与者

本次研究共有15 名实验室在读大学生参与,参与者年龄在22~26 之间。所有参与者没有脑疾病的报告史,并具有正常的听力和视力。实验前,参与者被告知研究的范围和过程,所有参与者对实验予以同意。

3.1.3 刺激方式

刺激方式分为视觉刺激、听觉刺激和混合刺激三种方式。

视觉刺激方式是将屏幕显示器分成左右两部分,每一部分各有一个螺旋路径的目标以2Hz的频率移动,实验者全身放松并两只眼睛分别跟踪屏幕中两个移动目标。

听觉刺激方式采用音乐刺激的方法,使用Childhood Memory、Imagine、Snowdreams、神秘园、Night Dream Melody等经典轻音乐作为刺激源。

混合刺激方式是同时使用以上两种刺激方式。

3.1.4 实验过程

实验分成两个部分。第一部分,分别使用视觉、听觉、混合刺激采集EEG 数据。在开始实验之前,给参与者讲解实验注意事项。在EEG 数据采集过程中,分为三个阶段,分别为刺激前静坐阶段、刺激阶段、刺激后静坐阶段,每个阶段均为5min。刺激前静坐阶段和刺激后静坐阶段数据标记不同标签,作为训练数据集。第二部分,分别为这三种不同的刺激方式训练出分类器,对相应数据集调节阶段的数据进行分类,找到最佳的时间切分点,根据数据比例求出有效的调节时间。根据三种不同刺激方式有效调节时间的比较,对视觉、听觉、混合刺激方法进行分析。

3.2 信号预处理

如图2 所示,脑电信号是非平稳随机信号,而且其背景噪声很强,我们有必要对脑电信号进行预处理。在这里我们采取T检验的方式去除离群点。

图2 脑电形态图

在采集的原始脑电数据中,分别有8 种不同频段的脑电波,如Delta,Theta,Low Alpha,High Alpha,Low Beta,High Beta,Low Gamma,Mid Gamma。我们选择方差最大的特征Delta,类似于主成分分析(PCA)的思想,进行T 检验。分别选取置信度t 为0.7,0.75,0.80,0.85,0.90,0.95,1.0 的置信区间的数据作为训练样本集。

由于不同个体的脑电波的功率差异较大,如果直接用使用原始数据作为特征训练分类模型,效果较差,泛化能力较弱。脑电功率符合高斯分布,所以我们选择Z-Score 变换,这样处理同时也保留了数据的分布特点。对原始脑电数据8 种波形分别进行Z-Score标准化处理:

其中Xi为脑电波原始信号,,σ 为该波段脑电信号的均值和标准差。

3.3 特征提取

3.3.1 时域特征

本文时域内的特征是在进行Z-Score标准化之后提取的特征组合。由于脑电信号非平稳、非线性以及突变性的特点,本文采用滑动时间窗口的方法对脑电信号进行平滑处理。过多次试验,时间窗口为10,窗口滑动步长为3时取得最佳的效果。

时间窗口内的均值Means:

其中n 表示时间窗口的大小,Xi表示该波段滑动窗口第i 个功率值。

时间窗口内的方差var:

其中max X ,min X 分别表示该波段在时间窗口内的最大值和最小值。

时间窗口内的变化系数Vc:

时间窗口内的波动指数FI :

原始脑电波段,经过统计每种波段滑动窗口内的Means,var,Range,Vc,FI ,总共可以形成40种训练特征。

3.3.2 频域特征

原始脑电信号的功率熵E(U):

其中n 表示原始脑电不同波段的数量,本文为8。 pi为该波段占总功率的比值。

原始脑电信号的重心平率GF :

3.4 EEG分类算法

分类器是机器学习算法,学习从信号中提取的特征的重要信息,然后在这些特征的基础上进行分类[11]。在本文中,使用了四种不同的分类器。

3.4.1 随机森林(Random Forest)算法

随机森林[12](Random Forest)是Bagging 的一个扩展变体。它以决策树作为基础学习器,构建Bagging[13]集成分类器,但在决策树学习过程中引入了随机特征选择。具体说,传统决策树在选择特征时是在当前节点的特征集合选择最大信息增益或最大增益比的特征。随机森林构建基础分类器时,随机从特征集合中选择k 个特征,随机抽取部分数据集作为训练集,按照传统决策树的训练方法构建单个基础分类器。随机森林通过引入特征扰动,虽然个体学习器的性能会有所降低,但是随着个体学习器数量的增加,随机森林会收敛到更小的泛化误差。随机森林简单,容易实现,计算开销小。由于每个基础分类器相互独立,随机森林支持分布式计算,提高运行效率,在很多现实任务中表现出强大的性能随机森林也存在如下缺点:1)如果数据噪声较大,分类或回归问题易过拟合;2)级别划分较多的特征会对随机森林产生更大的影响,所以随机森林计算出的特征权值是不可信的。

3.4.2 梯度提升树(GBDT)算法

梯度提升树GBDT(Gradient Boosting Tree)是一种迭代的决策树算法,该算法结合了决策树和Gradient Boosting[14]算法。GBDT 算法集成了众多比较弱的决策树学习器(一般使用CART 树[15]),每个弱分类器以上一棵树的训练误差作为训练数据,每棵树朝着误差减小的梯度方向为训练目标。GBDT 被认为是泛化能力较强的算法,但是GBDT对异常值敏感,而且GBDT 算法中每个弱学习器依赖于前一个学习器的结果,无法在分布式集群中运算。

3.4.3 支持向量机(SVM)算法

支持向量机[16](Support Vector Machine,SVM)是分类与回归分析中分析数据的监督式学习模型与相关的学习算法。SVM 是Vapnik 等在统计学习理论基础上对线性分类器提出的一种最佳设计准则。它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能[17]。它基于结构风险最小化理论之上在特征空间中构建最优超平面,使得学习器得到全局最优化,并且在整个样本空间的期望以某个概率满足一定上界。SVM 在分文分类,手写字体识别,图像分类等方面表现出优异的性能但SVM 也有局限性,SVM 仅仅直接适用于两类任务,SVM扩展后分类多类任务效果一般而且模型解出的参数很难理解。

3.4.4 长短时记忆(LSTM)算法

长短时记忆[18](Long Short-Term Memory)是一种时间递归神经网络(RNN),由Schmidhuber J 于1997 年首次提出。LSTM 是在RNN 基础处上的一个变体,在RNN 算法中加入了判断信息是否有用的“处理器”,这个处理器的结构被称作是Cell。一个Cell中放置了三扇门[19],分别为输入门、输出门、遗忘门。图3 是经典的LSTM 模型。图中的C 表示遗忘门,输入门由t 时刻的输入和t-1 时刻的输出组成,输出门由输入门和遗忘门经过运算得到。如果输入门与遗忘门运算输出近似于零,输出门就会挡住信息,也就不会进入下一层。如果遗忘门输出的值近似等于零,将会把Cell中存放的值清除。由于独特的设计结构,LSTM 适合于处理和预测时间序列中间隔和延迟非常长的重要事件。LSTM的表现通常比时间递归神经网络及隐马尔科夫模型(HMM)更好。作为非线性模型,LSTM 可作为复杂的非线性单元用于构造更大型深度神经网络。

图3 LSTM模型图

4 实验结果

4.1 不同刺激方式下的重心频率分析

在前人的研究中,重心频率是一个衡量精神状态的一个重要的指标,正常情况下人体的重心频率的范围为7Hz~13Hz[20]。当重心频率偏高时,人一般处于压抑、紧张、注意力集中等状态,重心频率低时,人处于放松状态。

图4 三种不同刺激方式三个阶段重心频率

经过不同刺激的三个不同阶段的重心频率如图4所示,视觉刺激下重心频率下降了44.7%,听觉刺激下重心频率下降了38.96%,混合刺激下重心频率下降了44.59%。三种不同的刺激方式下,重心频率明显降低,说明了刺激方式是有效性。视觉刺激和混合刺激的重心频率的下降幅度比听觉刺激高出近6%,说明了视觉刺激调节效果好于听觉刺激。

4.2 三种刺激方式对脑电不同频段的影响

三种不同刺激前后不同脑电频段的功率占比如表2 所示,不同的刺激方式,脑电频段的转化是不同的。视觉刺激下,八种频段功率占比的变化率分别为-0.011,0.056,-0.046,0.086,-0.018,-0.001,-0.041,-0.228。Gamma 频段主要向Theta 和High Alpha 频段转化。听觉刺激下,八种频段功率占比的 变 化 率 分 别 为 0.071,00.194,-0.199,0-0.019,-0.031,-0.015,-0.044,-0.959。Gamma频段主要向Delta 频段转化。混合刺激下,八种频段 功 率 占 比 的 变 化 率 分 别 为0.097,-0.064,-0.000,-0.240,-0.319,,-318,-0.38 8,-0.466。Gamma 频段主要向Delta 频段转化。由此可见视觉刺激主要影响脑电Theta、Alpha 频段,而听觉刺激主要影响脑电Delta频段。

4.3 三种刺激方式的不同分类器分类分析

视觉刺激下,四种不同的分类器在不同置信度下的准确率如图5所示。

图5 视觉刺激模型分类结果

听觉刺激下,四种不同的分类器在不同置信度下的准确率如图6所示。

图6 听觉刺激模型分类结果

混合刺激下,四种不同的分类器在不同置信度下的准确率如图7所示。

由图5、图6、图7 所示,当置信度较小时,即数去噪声比例较大,四种分类的准确率均在85%以下。可能原因在于,所有的特征都是基于滑动时间窗口方式统计得到,当数据去除比例较大时,会影响到数据在时间上的连贯性。当置信度过大时,四种不同的分类器的平均准确率均呈下降趋势,原因在噪声数据过多从而影响到模型的准确率。三种不同的刺激的四种分类器均在置信度0.85 时取得了最佳的分类效果。选取置信度为0.85 时训练得到的分类器作为预测第二阶段数据的分类器。置信度为0.85时,三种不同刺激下,LSTM均取得了最佳的分类效果,视觉、听觉、混合刺激的准确率分别为92.48%,91.36%,92.05%。

图7 混合刺激模型分类结果

4.4 三种刺激方式的有效刺激时间分析

4.4.1 切分数据集计算有效时间

通过以上分析,当数据集去除噪声的比例为15%,即置信度为0.85 时,三种不同的刺激方式LSTM 分类器都取得了最佳的分类效果,所以选用LSTM作为切分数据集的分类器。

分别使用三种不同刺激所训练的分类器对调节阶段的数据进行分类,通过循环迭代每一个时间点找到精神状态变化的切分位置,求出有效的调节时间。

切分的标准按照如下公式进行:

其中∑pt1log pt1表示是切分后第一段的熵值,∑pt2log pt2表示切分后第二段的熵值,当L 值最小时,就是所求的切分点。根据切分位置计算两种精神状态所占的时间比例。三种刺激方式的平均有效刺激时间如表3所示。

由表3 可知视觉刺激的效果好于听觉,有效的调节时间比听觉刺激缩短近20%,而混合刺激模型虽然效果好于视觉刺激,但二者调节时间相近,没有达到预期大幅缩短调节时间的效果。

表3 切分数据集方式计算有效时间

4.4.2 实时测算有效刺激时间

实时采集数据,每秒向服务器传输一次数据,服务器分类器解析脑电信号,返回精神状态。客户端记录最近10 个精神状态值,如果10 个中有8 个精神状态值达到预设目标,停止采集,记录时间。实时采集10 个实验者数据,三种刺激方式各5 组,求出三种刺激方式的平均有效刺激时间,如表4所示。

由表4 可知,在实时测算方式下,视觉和混合刺激方式效果比较好,其中视觉刺激的效率比听觉刺激提高24.8%,混合刺激比听觉刺激提高30.6%。

表4 实时计算有效时间

5 结语

本文通过视觉、听觉、混合刺激来调节人体进入放松状态。通过三种不同的刺激,脑电信号的重心频率下降了38%~47%,验证了刺激方式的有效性,分析了不同刺激对人体不同频带脑电的影响。采用GBDT,SVM,随机森林,LSTM等算法对调节前后的状态予以分类,其中时间序列模型LSTM 取得了不错的效果,三种不同刺激模型的准确率都达到92%。使用学习得到的LSTM 分类器,采用切分数据集和实时测算两种方式计算不同刺激方式的有效时间,可得到混合刺激效果最好,其次为视觉刺激。通过最有效的方式诱发人脑达到高度放松的状态有助于缓解压力,疲劳,改善生活质量,提供工作效率有着重大的意义。

本文的不足之处在于,视觉刺激和听觉刺激虽然得到不错的效果,但二者相结合的效果和视觉刺激效果接近,没有达到预期大幅缩减调节时间的目标。下一步的工作在于寻找更好的视觉、听觉刺激混合的方式,更快地让人体进入放松的状态。

猜你喜欢
脑电分类器频段
认知控制的层级性:来自任务切换的脑电证据*
少样本条件下基于K-最近邻及多分类器协同的样本扩增分类
学贯中西(6):阐述ML分类器的工作流程
工作记忆负荷对反馈加工过程的影响:来自脑电研究的证据*
基于成本最小化信息的社会性意图识别:来自脑电和行为的证据*
5G高新视频的双频段协同传输
gPhone重力仪的面波频段响应实测研究
基于朴素Bayes组合的简易集成分类器①
基于AdaBoost算法的在线连续极限学习机集成算法
乒乓球运动员在经验相关图形识别中的脑电相干性分析