情感智能与心理生理计算

2021-06-25 06:44周颖慧陶小梅
广东工业大学学报 2021年4期
关键词:生理语音分类

胡 斌,周颖慧,陶小梅,4

(1. 兰州大学 信息科学与工程学院,甘肃 兰州 730000;2. 兰州大学 甘肃省可穿戴装备重点实验室,甘肃 兰州 730000;3. 桂林理工大学 信息科学与工程学院,广西 桂林 541004;4. 桂林理工大学 广西嵌入式技术与智能系统重点实验室,广西 桂林 541004)

自从1956年在达特茅斯会议上提出了“人工智能”的概念以来,人工智能的发展经历了起起落落,近年来人工智能进入了第三次发展浪潮。人工智能发展至今经历了3个阶段。第一个阶段是计算智能,这个阶段的人工智能能存、能查、能算,IBM研发的人工智能“深蓝”就是计算智能的代表,1997年“深蓝”通过穷举搜索博弈树在象棋比赛中战胜了国际象棋世界冠军;第二个阶段是感知智能,此时的人工智能能看、能听、能说,具体包括图像识别、语音识别、语音合成和自动驾驶等;第三个阶段是认知智能,认知智能是在感知智能的基础上让机器具有主动思考和理解的能力,让机器不仅能够模仿人类的行为还研究行为背后的心智活动,这个阶段的机器能实现语义理解、知识表达、联想理解、智能问答、自主学习等功能。

霍华德·加德纳[1]提出多元智能理论,定义智能是人在特定情景中解决问题并有所创造的能力,他认为人拥有多种智能用来解决不同的问题,其中包括人际智能、自我认识智能等8项智能。彼得·沙洛维[2]提出了情绪智力的概念,情绪智力是指个体能够识别自己和他人情绪,并利用这些信息指导自己的思想和行为的能力。人工智能的研究者们把多元智能理论与情绪智力的概念引入人工智能的研究中,于是就产生了认知智能的新方向——情感智能,过程如图1所示。情感智能立足于人工智能已有的技术,并在此基础上增强人工智能理解情感、产生情感与表达情感的能力,以构造有情感、能共情的类人的智能。情感智能的引入使人工智能不仅具有智商,还具有情商。心理生理计算是情感智能研究中的一种研究方法,通过分析计算生理信号来研究人心理活动与生理变化之间的关系。情感智能与心理生理计算的研究对人工智能的发展有着重大的意义,具有情感智能的智能机器人、智能虚拟助手可以更好地理解用户的需求、与用户更好地交互。

图1 多元智能理论与情绪智力Fig.1 The theory of multiple intelligences and Emotional Intelligence

1 情感智能

1.1 情感智能及其相关研究

情感智能是机器通过分析用户的面部表情、生理信号、眼动、语音、社交媒体上发布的内容等多种模态的信息发现和识别人类的情感,理解情感、产生共情并把情感表达出来。情感智能通过给机器赋予情感以达到和谐的人机交互,可以应用于医疗、教育、生产、商业、娱乐、安保等多种领域。

情感智能的研究内容如图2所示,包括发现与识别情感、理解情感和情感表达。

图2 情感智能研究内容Fig.2 Research contents of Emotional Intelligence

发现与识别情感是指通过摄像头、麦克风等传感器采集面部表情、眼动、语音、文本、生理信号等情感数据后,利用情感计算与心理生理计算技术感知与识别人类情感。情感数据采集结束后,利用情感计算技术对情感数据进行分析,通过情感分类模型识别人类情感[3],过程如图3所示(图3中二维情感模型引用于文献[4])。情感分类模型分为离散模型和维度模型。离散模型通过几种基本情绪组成人类的情感,其中以保罗·艾克曼的情绪理论影响最大。艾克曼提出人类存在6种基本情感:愤怒、厌恶、恐惧、快乐、悲伤和惊讶,其他情感都可以由这6种基本情感构成[5]。维度模型分为一维、二维、三维和多维情感模型,维度模型是通过在维度空间中的不同位置表达不同的情感,经典的模型有PAD三维情感模型(Pleasure-Arousal-Dominance,愉悦度-激活度-优势度)[6]、普拉奇克情绪锥球模型[7]等。

图3 发现与识别情感Fig.3 Discovering and recognizing emotions

理解情感是指使机器理解了情感产生的原因,以及情感是否符合所处的环境。心理生理计算技术可以根据采集到的情感数据感知人类情感变化,理解人类心理状态,判断其是否存在心境障碍。心境障碍是一种情感障碍,心境障碍患者的情感反应比正常人的情感反应更夸张与混乱。心理生理计算技术可以在识别与理解人类情感后,根据反应强烈程度与持续时间以及情感是否与所处环境相符来判断其是否存在心境障碍,参见图4(图中情感分类模型引用于文献[8])。

图4 心境障碍的判断Fig.4 Judgment of mood disorder

情感表达是在理解情感与情感产生的原因后,根据情感产生的原因产生相应的、恰当的反馈,并通过虚拟角色、机器人或其他交互设备向人类表达产生的情感。可以综合利用肢体动作、面部表情、语气等模态表达情感和人类进行情感交互。情感表达是和谐的人机交互中的关键环节,在与人类交互过程中机器能够表达情感,对人类的情感进行恰当的反馈,可以提升人机交互的和谐程度。

1.2 情感智能的机遇与关键问题

1.2.1 机遇

2017年国务院发布的《新一代人工智能发展规划》中提到要针对改善人际沟通障碍的需求,开发能理解人的需求、能进行情感交互的智能助理产品[9];斯坦福大学人工智能百年研究的首份报告:《2030年的人工智能与生活》里也提到未来的人工智能交互系统将有情感、同理心等新特性[10];Wise guys reports的关于国际情感计算的调查报告中也提到传统科技巨头和新兴科技企业都在产品中应用了情感智能,并且预计到2022年情感智能市场规模将以42.63%的复合年增长率增长至410亿美元[11]。这些都为情感智能的发展提供了机遇,也显示出了人工智能向情感智能方向发展的趋势。

1.2.2 关键问题

现阶段情感智能研究面临着3个关键问题,第一个关键问题是如何有效识别情感状态,第二个关键问题是如何使机器拥有情感,第三个关键问题是隐私、安全和伦理风险。

情感状态的有效识别问题。目前,对情感状态的识别一般是通过采集情感数据,利用情感分类模型对情感数据进行分类。随着情感数据采集方式的增多,为了得到更有效与可靠的情感状态识别结果,情感智能的研究采取了收集面部表情、语音、生理信号等多种生理或行为信号的方法,但这些数据异构庞杂、难以分析。此外,因为不同个体对同样事情的认知不同,所以不同个体对情感或心理状态的表达具有差异性。而且情感的表达与情感之前的映射关系十分复杂,目前识别情感的方法与模型尚不能解决这些问题,目前的数据采集都是在实验室环境中采集情感数据,但情感依赖于特定上下文,开放式动态环境下如何保证情感识别技术的鲁棒性问题仍需研究。

如何使机器拥有情感的问题。在人工智能发展过程中,经过多位研究者的研究,已经取得了许多进展,包括受生物视觉处理过程的启发提出了卷积神经网络结构,受心理学行为主义理论的启发提出了强化学习方法等。但对人类情感的认知机理仍不了解,能否用计算的方法模拟和产生情感这一问题仍没有明确的答案。

隐私、安全和伦理风险问题。人工智能的飞速发展在给人们带来便利的同时也带来了一些新挑战。人工智能作为一项颠覆性的技术,可能会给个人隐私、经济安全、法律与社会伦理等带来冲击。所以,在大力发展人工智能的同时,必须高度重视人工智能可能会带来的风险挑战,加强预防与约束,以降低风险,使得人工智能的发展更加安全、可靠、可控。

2 心理生理计算

情感智能的研究需要通过采集人的面部表情、眼动、语音、生理信号等情感数据识别和理解人的情感状态,并根据情感状态做出恰当的反馈,以实现和谐的人机交互。心理生理计算是研究情感智能的重要方法。心理生理计算可以根据生理信号识别和理解人的情感和心理状态,并对人的情感和心理状态进行引导。

心理生理计算[12]是在心理生理学的基础上发展起来的一个多学科交叉研究方向,它将信息获取、计算及分析的思想与心理生理学相结合,运用计算机科学、数学、物理学的方法与技术,结合多种生理信号对人的不同心理状态进行测量、量化和评估,研究人的心理活动与生理变化之间的关系。通过心理生理计算,可以利用生理特征识别和理解人的情绪状态和认知状态,并通过采取一些方法对人进行生理干预,进而达到治疗心理疾病、影响认知状态的目的。

心理生理计算基于假说演绎法、情感图片刺激、唐德斯减数法[13]等方法进行实验设计,在实验中采集被试的生理数据,通过校正、滤波、独立成分分析(Independent Component Correlation Algorithm,ICA)等方法对数据质量进行保证,采取假设驱动与数据驱动的方法,通过多模态融合、多维关联、时空信息及个体环境差异性对心理状态与生理或行为反应之间的映射关系进行计算分析与重建,把一对多、多对一、多对多的复杂映射关系逐步转换为最理想的一对一的映射关系。

心理生理计算的研究内容参见图5,常用的研究方法是采取假设与数据驱动结合的研究方法。以假设为驱动的研究方法是根据某一个问题提出假设,通过设计与实施实验对提出的假设进行验证,通过分析得到结论。以数据为驱动的研究方法是先建立一个粗糙的模型,用大量的数据训练模型,使得模型契合数据。假设与数据驱动相结合的研究方法如图6所示,首先提出研究假设,根据假设设计实验范式,通过实验采集心理、生理数据,再选择并构建多模态、多层次、多尺度、多维度的模型,然后将数据与模型进行拟合,使得模型契合数据,最后用数据对模型进行验证。

图5 心理生理计算研究内容Fig.5 Research contents of Computational Psychophysiology

图6 假设与数据驱动结合的研究方法Fig.6 Research method of hypothesis and data driven

精神医学领域也在尝试采取数据驱动的研究方法,并且验证了数据驱动的研究方法的有效性。精神医学领域从前对于情绪障碍患者的分类都是基于症状进行分类,把患者分为重度抑郁障碍、轻度抑郁和双相抑郁。Insel等[14]提出基于数据驱动的分类,通过融合患者的遗传风险、大脑活动、生理机能、行为过程、生活经历等数据,基于数据对患者进行分类。基于数据的分类能更精确地对情绪障碍患者进行分类,有利于进行分层临床试验。

3 情感智能与心理生理计算典型应用

兰州大学UAIS实验室多年来致力于情感智能与心理生理计算研究,在生理信息获取、生物信息反馈疗法以及针对抑郁症的基于脑电、语音、眼动、表情和姿态的情感识别等方面有许多相关工作。

1) 生理信息获取技术

胡斌、Peng等[15-16]设计了便携式3、8、32导脑电采集系统,提出了一种实时眼电伪迹去除算法。此系统可以采集脑电信号,对脑电信号进行小波分解,得到小波系数,对低频段的小波系数进行特定的阈值处理和小波重构,提取出眼电参考信号,把眼电信号作为参考输入、未处理的脑电信号作为原始输入,输入到自适应滤波器,系统最终会输出去除眼电噪声后的脑电信号。新的眼电伪迹去除算法在恢复真实脑电信号和跟踪性能上具有更好的表现,并且新系统非常适合在便携环境中使用。

Chen等[17]提出了可以用来进行生理参数监测的智能服装。智能服装通过把传感器集成到服装中,采集人的血氧、脉率、心电、呼吸、体温、体动等生理信号。智能服装通过蓝牙连接到智能手机或者通过低功率Wi-Fi连接到外部网络,通过智能手机或外部网络把采集的数据上传到云端,在云端启用数据统计、机器学习库、大数据等对数据进行分析,实现健康监测、情绪监测等功能。

2) 基于脑电的情感识别

Cai等[18]通过三导脑电信号采集系统采集被试的脑电信号,提出了一个通过信号分解、眼电伪迹检测、信号预测、信号重建进行去噪的去噪模型。使用MRMR(Minimal-Redundancy-Maximal-Relevance,最小冗余最大相关)技术进行特征选择,最后利用KNN(K- Nearest Neighbors,K-近邻算法)、SVM(Support Vector Machines,支持向量机)、CT(Classification Tree,分类树)和ANN(Artificial Neural Network,人工神经网络)进行分类,把脑电信号分为抑郁和不抑郁两类,用KNN分类达到了79.27%的最高准确率。

Cai等[19]提出一个基于案例的推理模型来识别抑郁症,达到91.25%的准确率。实验中通过用音频刺激被试,用三导脑电采集器收集被试的脑电信号,对脑电信号进行预处理与特征提取后,用SVM、KNN、朴素贝叶斯、决策树进行分类并根据分类结果评价选择的特征子集,并且在分类过程中引入案例表示和案例相似性计算,通过案例学习提高分类准确率,分类准确率最高达到91.25%。

胡斌等[20]提出了一种脑电与温度相结合的抑郁人群判定方法。通过传感器采集脑电与温度信号,并通过一种基于离散小波变换和自适应噪声抵消的眼电伪迹自动去除模型来去除噪声,然后提取renyi熵、功率谱等特征,以温度信号作为辅助指标用KNN算法分辨抑郁和不抑郁的两类人群。

3) 基于语音的情感识别

Jiang等[21]研究不同语音类型和语音情绪对用不同分类器检测抑郁症的影响,并基于不同语音类型和情绪开发了一种新的检测抑郁的方法。通过让被试完成包含积极、中性和消极3种效价的3种任务:访谈、图片描述和阅读,采集被试的语音录音,对语音进行预处理、提取声学特征,使用性别相关建模对男性和女性分别建模,选择KNN、GMM(Gaussian Mixture Model,高斯混合模型)和SVM 3种分类器进行分类。并且提出一种新的检测抑郁的方法:使用6个分类器先通过训练确定权重值,再使用6个分类器进行测试,检验分类器对抑郁和非抑郁人群不同语音类型和情绪的辨别能力,结果显示新方法对男性情绪辨别的准确率为80.3%,对女性情绪辨别的准确率为75.96%。

Liu等[22]进行了一项关于抑郁症语音潜在标记物的研究。实验过程中被试要完成访谈、短文阅读、单词阅读和图片描述4个任务。在实验过程中进行录音,提取被试语音信号中的记录时长、发声时长和停顿时长3种特征进行比较。研究结果表明发声时长和停顿时长特征可以作为有效特征来进行抑郁症人群的识别,并且验证了访谈作为语音信号采集方式的稳定性。

胡斌等[23]提出一种基于语音特征与机器学习的抑郁症自动评估系统和方法。系统包括语音采集录音模块、语音特征计算模块、语音数据库模块、机器学习模块和自动评估模块。语音采集录音模块通过向被试展示包含正向、中性、负性3种情绪的问题、文本和图片激发被试的情绪并采集被试的语音;语音特征计算模块用于对语音信号进行预处理并计算声学特征;语音数据库模块包含用于语音特征有效性分析、分类器训练优化、系统分类率的相关数据;机器学习模块用来进行语音特征与抑郁症的相关性分析,根据相关性确定有效特征的提取方式,并训练SVM用来进行自动评估;自动评估模块提取相关的语音特征,并根据语音特征进行抑郁程度分类,抑郁识别率达到75%以上。

4) 基于眼动的情感识别

Lu等[24]进行了一项对照眼动跟踪的研究,让抑郁与非抑郁被试观看中性对悲伤和中性对快乐的面部表情图像,根据被试的注视时间推断被试对某种情感面孔的偏好。最后结果表明,与非抑郁对照受试者相比,抑郁症患者的正注意偏向不足,负注意偏向增强。此外,抑郁症患者的正注意偏向受年龄影响显著,中年患者的正注意偏向显著低于年轻患者。

Li等[25]提出一种基于视觉信息的自适应变异粒子群算法(AMPSO)-SVM(Adaptive Mutation Particle Swarm Optimization- Support Vector Machines,自适应变异的粒子群优化-支持向量机)分类模型。Li等在实验中通过让被试观看快乐、悲伤和中性的人脸图像,收集被试的眼动数据,提取偏正注意、偏负注意、正瞳孔直径变化率、负瞳孔直径变化率和正斜率扫视5个特征进行分类,并且比较了基于核岭回归、随机森林、粒子群算法和SVM的不同分类方法。相较于其他几种方法自适应变异粒子群算法AMPSOSVM分类模型的精度最高,准确率达到89.58%。实验结果还表明,扫视距离、扫视斜率等指标在一定程度上可以用于抑郁人群和非抑郁人群的识别。

栗觅等[26-27]提出了情感带宽的概念,并提出了一种情感带宽测定方法和系统。系统首先会生成多幅正性、中性和负性情感图片,并把情感图片显示在显示器中央供被试观看,采集被试观看不同情感的图像时的视点数量和每个视点的左右瞳孔直径,分别计算被试观看不同情感图像时每个视点的瞳孔直径和瞳孔直径平均值,然后计算被试的正性、中性、负性情感带宽和正负情感带宽。若被试正性情感带宽小于健康对照组的正性情感带宽、正负情感带宽也小于健康对照组的正负情感带宽,则判定被试情感受损。

5) 基于表情的情感识别

Cai等[28]提出一个视网膜内外先验联合模型。Cai等提出了一种名为局部变异偏差的方法,可以在不扭曲光照结构的情况下去除纹理。Cai等还引入一个具有形状、光照和纹理假设的联合先验模型细化正则项以获得更好的先验表示,并采用块坐标下降法和迭代重加权最小二乘法求解优化问题。该模型最后的结果和收敛速度都优于现有算法。

Li等[29]进行了一项通过任务诱导面部线索进行重度抑郁症检测的研究。实验过程中被试需要完成包含积极、中性、消极3种效价的4种任务:视频观看、阅读、采访和图片描述。实验过程中通过kinect采集被试面部表情数据,提取位置特征、距离特征、区域特征、角度特征和AU(Action Units,人脸运动单元)特征5种特征,然后用SVM、朴素贝叶斯和随机森林算法分别对男性和女性分类。实验结果表明中性情绪效价的刺激材料在重度抑郁症检测中比积极和消极的刺激材料表现更好,并且还发现对于抑郁症识别而言,面部表情的关键部位在眉毛和嘴。

6) 基于姿态的情感识别

Hu等[30]提出一个多信道认知无线电自组织网络中的情感感知认知系统。系统由3部分组成:移动终端、基于mCRAHN(Multi-Channel Cognitive Radio Ad Hoc Networks,多通道认知无线电Ad Hoc网络)的微云和认知云平台。系统主要依靠2种移动终端:便携式智能双目摄像机和智能手机,这2种移动终端可以收集人的面部、手势、语音等多维数据。移动设备和认知云平台会对收集的数据进行处理、特征提取、特征编码和分类,特征编码是专为识别手势和面部表情而设计的。此外,Hu等提出一种轻量级的空间拉普拉斯和时间能量金字塔(SLTEP)表示法,该方法不仅考虑了人类姿势的空间和时间线索之间的潜在关系性,并且可以在mCRAHNs中以低计算和通信成本提高人类手势的识别性能。在用户的情绪被识别后,系统会根据用户的情绪通过大数据进一步分析用户的心理健康状况,然后给用户推荐合适的情绪感知服务,系统还可以在用户睡觉时检测用户的睡眠状态,并且可以根据用户的睡眠状态、情绪倾向和环境向用户发送不同的带有智能提示的报警声音。

Wang等[31]提出一个基于kinect传感器的抑郁症步态评估框架。Wang等通过两个Kinect传感器采集被试的步态数据,建立伪速度模型对被试的异常步态进行分析,提取步态数据的时域和频域特征以及空间几何特征并进行融合,形成新的分类特征用于抑郁症的检测。利用新的分类特征的分类准确率达到了93.75%,结果证明了新的分类特征提高了分类的鲁棒性和性能。

7) 基于VR(Virtual Reality,虚拟现实)的生物信息反馈干预

生物反馈疗法是利用电子仪器将人体器官组织产生的脑电、呼吸、心率、肌电、体温等生物电信息转换成声、光等信号,通过感官传回大脑,患者根据这些信号自主的控制身体器官组织的生物电等信息的活动,通过自主调节达到康复疾病的目的。生物信息反馈疗法涉及物理医学、控制论、心理学、生理学等多种学科,是一种综合了多学科的应用,目前生物信息反馈疗法可以应用在治疗少儿多动症、抑郁症、自闭症、焦虑症等疾病。

Cai等[32]提出一个基于虚拟现实的抑郁症康复神经反馈游戏框架,通过三导脑电传感器采集患者的脑电信号,然后对脑电信号进行去噪处理、特征提取和反馈参数计算,把参数发送到游戏引擎,通过虚拟现实游戏实时呈现给患者,患者可以根据反馈的游戏内容调整他们的心理状态。相比于传统的药物治疗,用基于生物信息反馈的虚拟现实干预系统治疗抑郁症无创、无副作用、无依赖性,并且成本低廉、易推广。

胡斌等[33]提出一种基于虚拟现实的生物信息反馈系统,用若干个头皮电极对脑电信号进行采样,使用脑电信号提取模块对脑电信号进行提取、放大和滤波处理,把处理后的脑电信号和实时特征信息发送给虚拟现实反馈系统,虚拟现实反馈系统会根据被试的信息选择合适的训练方案,并且会根据被试的实时脑电信号和特征信息对训练方案进行调整。该系统使用简单、界面友好、易于医生和患者接受,并且针对不同症状可以采用不同配置,可干预多种症状。

4 结论

本文介绍了情感智能、心理生理计算和利用心理生理计算在生理信息获取、脑电、语音、眼动、表情、姿态和生物信息反馈干预等方面的相关工作与在抑郁识别应用上的成果。根据相关研究成果可以看出情感智能和心理生理计算在改善人际交往障碍、抑郁与心境障碍识别上具有重大意义,在医疗、教育等许多领域都有广阔的前景。虽然情感智能目前尚有许多关键问题亟待解决,但随着心理学、生理学、计算机科学和认知学等交叉学科的不断发展,一定会找到对应的解决方法,逐步解决目前所面临的关键问题。

猜你喜欢
生理语音分类
享用诺贝尔生理医学奖的镇痛成果
微信语音恐惧症
魔力语音
Magic Phonetics魔力语音
铜绿微囊藻对锌、镉胁迫的生理响应
对方正在输入……
按需分类
教你一招:数的分类
说说分类那些事
妈妈们产后的生理烦恼