视听联觉在多通道人机自然交互中的应用研究

2021-10-20 10:50孙晓枫赵新军吕春梅张义民

机械设计与制造 2021年10期

孙晓枫，赵新军，吕春梅，张义民

（1.东北大学，辽宁沈阳110819；2.沈阳化工大学，辽宁沈阳110142）

1 引言

因为符合人的交互模式，多通道交互（multi-modal humancomputer interaction，MMHCI）被认为是更为自然的人机交互方式［1］，是未来人机交互的发展方向。多通道人机自然交互涉及到人的五感中视觉、听觉、触觉、味觉、嗅觉的感知体验，而且多通道的人机自然交互并非是各个通道叠加，而是各个感知体验直接的互动。多通道人机自然交互与传统的单一通道人机交互方式相比，能够更加精准、有效地实现人机对话，有效提升用户的交互体验。

近年来，随着科技的发展，新涌现的单通道认知感知技术，如语音识别［2］、人脸识别［3］、情感理解［4］、动态手势［5］、触觉等随着技术的进步更加趋向成熟，这也使得单一通道的人机交互性能得到了快速的提升。

2 当前研究现状

随着人工智能、虚拟现实等技术的进步以及人们对于人机交互体验追求的提升等，单一通道人机交互已经难以满足人们对于精准和完美交互体验的追求，而多通道人机自然交互能够实现人们各感官体验的融合，提升人的交互体验感受，具有更大的应用潜力，被广泛应用在虚拟实验室，如谷歌的Google Daydream Labs、阿里巴巴的VR实验室gnomemagic lab。

多通道人机自然交互是基于眼动追踪、语音识别、手势输入、感觉反馈等新的交互技术，利用多个感觉通道和效应通道的并行、协作与计算机进行交互［6］，力求将“人机交互”演变为“人人交互”，提高人机交互的高效性和自然性。多通道人机自然交互的实现离不开人类视觉、听觉、触觉、味觉和嗅觉等各感官的相互关联和作用，而人类五感中视觉和听觉是人类认知世界的最的重要感官。有关研究表明，人们所接收的信息中有97%来源于视觉和听觉，这其中视觉提供了大约（80～90）%外界信息。所以，充分利用视觉和听觉的联觉关联，将其融合于多通道人机自然交互中，这里探讨的便是视觉、听觉之间的关联作用以及其作用于人的感受。

目前，许多学者对视觉与听觉之间的联觉现象进行了研究。Marks研究了视觉和听觉的某些特征之间的对应关系，证实较高音高和较大声音与较浅的颜色相关。［7］Palmer（Palmer et al，2013）使用颜色代替颜色词，并证明音乐和颜色之间强大的交叉模态匹配是由情感联想调节的。［8］Henrik Hagtvedt和S.Adam Brasel的研究证明了声音频率和颜色亮度之间的联合交叉模态对应可以引导视觉注意：高频（低频）声音将视觉注意力引向浅色（深色）物体［9］。视觉听觉之间的联觉现象的研究促进了其在各个方面的应用。比如音乐教育、创新、购物、界面设计、虚拟现实等等。Pepelea，R发现音乐媒体的色彩视觉解释基于额外的音乐想象发展出特定的创造力。［10］HENRIK HAGTVEDT研究了通过改变超市货架上的灯光亮度会影响购物者对物品的选择：即使实验人员提示客户较暗货架上的物品的品质更好，客户在处于高频率（相对低频率）音乐的环境中仍然更可能从具有装饰明亮（相对于灰暗）的货架上挑选产品。［11］

目前关于听觉与视觉之间的联觉研究结果主要集中声音的频率等元素与色彩的色相、明度、饱和度之间的关系，研究的重点也主要集中在声音与单一色彩的各元素的对应关系，缺少声音对于不同色彩组合影响。就目前人机交互界面的设计主流以及未来发展的趋势而言，色彩和声音组合占据非常大的比重，所以设计视听关联的用户界面的关键就是寻找能够将不同色彩搭配（色彩比重、空间位置）与特定音色的乐音统一起来的桥梁。为寻找建立这种统一关联性的基础，就需要发现不同的声音与色彩组合搭配之间的对应关系，从而为多通道人机自然交互的视觉、听觉通道的有效融合，提升用户“人”的使用体验提供一定的借鉴。

3 实验

3.1 实验目的

本实验在借鉴其他学者（xiuwen Sun，2018）［12］前期研究的基础上，探讨了声音的心理声学属性（例如音调，粗糙度，尖锐度，非连续性，音速）等与多颜色的特征（如色调，饱和度和亮度）的对应关系，同时还进一步增加了声音与多色彩比重及空间占比等因素的对应关系。我们的研究目的在于探讨声音与多色彩之间对应关系，为两者的融合并应用于虚拟现实等多通道人机自然交互中去，提升用户的体验。

3.2 实验参与者

我们招募了46名志愿者，包括23名女性和23名男性参加实验。鉴于跨文化差异可能会影响结果（Knoeferle等，2015），我们只选择中国出生的参与者纳入本实验，所有的参与者无色盲、耳鸣、精神病史、语言障碍，参与者不会从本次实验中获得报酬；本研究不会对受试者造成潜在危害；受试者在实验过程中感到不适，可随时自愿退出研究。

3.3 实验材料和研究方法

3.3.1 声音刺激

根据牛津大学Spence教授和他的学生Knoeferle提出的各声音属性理论［13］的研究，我们根据声音的五种不同属性如（音调，尖锐度，粗糙度，非连续性，音速）等，制作不同单一属性的声音作为刺激源，每种属性的声音定位4个等级，从低到高排列为1-4级。每个听觉参数的值设置为四个级别：（a）音高：C2（130.8Hz），C3（261.63），C4（523.35Hz），C5（1046.5Hz）；（b）粗糙度：0%，30%，70%和100%；（c）节奏：65，120，150和200 BPM；（d）清晰度：我们使用1-4表示四个锐度级别，1表示最弱，4表示最强；（e）不连续性：0%，40%，70%和100%。对于每个乐曲，我们只调整五个属性中的一个的值，其他四个保持在第二个最低级别。我们通过Soundtrap在线制作了20（5×4）段音乐，系统地改变了9秒钟钢琴和弦的五个低级属性（音高，锐度，粗糙度，非连续性，节奏）。声音基于以C大调为基调的和弦的中性音调。（音高C3（261.631Hz）；锐度30%，粗糙度120BMP，非连续性2，速度40%）。

3.3.2 颜色

我们选择了49个彩色方块（100×100像素）来匹配声音刺激。颜色使用色调饱和度亮度（HSB）方案进行编码。选择具有不同色调的七种标准颜色作为主要颜色，如图1所示。通过改变主色的饱和度或亮度值来生成其他四十二种颜色。饱和度值设定为40%，60%和80%。亮度值设置为50%，30%和10%。

图1 实验中使用的七种标准颜色Fig.1 Seven Standard Colours Used in Experiment

我们还设计了色块1和色块2的对比度组合，如图2所示分成五个选项，实验参与者选择其中一项。设计了基于7种标准色彩的空间位置关系图，如参与者选择的是色块1为红色，色块2为黄色，通过两种颜色镶嵌，分表代表两种颜色的空间位置关系，如图3所示。

图2 红色和黄色对比图Fig.2 Contrast Map of Red and Yello

图3 红色和黄色空间占比图Fig.3 Spatial Ratio of Red and Yellow

3.4 实验过程

实验通过网络在线点击的方式进行。我们设计了一个用于实验的小程序，实验参与者需要在一个安静的房间里，戴上耳机参与实验。实验开始时，参与者点击“开始”按钮进行实验。每个实验中，实验者需要按照听音频（声音刺激）—选择认为与声音最为匹配的色块1—然后选择认为与声音次为匹配的色块2—选择色块1和2的明度或者饱和度--声音刺激—色块1与色块2对比关系图—色块1与色块2占比关系图。此为一个声音刺激的试验周期，实验参与者一旦做完与意象词汇的选择，声音刺激将停止5秒钟并进行下一个周期的实验。每次实验大约需要（50～60）s，完成整个实验周期大约需要（15～20）min。实验系统将记录参与者所作出的选择。

3.5 实验结果

实验中记录了参与者的个人信息（性别、年龄、文化背景等）、选择颜色、明度或饱和度、色块比重以及占比等，通过对记录结果统计，分析不同声音刺激下的颜色的组合、明度或饱和度、颜色配色比重、空间占比等关系。

3.5.1 声音刺激与色块对色相的感知关联

（1）音调

根据不同的音调分别记为C2、C3、C4和C5，选取在每个音频刺激中色块1和色块2组合数量最多的前4组色相按照百分比进行排列，得出C2、C3、C4和C5四组音频刺激下的色相组合如表1。不同音调的音频刺激对于色相组合的选择是不同的，存在的差异性与音调的高低有直接的关系。比如C2的低音调音频刺激选择的蓝色+橙色色相组合最多，占比达到15.1%；C5的高音调刺激选择的红色+黄色的色相组合最多。该结果反映了低音调（C2）与蓝色关联度高，高音调C5与红色和黄色的关联度高。这与孙秀雯（2018）的研究中针对同频率音频刺激之下单色块的选择频次结论类似，说明同音调的音频刺激之下，用户对于单一色块和成组色块的选择方案具有相似性，色块数量与选择结果无明显联系。

表1 不同音调声音刺激下的色块组合选择频次占比（%）Tab.1 Hue Combination Percent Under Four Different Pitch of Sound Stimuli（%）

（2）粗糙度

在不同的粗糙度音频刺激下，选取的色块组合数量最多的前4组，如表2所示。在粗糙度为0的时候，选择绿色+青色色相的组合最多，占22.2%，青色在各组合中最多；而在粗糙度为30和70的时候，选择的各色相组合呈现较为均衡的现象；在粗糙度为100的时候，选择紫色+橙色、组合占比达到14.8%，橙色在各组合中占比最多。这说明粗糙度的高低程度也对色相的选择有一定影响，尤其是在粗糙度为0和100的时候最为明显。这与孙秀雯（2018）的研究中针对同频率音频刺激之下单色块的选择频次结论类似，说明同粗糙度的音频刺激之下，用户对于单一色块和成组色块的选择方案具有相似性，色块数量与选择结果无明显联系。

表2 不同粗糙度声音刺激度下色块的选择频次占比（%）Tab.2 Hue Combination Percent Under Four Different Roughness of Sound Stimuli（%）

（3）尖锐度

在不同的尖锐度音频刺激下，选取的色块组合数量最多的前4组色相如表3所示。在尖锐度为1、2、3和4的时候选择的色相组合并未呈现出规律性的波动，而且各色相组合的百分占比较为均衡，由此可以看出尖锐度与色块组合的选择无显著关联，色块数量与选择结果无明显联系。

表3 不同尖锐度声音刺激下的色块组合选择频次占比（%）Tab.3 Hue Combination Percent Under Four Different Sharpness of Sound Stimuli（%）

（4）非连续性

在非连续性方面，分别统计不同的粗糙度音频刺激下，选取的色块1和色块2组合数量最多的前4组色相并按照100%进行重新赋值，得出非连续性0、40%、70%和100%四组音频刺激下的色相组合如表4。不同非连续性的音频刺激对于色相组合的选择也是不同的，但是在尖锐度为0、40%、70%和100%的时候选择的色相组合频次并未呈现出规律性的波动，但在色相组合的颜色搭配方面，对比色和互补色占比较大，分别占比50%和31.25%，邻近色仅占18.75%，由此可以看出尖锐度虽然对于色相无显著关联，但是与色相对颜色搭配的关联较大。

表4 不同非连续声音刺激下的色块组合选择频次占比（%）Tab.4 Hue Combination Percent Under Four Different Discontinuity of Sound Stimuli（%）

（5）音速等级

在音速方面，分别统计不同的粗糙度音频刺激下，选取的色块1和色块2组合数量最多的前4组色相并按照100%进行重新赋值，得出音速为65、120、150和200的四组音频刺激下色相组合如表5。在音速为65的时候，选择橙色+蓝色色相的组合最多，占22.2%，且选取样本中色相组合的色彩关系中对比色和互补色占到75%；而在音速为120、150和200的时候，选择的各色相组合呈现较为均衡的现象，未发现占主导的色相组合和规律性。在音速为200的时候，选取样本中的色彩配比出现了邻近色占主导的情况（100%）。由于声音刺激与色彩明度和纯度关联分析结论与孙秀雯（2018）论文结果相似，这里不做冗余陈述。

表5 不同音速等级声音刺激下的色块组合选择频次占比（%）Tab.5 Hue Combination Percent Under Four Different Tempo of Sound Stimuli（%）

3.5.2 色彩比例、空间位置的关联性分析

不同的色彩搭配对于用户的视觉感知有着不同的影响，色彩搭配中重要的表现形式在色彩比例关系和空间位置关系。利用不同色彩占比能够有效的突出重点。这里通过实验分析，进一步验证声色联觉中音频属性与色彩比例和位置之间的关联性，从而为多通道人机自然交互的色彩搭配以及与声音刺激的融合提供借鉴。

根据上一步实验，统计分析实验参与者在不同音频刺激下选取的频次最多的色块组合，针对其选取的色块比重和空间占比的情况分析，由于选择的色块组合的频次不同，因此我们按照百分比形式进行了重新赋值，统计不同色块组合中的色块比重和空间占比的百分比。如图4所示。

从图4可以看出，在音频C2和C5的刺激下，参与者选择的色块比重的百分比分布图呈现出比较集中的现象，C2音频刺激下色块橙色和蓝色比重为50：50的选择占比达到47%；C5音频刺激下的红色和黄色比重为90：10的选择占比达到50%，而C3和C4声音刺激下的不同色块对比度的选择基本上呈现比较均匀的情况。这证明了声音频率对于色块组合对比度的选择是有影响的，低频率更容易选择色块面积比例均衡的视觉效果，高频率则会更偏向选择色块面积比例差异较大，对比强烈的视觉效果。

图4 音调-颜色对比和空间关系结果。Fig.4 Results for Pitch-Colour Contrast and Positional Relationship

同时，不同音频刺激下的色块空间位置关系也存在不同。C2和C4声音刺激下的色块空间位置关系的选择无明显偏好。C3声音刺激下选择蓝色镶嵌于红色的占74%，C5声音刺激下选择黄色镶嵌于红色的占73%，并未发现声音刺激对于色块空间的影响的规律。但是有趣的是，我们发现当两个色块呈镶嵌状组合时，一般情况下选择相对偏冷色调镶嵌于相对偏暖色调之上的情况比较多。

4 讨论

在实验中，我们研究了声音的五个特征音调，粗糙度，尖锐度，非连续性和音速与双色块色调、明度、饱和度以及颜色比重和空间占比之间的对应关系。我们在其他学者实验基础上，将声音与单色相的对应关系研究扩展到声音与双色块的对应关系研究，并进一步探讨了声音与双色块的比重、空间占比直接的对应关系。实验结果证明了高频率音频刺激与暖色调的红色、黄色关联度高、低频率音频刺激与冷色调的蓝色和青色关联度高；粗糙度在0和100的时候对于色块组合也存在影响，似乎和孙秀雯（2018）的紫色和橙色与高粗糙度相关，而绿色和青色与低粗糙度相关的实验结果相似。同样的尖锐等级和非连续性对于色块色相、色彩比重、空间占比的影响也不明显，这可能是由于尖锐等级和非连续为声音的心理学特征所造成的。

在音速等级方面，高音速与暖色调关联性高，低音速与冷色调关联性高。关于声音刺激与色彩比重、空间占比的研究结果显示，总体而言声音的频率对于色彩比重和空间占比的影响较为明显，而音速、粗糙度、尖锐等级和非连续性三个音速则为显示出明显的影响。声音的频率越高，显示出与暖色调高比重、处于空间中心位置的关联度越高；反之则与冷色调高比重、处于空间中心位置的关联度越高。

5 模型构建

基于以上实验的结论，我们将视觉听觉的关联应用到人机自然交互中去，设计了一个视听联觉的人机自然交互模型，如图5所示。从视觉和听觉两个角度探索双通道下，人机交互信息的输入、融合和输出模式。首先是视觉和听觉信息通过人的眼和耳朵输入，通过人与机器的交互将所得的信息输入至机器，运用机器内部联觉内置程序，提取声音的频率、粗糙度、非连续性、尖锐度和音速等要素和视觉信号的色度、亮度、饱和度、对比度、空间占比等要素，并在这些要素之间通过内置的联觉程序构建起对应的联觉效应，形成完整的视听反馈信息，通过机器输出为人类可以接收、识别的视听信息。视听联觉的人机自然交互模型是完整的输入-输出的系统，能够有效的利用视听联觉现有研究和原理，提升人机交互的输入输出精度和完整度，有效的提升人机自然交互的自然性和和谐性。

6 结论

综上所述，本研究旨在研究视听联觉存在的内在关系并将之应用于多通道人机自然交互，提升人机交互的准确性以及用户体验。通过实验，我们扩展了前人对于声音与单色彩关系的研究，挖掘了声音与色块组合的关系。结果表明，声音音调、粗糙度等对单色和多色块组合的色调、饱和度的影响并未存在明显的差异。声音和色彩对比度和空间关系的研究结果表明，音高和节奏对色彩对比度和位置关系有更明显的影响。音高和节奏越高，人们越喜欢暖色调，反之亦然。最后，基于实验结果构建了多模态人机交互模型。