基于声音可视化的听音训练方法初探

2018-03-14 00:44李紫净朱伟

演艺科技 2018年10期

李紫净朱伟

【摘要】提出在现有的听音训练方法上引入视觉信息以辅助进行听音训练的设想，梳理声音可视化及听音训练的发展情况，并对声音可视化在听音训练上的应用进行讨论。

【关键词】声音可视化;听音训练;视听映射

文章编号： 10.3969/j.issn.1674-8239.2018.10.005

A Preliminary Study on the Application of Sound Visualization in Ear Training

LI Zi-jing， ZHU Wei

（ Communication University of China， Beijing 100024， China）

【Abstract】The idea of introducing visual information into the ear training is proposed. This paper reviews the development of sound visualization and ear training， and the application of sound visualization in ear training is discussed.

【Key Words】sound visualization; ear training; mapping

1 研究背景及意义

毋庸置疑，听音能力对于录音师来说至关重要。在工作过程中，任何一个录音参数的设定、传声器的选择和摆位等，都会对最终录制出来的声音有一定的影响。这也就要求录音师能时刻根据听到的声音效果做出判断调整。这种对声音的专业听评能力并不是完全与生俱来的，而是随着工作经验的累积得到提升，或者通过系统的听音训练在更短的时间里取得一定的进步。然而，对于一些刚刚接触录音行业的受训人员，由于缺少实践经验和对声音的敏感性，可能在听音训练中无法快速地理解、区别听音要素。因此，有必要通过一定的方法来帮助受训人员更好地理解各种声音要素的变化，提高训练效率。

在面临复杂环境时，听觉、视觉等多种感知通道会产生交互，以保证对当下情况的充分了解。也有研究表明，跨通道的训练效果等效甚至更好于单通道的训练效果。因此笔者设想，在现有的听音训练机制中引入一个视觉上的参考信息，帮助录音师从另外一个角度加深对声音要素的理解，有利于准确快速地达到训练的目标，提高训练效率。

在听音训练中引入视觉信息，需要保证该视觉信息可以与声音要素的变化相对应，保证视觉信息起到帮助训练人员理解声音信息的作用。因此，该设想的核心问题可以理解为声音信息的可视化，设想的关键在于确定适合于听音训练的声音与图像之间的映射关系。

2 声音可视化的研究现状

虽然至今针对听音训练进行视觉辅助的相关研究寥寥可数，但此类研究开展已久。声音与图像之间的映射关系在20世纪就已经被提出。已有研究中，声音参数大多映射到圖像的颜色、形状和纹理，其中与颜色空间的映射是常常讨论的内容。由于研究方法以及应用情况不同，各个文献研究所提出的模型也不尽相同。

Walker R（1987）[1]通过实验研究了四个声学参数（频率、波形、幅度和持续时间）的视觉隐喻选择，结果显示出以下的倾向：频率与垂直位置相匹配，幅度与大小相匹配，波形与图案相匹配，持续时间与水平长度相匹配。同样，Scott D. Lipscomb与Eugene M. Kim（2004）[2]的实验也调查了声音参数音高、响度、音色和持续时间与视觉参数颜色、垂直位置、形状和大小之间的映射关系，结果显示：除了持续时间与任何视觉参数匹配程度都并不高外，其他结果与WalkerR的实验一致。但其发现某些参数并不仅有单一的匹配，例如视觉参数颜色与声音参数音高和响度均可匹配。Mats B. Küssner与Daniel Leech-Wilkinson（2013）[3]的实验通过直接绘画出相应的被试聆听素材的方法，也验证了WlakerR关于音高、响度、持续时间的映射关系。

在Giannakis， K与 Smith， M（2001）[4]的实验里，考量的声音参数为响度和音高，视觉参数则是HSV颜色空间（Hue-Saturation-Value）。结果显示，纯音的响度和音高可以分别与饱和度（Saturation）和明度正相关;没有发现色调（Hue）与音高或响度有任何直接的关联，但色调和某些声音频率范围之间存在一定的关系。Giannakis K（2006）[5]通过实验探究了音高、响度、音色与两种视觉映射的关系，其中音色维度展开为尖锐度、紧凑度与不和谐度（粗糙度）。结果显示，对于音高，高度的映射优于亮度的映射;响度上，映射到饱和度与映射到亮度的两种理解性都很好;音色上，尖锐度、紧凑度与不和谐度分别映射到纹理粗糙程度、粒度与纹理重复的规则性比分别映射到线数量、像素化和密度更为容易理解。

另外，很多文献没有通过实验来探究基本视听参数的映射关系，但也提出了在不同应用前提下的可视化解决方案。对于一些需要表征声音元素的具体位置等信息的可视化模型，很多文献都将声音元素表现为球体。David Gibson（1997）[6]在表示混音情况时，就引入球体来表示不同的乐器元素。声像位置由左右的变化来体现，音量大小主要由前后来体现，音高即频率高低由上下来体现。Jarrod Ratcliffe （2014）[7]加入手势的混音控制器中的可视化模型参考了David Gibson的设置。Kaper H G， Wiebel E与Tipei S（2000）[9]的M4Cave为呈现声音在声场中的位置，将声音呈现为一组球体，频率决定球体沿垂直轴的位置，振幅与球体大小成比例，混响则会影响球体颜色。Outram B I. （2016）[10]在对音乐的可视化中，把频率映射到颜色，即将声音的等响度校正的对数频率功率谱映射到有效可见光功率谱上，音量映射到球体大小，不同的乐器音轨对应着上下空间中不同的行，时间处于前后向的空间维度上。

同时，还有一些不同应用环境下的可视化模型在视听要素的选择上另辟蹊径。Stephen V. Rice （2005）[13]直接制定了从声音频率信息到颜色的映射关系，例如红色成分的颜色会分配给高频，深色分配给低频，中频至高频呈绿色，低频至中频则呈蓝色等，以达到使用者更快识别音频片段的目的。Grill T与Flexer A（2012）[14]将音高从高到低的映射选择为亮度与色调相结合，即从明亮黄色到深红色;同时其还将一些听觉主观感受作为可视化对象，比如将乐音程度、有序性、粗糙程度等映射到色彩饱和度、瓦片元素的规律性、瓦片元素轮廓的粗糙度等。后续调查评估显示，被试者可以将声音与正确的图像相关联。另外，对于部分涉及音频检索的可视化应用，其声音要素的选择就更加多样。George Tzanetakis（2000）[15]通过主成分分析（PCA）提取特征向量的前三个主要分量，将其映射到RGB或HSV颜色空间中的颜色。Andrew Mason， Michael Evans与 Alia Sheikh（2007）[16]也选择了三种音频特征（过零率等）映射到RGB颜色空间。

综上所述，可视化中考虑的声音要素一般都会涉及音高（频率）、音量（幅度），对于音色，有的文献将音色看作一维维度（仅使用不同的乐器素材来表示），也有文献将音色展开为尖锐度、紧密度、和谐度等多维度。视觉要素则比较多样，轴向位置、大小、形状、颜色、纹理排布等都有被使用;对于颜色，部分文献使用了颜色空间的理念，部分文献仅选用几种颜色进行探讨，也有文献将可见光谱展开来进行映射;形状、纹理排布的选用也都各取所需。另外，由于应用不同，对于可视化的需求就有一定差别。比如对乐曲等可视化就需要考虑乐曲本身所带有的其他音乐属性，音频检索等则考虑识别效果。另外，从一些文献的实验结果来看，对某一参数的映射并不是唯一的：音高映射到高度、亮度、颜色都是可以被识别的;基于光波长变化的颜色也均能与音高和响度匹配。因此，可视化的选择并不是唯一的，具体的可视化方案必须从应用层面出发，选择合适的映射关系。对于视觉辅助听音训练的声音可视化这一应用情况，需要综合已有可视化的成果来进行新的建构，以突出听音训练所需要关注的听觉要素。

3 听音训练的方法背景

听音训练的方法自Letowski（1985）[19]就已经开始了研究。基本训练方法是让受训人员将参考信号与其经过声学修改的版本进行比较，了解其差异，然后重复此过程直到他们能够可靠地确定声音差异。通过重复和定期练习，人们可以获得对声音细节更高的敏感度，提高耳朵识别信号处理中特定参数的效率和准确性。传统上，听音训练是团体培训，需要专业的讲师指导。讲师可以为受训人员提供一定的示范讲解，受训人员也可以分享听觉体验，达成一定的交流反馈。但其对时间、环境、人力都有一定的要求。这种情况下出现了各种形式的教材，如D. Moulton 的“Golden Ears”CD， HARMAN的“How to listen”、L. Herranz的“Train your ears”等软件，以及书籍与软件结合的Jason Corey的“Audio Production and Critical Listening： Technical Ear Training”[20]等。隨着计算机水平的发展，目前很多关于听音训练软件中的互动反馈、自适应、个性化难度设置的研究也取得了一定的成果。

4 声音可视化在听音训练上的应用

有很多研究表明，跨模态训练存在潜在的学习优势。首先，当同时有多种感官参与训练时，学习的注意力自然会更加集中。第二，关联性强的其他模态的信息介入，有助于学习者产生联想记忆。第三，跨模态的训练可能会引导学习者扩展发现单一模态下不容易注意的信息。

其实，在相关音频工作中已经依靠了一定的视觉提示，如电平表、波形显示和一些直观的信号处理参数。相较于视觉信息，声音的无形性更加明显，因此，需要一些具体而有形的信息来帮助认识抽象概念。所以，对于新手来说，相比于声音信号的细微变化，视觉信息的变化会更容易被注意到。

目前，将视觉信息与听音训练联系起来的研究仍然寥寥无几。Thilo Schaller与Ian G. Burleigh [21]提到了应用可视化的听音训练方法，试图通过可视化来解释相关理论，例如演示了复杂的周期波形的正弦分量加法合成，来表现分量的幅度相位变化对整体声音的影响;使用音高螺旋（PitchSpiral）来演示复杂音调的谐和性等。对于听音训练，则开发了噪声螺旋（Noise Spiral），如图1所示，来进行均衡的频带变化识别，噪声螺旋可以显示频率及元音共振峰数据，与其他听音训练方法类似，要求受训人员通过噪声或音乐等素材来进行识别频率带的提升或衰减。

Thilo Schaller与Ian G. Burleigh的可视化则聚焦于如何让受训人员更好地理解听辨内容的原理，其可视化需要一定的注意力去观察理解，而并非是直观的视觉感受。

可视化是否必须精准细致，是值得讨论的。如果追求精准的声音可视化，实时频谱分析无疑是一种细致清楚的方法，可以准确客观地显示频率成分等。但大家并不会在平时的混音工作中十分依赖它，原因在于声音信号是时刻变化的，实时频谱也随之变化，使其难以被迅速理解，反而分散了大量的注意力，增加了工作负担。这也是这类精准的可视化对听音训练不适用的原因。

听音训练可视化的目的并不是为受训人员提供详细的频谱内容。听音训练的本质仍然在于“听”，如果视觉信息喧宾夺主反而会起到反作用。因此，该可视化模型的具体呈现需要比较简化，使其在起到提示作用的前提下，尽可能少地分散用户的注意力。

在声音对应的音高、响度、音色三大特征中，音高与响度主要的影响因素就是频率和幅度，而音色是一个多维属性，不同的乐器、不同的发声方法会使音色变化万千。值得一提的是，普通人就已经具备分辨出小提琴与大提琴音色不同的能力了，因此，在音频工程师的工作中，对这种显而易见的音色变化的辨别是不需要去练习的，需要练习的是来自于信号处理带来的频谱内容以及频谱平衡上的一些变化。所以，笔者选择了频率和幅度作为听音训练可视化中考量的声音要素。

對于视觉素材的选择，正如前文所述，并没有完全统一的结论。在此处，笔者更加倾向于在频率与色调、幅度和亮度之间建立联系。众所周知，频率与声波的波长有关，而色调也与可见光的波长有关，颜色的冷暖与声音的冷暖也都具有一定的类比关系。幅度和亮度都是一种能量多少的象征，即都来自强度这一概念，两者之间也可以较好地建立联系。这一可视化方案的视觉参数较少，在视觉呈现上用色块的亮度变化即可完成，可以达到简洁且非绝对化的提示作用。

另外，给用户一个来自于其他模态的提示信息，某种意义上是需要靠受训人员的直觉来感应的。“直觉”的概念是模糊的、因人而异的，是否能起到帮助理解的作用，也与其自身的知觉感应有关。具体的可视化方案的优化及其效果仍然需要通过后续的系列实验来进行验证。

参考文献：

[1] Walker R. The effects of culture， environment， age， and musical training on choices of visual metaphors for sound[J]. Perception & Psychophysics， 1987， 42（5）：491-502.

[2] Lipscomb S D. Perceived Match Between Visual Parameters and Auditory Correlations ： An Experimental Multimedia Investigation[C]// International Conference on Music Perception & Cognition. 2004.

[3] Kussner M B， Leech-Wilkinson D. Investigating the influence of musical training on cross-modal correspondences and sensorimotor skills in a real-time drawing paradigm[J]. Psychology of Music， 2013， 42（3）：448-469.

[4] Giannakis K， Smith M. Imaging Soundscapes：identifying cognitive associations between auditory and visual dimensions [J]. Musical Imagery， 2001， 161-179.

[5] Giannakis K. A comparative evaluation of auditory-visual mappings for sound visualisation[M]. Cambridge University Press， 2006.

[6] David Gibson.The Art of Mixing[M]. MixBooks ， 1997.

[7] Ratcliffe J. MotionMix： A Gestural Audio Mixing Controller[J]. 2014.

[8] Ferguson S， Moere A V， Cabrera D. Seeing Sound： Real-Time Sound Visualisation in Visual Feedback Loops Used for Training Musicians[C]// International Conference on Information Visualisation， 2005. Proceedings. IEEE， 2005：97-102.

[9] Kaper H G， Wiebel E， Tipei S. Data sonification and sound visualization[C]// Computing in Science and Engineering. 2000：48 - 58.

[10] Outram B I. Synesthesia audio-visual interactive-sound and music visualization in virtual reality with orbital observation and navigation[C]// IEEE International Workshop on Mixed Reality Art. IEEE， 2016：7-8.

[11] Ford J， Cartwright M， Pardo B. MixViz： A Tool to Visualize Masking in Audio Mixes[J]. 2015.

[12] Wedekind S， Fraundorf P. Log complex color for visual pattern recognition of total sound[J]. Journal of the Audio Engineering Society， 2016：Paper Number 9647.

[13] Rice SV， Frequency-Based Coloring

of the Waveform Display

to Facilitate Audio Editing and Retrieval[J]. Journal of the Audio Engineering Society， 2005：Paper Number 6530.

[14] Grill T， Flexer A. Visualization of perceptual qualities in textural sounds[C]// International Computer Music Conference. 2012：Paper Number 9647.

[15] Tzanetakis G， Cook P. Audio Information Retrieval （AIR） Tools[J]. IN PROC. INT. SYMPOSIUM ON MUSIC INFORMATION RETRIEVAL （ISMIR， 2000：II-725 - II-728.

[16] Mason A， Evans M J， Sheikh A. Music Information Retrieval in Broadcasting： Some Visual Applications[J]. 2007.

[17] O'Sullivan L， Boland F. Visualizing and Controlling Sound with Graphical Interfaces[C]// Audio Engineering Society Conference：， International Conference： Audio for Games. 2011.

[18] Berthaut F， Desainte-Catherine M， Hachet M. Combining audiovisual mappings for 3D musical interaction[C]// 2010.

[19] Letowski T. Development of Technical Listening Skills： Timbre Solfeggio[J]. Journal of the Audio Engineering Society， 1985， 33（4）：240-244.

[20] Corey， Jason. Audio production and critical listening ： technical ear training[M]. Focal Press， 2010.

[21] Schaller T， Burleigh I G. Using Web Audio for Ear Training of Sound Engineers[C]// UkAes Conference on Audio Education. 2015.

演艺科技2018年10期

演艺科技的其它文章: 中国演艺装备行业统计数据分析报告; 2018赴欧演艺灯光专业考察综述; 给灯光控制台选择合适的以太网协议选项; 浅谈舞台影视灯光的技术与艺术之美; 浅谈广播直播车的系统维护和故障处理; 维也纳金色大厅的声场模拟分析