以分形维数测算分析故宫空间序列的视觉信息量

2020-07-15 02:21马兰张华

建筑遗产 2020年1期

马兰张华

1 引言

在人对建筑的感知体验中，视觉无疑是最直接有效的感官之一。文学作品对建筑的描写也多诉诸视觉体验，如杜牧《阿房宫赋》中的这段描写：“五步一楼，十步一阁；廊腰缦回，檐牙高啄；各抱地势，钩心斗角。盘盘焉，囷囷焉，蜂房水涡，矗不知其几千万落。长桥卧波，未云何龙？复道行空，不霁何虹？”[1]从中我们可以感受到，唐代诗人杜牧从视觉感知方面描述了在阿房宫中行走的体验，由见之所见，进而感之所感。但在感性之余，如何在建筑的研究中更加科学地分析建筑空间视觉体验，如何更加准确地理解前人的建造智慧，却是值得进一步思考的问题。

中国传统建筑往往以组群形式出现，单体建筑在“礼制”等因素影响下以特定的规则排列组合来体现等级制度。相较于西方传统建筑的以“体量”取胜，中国古代建筑则依靠“数量”的增长和层次的丰富来完成深远旷阔的蓝图[2]129-130。例如北京故宫，作为修建于中国明清两代的皇家宫殿，其南北长961 m，东西宽753 m，占地面积约720 000 m2，是中国迄今为止保存最完整、规模最大的古代建筑群，也是中国宫殿建筑的精华所在。根据1973 年专家现场测量，故宫有大小院落90 多处，房屋980 余座，共计8 707 间。如此规模庞大的建筑群以水平的态势出现在北京城的中心。

故宫内的单体建筑平面简洁，一目了然，而广场庭院空间作为联系众多建筑的介质，其平面组织却变化丰富，严谨复杂，“使人从一个层次进入另一个层次的时候，由视觉的效果而引起一连串的感受，并且产生情感上的变化。”[2]153。因此本文在计算机算法技术的辅助下，以分形维数来计算与分析故宫中轴线序列空间中的视觉信息特征。

2 用分形维数测算视觉信息量

人脑通过眼睛接收到的图像，其视觉信息量是不同的。如图1 中两幅图所示，第一幅简单明了，而第二幅相对复杂，需要人驻睛观看。也就是说图像的复杂程度决定了人的视觉兴趣点所在[3]。那么对于包罗万象的世间景物，应该如何测算其视觉信息量？分形维数的概念可以对此有所帮助。

分形几何理论是由波兰数学家芒德勃罗（B. B. Mandelbrot）在1973 年提出，用来描述自然界中破碎或不规则的物体，属于当代复杂性科学的分支之一。分形维数则是分形几何理论中的度量参数，突破了欧式几何中整数维（零维、一维、二维以及三维）的限制，将维数扩展至小数的范围，可以更加准确的测量或描述复杂无规的物体。一般来说，分形可分为两类：单一分形（uni-fractal）与多重分形（multi-fractal）。单一分形是数学意义上严格的分形，其无限迭代，并在所有尺度上保持自相似特征，因此其分形维数也在所有尺度上保持一致；而现实中大多数事物往往没有明显的自相似性，或自相似性质只在少数几级尺度上成立，这种情况则被称为多重分形，其分形维数会随着尺度的变化而有所不同。分形维数代表了几何图形占有空间能力的大小，某种程度上也是对几何图形复杂程度的度量。因此本文以分形维数的测算来分析建筑与空间中所隐含的视觉信息量。

图1 复杂度不同的两幅画（图片来源：马兰绘制）

分形维数的算法有很多，例如拓扑维数、自相似维数、盒维数，以及豪斯道夫（Hausdorff）维数等。不同的计算方法适用于不同的情况，并且计算结果也稍有差异。相较于其他算法，本文使用的盒维数法是一种纯几何式计算方法，其直观性更适用于建筑学领域[4,5]。以经典分形几何图形“Koch曲线”为例（图2），盒维数的具体计算方法为：对于测算对象S，用边长为ε 的盒子去覆盖要计算的平面图形，记录下所需最少盒子数N(ε)，之后以相同的速率不断缩小盒子的尺寸ε1，ε2，ε3…εn，分别得到与其相对应的最少覆盖盒子数N(ε1)，N(ε2)，N(ε3)…N(εn)，建立log(1/εn)与logN(εn)的坐标系，并标出每组数据在坐标系中对应的点，那么贯连这些点的拟合直线的斜率为此测算对象S的分形维数（Fractal Dimension，简称FD）。计算函数为式（1）所示，盒维数就是在盒子尺寸的逐步精化的过程中（ε →0），覆盖图形盒子数N(ε)增加的对数速率[6,7]。以此方法计算Koch曲线的分形维数，所得结果约为1.253，与Koch 曲线被广为接受的分形维数值1.262很接近。盒维数计算法存在着不可避免的计算误差，需要考虑其计算准确度。

根据此算法，笔者以Python 语言编写了相关分形维数的计算程序，并以此计算了两位现代主义建筑师勒 · 柯布西耶（Le Corbusier）与弗兰克 · 劳埃德 · 赖特（Frank Lloyd Wright）各自的的经典作品：萨伏伊别墅（Villa Savoye）与罗比住宅（Robbie House）的主立面分形维数，结果分别为1.4204 与1.6291（图3），这说明罗比住宅主立面的信息量要高于萨伏伊别墅，这个计算结果也客观反映了赖特亲近自然的“草原住宅”之间与柯布西耶追求纯净的“居住机器”的对比。

3 故宫中轴线建筑空间视觉信息量的计算方案

本文的计算对象为故宫中轴线中大清门到神武门的空间序列（贯穿大清门、天安门、端门、午门、太和门、太和殿、中和殿、保和殿、乾清门、乾清宫、交泰殿、坤宁宫、坤宁门、天一门、钦安殿、承光门、顺贞门，直到神武门），以分形维数计算其空间内的视觉信息量的特征与变化。

在中国传统建筑布局中，虚空间（庭院、广场等）往往同建筑单体拥有同等重要的地位，本文在计算过程中，以故宫建筑群高精度3DS MAX 模型①研究方案制定时曾设想过利用现场实拍照片，但由于照片中难以避免游客身影的干扰而改用计算机三维模型。经过笔者多方查证和对模型的多次修改校正后，最终所用的高精度3DS MAX 模型的准确度和细节呈现程度能够胜任分形维数计算的要求。为研究素材来源，首先在其中轴线序列上各个广场庭院空间内设置20 m×30 m 的点阵网络为观察点（图4a）。考虑到人在空间中对周围的事物的观察一般是全方位的，且人眼的双眼清晰可见视域范围约为60°[8]，所以在各个观察点处设置焦距为50 mm②一般来说，人眼对于立体物的焦距为16.7 mm，对图像的焦距为22.3 mm（参考https://hypertextbook.com/facts/2002/JuliaKhutoretskaya.shtml），但是这取决于我们对“看”如何定义，因为人眼的周边视觉比中心视觉弱很多，所以本文在模拟中将相机焦距设置为50 mm，此时所观察物体成像更清晰，并且在很大程度上减小了透视变形。的相机，每隔60°记录一个视角图像，并且360°环绕来模拟人的视觉（图4b）。以其中一个观察点为例，相机环绕一周捕捉到6 张视觉图像（图5a）。由于分形维数着重于测量几何图形的复杂性，所以被计算的图片需要经过边缘检测处理，只保留清晰的几何线条。图像的边缘检测是计算机视觉中特征提取的一种策略，突出图像的重要结构属性而剔除与之相关性较弱的信息。本文经过比较后，选取了Canny 边缘检测算法①笔者曾尝试过包括Canny 边缘检测、Sobel 边缘检测与Laplacion边缘检测在内的几种图像边缘检测算法。其中Laplacion算法所处理的图像对边缘的敏感度高，但常会出现虚假边缘；Sobel 算法的抗噪性稍好，但产生的边缘有强有弱，连续性差；Canny 算法经过滤波去噪、边缘增强以及双阙值检测，产生的边缘较完整清晰，能够更突出图案的几何特征，并且有较强的噪声抑制能力，能够尽可能多地标识出图像中的实际边缘，且误检概率非常小。经过比较，笔者认为Canny 边缘检测算法是更适用于本文分形维数盒维数的计算方法。，以Python 编写程序，将相机捕捉的图像转化为二值化像素格式（图5b），再将其输入到图片分形维数的计算程序中，由此得到每个观察点上六个不同视角图像的分形维数值，并以雷达图的形式表达该观察点上（图6）。以上述方法处理故宫中轴线序列中355 个观察点的2 130 张图像，并根据其分形维数计算结果建立整体中轴线序列的可视化雷达图（图7），以此为基础进一步分析故宫空间序列的视觉信息量。

4 故宫中轴线建筑空间视觉信息量的计算结果分析

通过上述计算，对所获得的故宫中轴线建筑空间视觉信息量数据进行分析，可以发现很多值得关注的现象。现分述如下：

4.1 对称性

在故宫中轴线序列的分形维数雷达图中，“红-橙-黄-绿”的颜色序列代表了每个观察点六个方向的平均分形维数值从高到低的顺序：色温越高，则分形维数值越高，人的视觉所接收到的信息也相应越多；色温越低，人的视觉所接收到的信息也就越少；而黄色在整个颜色序列里色温居于中间位置，表示信息量相对适中。通过观察可以发现，上述雷达图中最明显的特征是，雷达图分布无论在形体还是颜色上，都呈现明显的对称性（图8），这也正反映了故宫建筑群左右对称、强调中轴线的平面构图准则。

4.2 门

从整体分布图中还可看出，雷达图在门的位置上有较明显的变化。以序列中天安门、端门、午门、太和门与乾清门为例（图9），视觉信息量集中在南北两个方向，体现出极强的视觉导向性；并且平均分形维数很低，呈绿色，在视觉体验上压低了信息量。这样的变化使门成为了空间的转折点。门是中国传统建筑的重要组成元素之一，在空间序列中起到连接前后层次的作用，既是前一个空间段落的终结，又是下一个空间段落的起始。从视觉信息量的计算中可明确，故宫中轴线序列中的节奏与韵律主要是依靠门来体现的。

4.3 视觉信息量的分布

将图7 的雷达图改绘为色块图（图10），单独从颜色分布来观察，可知所计算空间序列中的视觉信息量分布与空间的形状是有联系的。

天安门前的广场空间呈横向矩形，视觉信息量高的偏红色区域亦以横向长弧形围绕天安门城楼，并恰好沿城门前金水河的形状。也就是说，人在金水河畔恰能接收到最多的视觉信息量，这印证了古人的设计智慧。城市规划理论家维尔纳 · 黑格曼（Werner Hegemann）与阿尔伯特 · 匹兹（Elbert Peets）、日本建筑师芦原义信都曾提出过空间中观察距离（D）与建筑高度（H）之间的比例关系[9,10]。其中黑格曼与匹兹提出当D/H=2，仰角为27°时，可以观看到建筑全貌。在天安门广场的中轴线方向上，视觉信息量最大的红色区域与天安门的距离恰好约为城楼高度的2倍（D≈72 m，H ≈33.7 m），也就是说，人在能看见天安门城楼的全貌时，可感知到最大程度的视觉信息量。

午门作为紫禁城内外的连接点，其南侧的竖向矩形广场引导着一条纵向持续较高的视觉信息带，其中红色区域分布在距午门D ≈75 m—272 m 的范围内，根据D/H 规则与午门建筑高度H ≈35.6 m 可得D/H≈2.1—7.6，也就是说在人们远观午门直至看到午门全貌的临界点时，会持续收到较高的视觉信息量。

端门、太和门前的广场以及御花园的空间相对接近方形，视觉信息量的排布也径向呈现由高到低的发散状。

对于序列中最重要的两处：外朝太和殿、中和殿、保和殿区域与内廷乾清宫、交泰殿、坤宁宫区域，虽然二者面积不同，但空间布局相似，因此视觉信息量的计算结果分布也呈相似状。二者都是在主殿前（分别是外朝太和殿、内廷乾清宫）的方形空间形成径向分布，跨过主殿之后的活动空间主要分布在两侧，信息量也随之下降至较低。在太和殿前的广场中，视觉信息量最高的区域主要分布在两处，分别是距离太和殿约76 m 与15 m 的区域，在76 m 时，D/H ≈2.2（太和殿总高度H 为35 m 左右），同样是在能看见建筑全貌的区域中视觉信息量最大，而在距建筑15 m 处时，则由于太和殿的建筑细节逐渐显现，而使视觉信息量随之增高。

由此看来，故宫庭院广场空间的形状、大小、性质的变化是产生不同视觉体验的的主要原因之一。故宫的中轴线序列将空间性质与视觉感受巧妙结合，行走在不同的空间可以获得不一样的体验。另外，在重要节点建筑前侧的空间中，视觉信息量较高的区域大多分布在距建筑高度两倍以上的地方（D/H>2），即从远观到可见建筑全貌临界的点之间。这也体现了在中国古代建筑的布局设计中更注重建筑的氛围渲染，而并不特别强调中心建筑的高大奇巧。这种布局方法，有节制地引导人们对建筑产生期待，使人们按设计意图逐步靠近并感受建筑。

4.4 空间序列

空间程序的巧妙安排是中国古代建筑的设计精髓之一。建筑群在水平方向上大规模延伸，特殊的“组织程序”使人在其中移动时可以感知到一连串不同的视觉影像，并由此引发综合心理体验。如果将计算范围内位于中轴线上的观察点提取，基于每个点的分形维数值形成一条平滑的曲线，便能看出人在随序列移动时视觉信息量的动态变化（图11）：整个序列好比一幅缓缓打开的画轴，一幕一幕相互衬托、交替出现，对节奏的把控使每个庭院广场空间都保持了一个视觉信息量的“低-高-低”完整变化周期，而门在序列中起到了节点的作用，使各空间在成为整体序列中有机组成部分的同时，也保持了各自的独立性。如果自最南端大清门进入沿中轴线前进，经过长廊，视觉信息量缓慢增长（①），而后有浮动地下降，直至穿过天安门（②）；接着在端门前与午门前的空间内（③、④），视觉信息量各自经历了“低-高-低”的完整周期后，直至太和门前；太和门与太和殿前广场空间是整个序列中最重要的空间，但是从分析结果看，⑤、⑥两段空间的视觉信息量并没有明显增长，而是保持较为平缓的波动，这种“周期式”和“去中心化”的设计手法正是中国传统建筑的独特之处：在故宫的中轴线序列上有大大小小十几种空间，各有其不同的建筑景观，但其中却没有尺度惊人的单体建筑成为压倒其他一切的存在，即便是地位最高的太和殿也不例外。但这丝毫没有影响到故宫建筑群的宏伟庄严之感，在⑤、⑥两段空间中视觉信息量呈高低起伏，表明人们在空间中穿梭时，动态视觉体验丰富多变，这种戏剧般的效果更具有心灵的深度震撼力。最后穿过乾清门，视觉体验在保持了一个短暂平缓的高信息量之后便逐渐消褪（⑦、⑧）。这种抑扬顿挫的空间序列安排，将“人”的感受置于“物”的自身表现之上，是中国传统建筑艺术中“以人为本”的境界所在。

4.5 视觉导向性

故宫中轴线空间内，从观察点的雷达图走势可以看出视觉信息量的导向：雷达图在哪个方向上延伸的越多，此方向视觉图像的分形维数越大，那么接收到的视觉信息量也就越高。纵观图7 分形维数雷达图，如果单靠肉眼观察其走势，很难做到清晰的分类与归纳。所以本文用机器学习（Machine Learning）中的SOM 算法（Self-Organizing Map）①自组织神经网络SOM 是机器学习中基于无监督学习方法的神经网络的一种重要类型，最早是由芬兰赫尔辛基理工大学图沃 · 科霍宁（Teuvo Kohonen）于1981 年提出的。算法通过对样本的学习能够将输入样本自动识别成组分类，它所形成的聚类中心能映射到一维或二维组织上并保持了原样本的拓扑结构不变。来对整体数据进行分类分析（Python编写）[11-13]，故宫空间序列中有355 个观察点，每个观察点都有6 个方向的视觉图像，组成了355 组分别包含6 个向量的数据集合（表1）。

经过SOM 算法训练，可将所有观察点的雷达图分为六组，分别以不同颜色来表示（图12）。图中的数字序号与故宫中轴线序列中观察点序号一一对应，便于将其还原到空间序列中，并按颜色分类列出，序列中雷达图的偏斜特征（视觉导向）便一目了然（图13）。紫色图块是向正前方的视觉导向，蓝色图块是向后方的视觉导向，红色图块的视觉导向偏左侧，青色则偏向右侧，绿色表示视觉分布相对均衡，而黄色则代表前后视觉加强而两侧视觉弱化。由分析图可知，在故宫中轴线空间序列中的355 个观察点中，向前（紫色）与向后（蓝色）的雷达图块所占比例较大，是序列空间中的主要视觉导向；左右两个方向（红色与青色）比例相仿，再次印证了故宫中轴线对称的布局特征；而强调前后两个方向的黄色雷达图大部分在长廊及门的位置。从图13 的整体视觉导向布局还可看出：序列中端门、午门、太和门、太和殿以及乾清宫南侧的五处空间都经过了在轴线方向上“三段式”的布局：紫色（向前）→绿色（四周匀称）→蓝色（向后），在视线上引导人们沿中轴线方向移动；在大清门与天安门之间的长廊以及各座门所对应的空间处，视觉信息量呈现出强烈的前后导向（黄色），引导人沿着南北轴线方向移动；而在天安门前广场中则以向后的视觉导向为主；在故宫核心景观的三大殿区域，视觉导向区域混合，表明此区域有最丰富的视觉信息。

5 总结

无论对于建筑师还是大众，建筑的外观与空间的视觉体验都是最直观的。而这些因素在以往的建筑分析中，常以“风格”“文脉”“感觉”等主观词汇来描述，不仅感性，甚至给人一种“只可意会而不能言传”的感觉。芦原义信曾在《外部空间设计》中提出：“空间基本上是由一个物体同感觉它的人之间产生的相互关系所形成，这一关系主要是由视觉确定的。”[10]1因此本文以分形维数的计算分析了故宫中轴线空间序列的视觉信息量，通过系统的图像捕捉与维数计算将建筑转化为数据形式，建立视觉复杂度相关的数据库。根据视觉信息量的大小、分布及倾向等研究视角，将数据处理为不同的结构，从而探索与分析隐藏在建筑背后的视觉复杂度特征。

需说明的是，视觉图像分形维数的高低并不是判断空间好坏的依据，视觉信息量的大小只是代表了不同的视觉感受。分形维数作为对几何形体占有空间能力的度量，如果与人的视觉相联系，量化人在特定空间对于观察目标的视觉信息接收量，对建筑分析与空间设计来说，都提供了新的思路，其进一步应用的潜力需要在今后的研究工作中进一步探讨。