计算机时代下的大观园

2015-05-30 13:19潘欣源
科技资讯 2015年26期
关键词:复杂网络大观园红楼梦

潘欣源

摘 要:用复杂网络分析人物的关系是一个创新,它抛开人们的主观判断,以数据为分析依据。由网络图呈现出的人物关系更加直观,而聚类则能帮助我们进一步地了解人物所属的社交圈。本文通过复杂网络研究红楼梦人物关系,从而有助于我们在书中等级制度森严的社会环境下,排除地位高低,进一步地挖掘人物之间的社交关系。也可以通过宝黛钗,通过十二钗的纠葛,看清故事是如何发展,看清大观园是如何曲终人散。期望对研究红楼梦丰富的思想内涵和文化内涵有所帮助。

关键词:计算机 大观园 复杂网络 红楼梦

中图分类号:TP242.6? 文献标识码:A 文章编号:1672-3791(2015)09(b)-0000-00

一部红楼,半部人生。红楼梦这部“封建中国的百科全书”,因其恢弘的社会背景、复杂的人物关系、紧密而细致的构思,自诞生的一天起,就引来了许多人的研究(最早的如脂砚斋),时至今日,红学仍是一门高关注度、高吸引度、高参与度的研究学科。

然而人力毕竟有限,常有人道“一生也读不透红楼”。这是一个提倡回归优秀传统的时代,也是一个大数据飞速发展的时代,这个时代既渴望文字的魅力,又要求准确与效率。在这样的要求下,通过复杂网络研究红楼梦人物关系不失为一件创举。

1 复杂网络

复杂网络简而言之是呈现高度复杂性的网络,其复杂性主要表现在以下几个方面:结构复杂、网络进化、连接多样性、动力学复杂性、节点多样性、多重复杂性融合。在自然科学领域,网络研究的基本测度包括:度(degree)及其分布特征,度的相关性,集聚程度及其分布特征,最短距离及其分布特征,介数(betweenness)及其分布特征,连通集团的规模分布。

复杂网络一般具有以下特性:第一,小世界。大多数网络尽管规模很大但是任意两个节(顶)点间却有一条相当短的路径。例如,在社会网络中,人与人相互认识的关系很少,但是却可以找到很远的无关系的其他人。第二,集群即集聚程度(clustering coefficient)的概念。例如,社会网络中总是存在熟人圈或朋友圈,其中每个成员都认识其他成员。集聚程度的意义是网络集团化的程度;这是一种网络的内聚倾向。连通集团概念反映的是一个大网络中各集聚的小网络分布和相互联系的状况。例如,它可以反映这个朋友圈与另一个朋友圈的相互关系。 第三,幂律(power law)的度分布概念。度指的是网络中某个顶(节)点(相当于一个个体)与其它顶点关系(用网络中的边表达)的数量;度的相关性指顶点之间关系的联系紧密性;介数是一个重要的全局几何量。顶点u的介数含义为网络中所有的最短路径之中,经过u的数量。它反映了顶点u(即网络中有关联的个体)的影响力。无标度网络(Scale-free network)的特征主要集中反映了集聚的集中性。

2 研究方法

2.1 绘制复杂网络图

既然要用复杂网络来研究书中的人物关系,那么首先应当将其量化。复杂网络中,人名作为节点,人与人的关系作为边。我们可以找到一个人名的数据库,其中包含了红楼梦中所有人物的名字,然后用人名去做匹配。在初步阶段可以认为两个人在同一个句子中出现即存在关系,边的权值便+1。节点和边以及边的权值都确定后,用Excel分别输入两个csv文件,一个存储的是节点数据,一个是边的数据。再将文件导入到Gephi软件中,利用其绘制出人物关系的复杂网络图(见图1)。

图1(人物关系网络图)

2.2 数据处理

得到人物网络图后,一些简单的数据可以直接通过Gephi自带的功能计算得到,例如度分布(Dgree Distribution)、接近中心性(Clossness Centrality)、中介中心性(Betweenness Centrality)、平均路径长度等。另外,通过对小说中每一章节人物出场的统计,我们还可以得到人物出场的顺序及频率,并绘制相应的图表(见图2和图3)。

图2(贾宝玉出场频次)

图3(主要人物出场频次)

图4(主要人物出场频次)

2.3 聚类分析

聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。它作为数据挖掘中的一个模块,可以作为一个单独的工具以发现数据库中分布的一些深层的信息,并且概括出每一类的特点,或者把注意力放在某一个特定的类上以作进一步的分析。

目前已存在多种复杂网络聚类算法,按照所采用的基本求解策略,本文将它们中的大多数归纳为两大类:基于优化的方法(optimization?based?method)和启发式方法(heuristic?method)。前者将复杂网络聚类问题转化为优化问题,通过最优化预定义的目标函数来计算复杂网络的簇结构。后者将复杂网络聚类问题转化为预定义启发式规则的设计问题。除了以上两类方法之外,还存在其他类型的复杂网络聚类方法。

复杂网络图中节点表示人,有向边表示人与人之间的社会关系,权值表示关系的强弱,路径表示由社会关系组成的“关系链”,网络簇表示由多个具有共同属性的人组成的“社团”。

俗话说:“物以类聚,人以群分”,我们可以通过数据对小说中的人物进行分类,划定不同的社交圈。例如,贾宝玉有很多丫鬟,但是他和不同丫鬟的关系一定有亲疏之分,那么他和谁更亲密?书中上百个角色,不同年龄、不同性格的人趋向于构成不一样的小团体,每个人属于哪一个团体?聚类分析解决了这些问题。通过聚类,我们可以很容易的将不同类的人区分开。这一方法有助于我们在书中等级制度森严的社会环境下,排除地位高低,进一步地挖掘人物之间的社交关系。这一方法进而也可以运用到更为复杂的社会人物网络中。

但仅仅就是研究人物关系吗?当然不是。一部经典作品,能够流传于世,必定是有很强逻辑性的。《红楼梦》始终笼罩着一层中国式的天长地久的大悲哀,虽无大波澜,但却一日不如一日。这是有必然原因的。比如黛玉和晴雯,她们有着朦胧的人格意识与相对独立的精神,她们勇于向礼教发出挑战,勇于追求平等与尊严。黛玉葬花、晴雯撕扇;黛玉为宝玉哭肿了眼,晴雯为宝玉补雀金裘……她们的行为,一点一滴地被忠实地计入数据,在一个又一个“巧合”中,走向命定的结局。何以爱之?爱其天真!因其天真,故不得不死!

由此,我们也可以通过宝黛钗,通过十二钗的纠葛,看清故事是如何发展,看清大观园是如何曲终人散,空余一片“白茫茫大地真干净”的。因而也能更好地理解曹雪芹隐射其中的对封建社会的哀呼。

3 结语

《红楼梦》只留下前八十回,而高鹗的续作也只能算作差强人意。譬如,妙玉是金陵十二钗中唯一一个既跟贾家没有血缘关系,也没有亲属(包括结婚)之关系,然而却排进了金陵十二钗正册中第六,直接地排在了王熙凤之前,这必定是在后四十回有某些因素妙玉才能够排到如此地位,而高鹗却没有写出来。“可怜金玉质,终陷淖泥中。”后人普遍认为妙玉是遭劫而后遇害。而通过复杂网络,我们会对妙玉、秦可卿等人的结局有一个更客观、更精准的认识,甚至是一个全新的认识。

用复杂网络分析人物的关系是一个创新,它抛开人们的主观判断,以数据为分析依据。

由网络图呈现出的人物关系更加直观,而聚类则能帮助我们进一步地了解人物所属的社交圈。希望用复杂网络研究人物关系的方法能够得到广泛地应用。

参考文献

[1] 董瑜,谌志群,王荣波,黄孝喜.维基百科人物关系知识网络的复杂性分析[J].杭州电子科技大学学报,2015,35(05).

[2] 涂欢.基于复杂网络的社交网站客户关系研究[J].华东交通大学学报,2013.

[3] 胡文彬.红楼梦人物谈[M].文化艺术出版社,2005.

猜你喜欢
复杂网络大观园红楼梦
论《红楼梦》中的赌博之风
从《红楼梦》看养生
《〈红楼梦〉写作之美》序
别样解读《红楼梦》
基于图熵聚类的重叠社区发现算法
基于复杂网络理论的通用机场保障网络研究
城市群复合交通网络复杂性实证研究
大观园
大观园
大观园