《红楼梦》研究中的统计方法综述

2019-01-28 03:11施政
吉林省教育学院学报 2019年1期
关键词:统计方法红楼梦

摘要:将统计方法运用于红学研究,既拓宽了统计学的应用领域,也为红学研究提供了全新的方法,同时也取得了很好的研究成果。文章针对运用统计方法研究红学问题的文献,做了全面的回顾和梳理,总结了利用统计方法研究《红楼梦》的现状。分别从文献发表年代、采用的统计方法、研究角度、研究成果等方面阐述,并概括性地总结了研究的主要成果、研究中呈现出的问题及研究的主要趋势。

关键词:统计方法;红学研究;《红楼梦》

doi:10.16083/j.cnki.1671-1580.2019.01.035

中图分类号:1207 文献标识码:A 文章编号:1671-1580(2019)01-0151-06

“满纸荒唐言,一把辛酸泪。都云作者癡,谁解其中味?”作为四大名著之首,《红楼梦》堪称中国古典小说的巅峰之作,也被称为“中国封建社会的百科全书”和“传统文化的集大成者”。这部成书于现,两百多年前的小说,至今仍让很多人魂牵梦绕,这种吸引力除了来自于小说本身高度的文学性和现实意义外,也有来源于书里书外那些至今尚未被揭开的谜团。

芹系谁子?脂砚何人?续书作者?已被探讨多年,至今悬而未决。在红学研究的队伍中,有一类特殊的群体——具有数学背景的红学研究者,他们所具有的数学思维和科学方法,为解决这些悬案提供了另外一种角度。正因如此,为总结利用统计方法做红学研究的相关成果,将分别从文献发表年代、采用的统计方法、研究角度、研究成果等方面去分析。

一、红学研究文献统计

在1952年到2017年间,利用统计方法做红学研究,具有一定代表性的论文43篇,均已在参考文献中列出,其中收录在专著中的文章只算1篇,以每十年为一个统计周期,论文汇总如表1。

从表1可以明显看出:1980年之前,用统计方法研究《红楼梦》论文有两篇,一篇是《New excursionsin Chinese grammar》(B.Karlgren,1952),另一篇是《红楼梦新探》(赵冈,1970),1980年以后,相关论文逐渐增多。

1980-1989年间有《从词汇上的统计论(红楼梦)的作者问题》(陈炳藻,1980),《关于(红楼梦)时间进程和人物年龄问题的探讨——兼论电子计算机在红学研究中的初步运用》(彭昆仑,1984),《(红楼梦)后四十回决非曹雪芹所作——前八十回与后四十回虚词、词组及回目之比较》(曹清富,1985),《The Authorship of the Dream of the Red chamber》(陈炳藻,1986),《(红楼梦)前八十回与后四十回语言差异考察》(刘钧杰,1986),《(红楼梦)前八十回与后四十回语言风格差异初探》(张卫东,1986),《从数理语言学看后四十回的作者——与陈炳藻先生商榷》(陈大康,1987),《(红楼梦)成书新说》(李贤平,1987),《“(红楼梦)成书新说”难以成立——与李贤平同志商榷》(陈大康,1988)。

1990-1999年间有《红楼梦新探》(赵冈,1991),《计算机与“红学”研究综论》(贾洪卫,1991),《从“忙”和“连忙”看后四十回作者问题》(严安政,1991),《红楼梦亲眷谱》(何蕴理,1994),《红楼梦研究与电脑科技》(王三庆,1994),《(红楼梦)中差比句式的运用——兼论前八十回和后四十回的差异》(黄晓惠,1996)。

2000-2009年间有《关于(红楼梦)后四十回》(陈炳藻,2002),《红楼梦植物图鉴》(潘富俊,2005),《基于计算机的词频统计研究——考证(红楼梦)作者是否唯一》(李国强,2006),《(红楼梦)海棠花文化考》(姜楠南,2008),《趣话概率——兼话红楼梦中的玄机》(安鸿志,2009),《基于计算机的(红楼梦)字词浅探》(李瑞芳,2009),《(红楼梦)64、67两回可能非原作之一证》(严安政,2009),《基于计算机的(红楼梦)字词浅探》(李瑞芳,2009),《(红楼梦)前80回与后40回某些文风差异的统计分析(两个独立二项总体等价性检验的一个应用)》(韦博成,2009),《基于句类特征的作者写作风格分类研究》(张运良,2009)。

2010~2017年间,已发表的论文达17篇之多,有《关于以(红楼梦)120回为样本进行其作者聚类分析的可信度问题研究》(施建军,2010),《(红楼梦)前八十回和后四十回的词汇差异》(汪维辉,2010),《也谈(红楼梦)前八十回与后四十回语言差异问题》(杨婷婷,2011),《基于SVM的(红楼梦)写作风格研究》(张凯,2011),《基于支持向量机技术的(红楼梦)作者研究》(施建军,2011),《红学研究中长短句的多元统计分析》(施政,2011),《随缘话红楼——细说玄机骂雍正》(安鸿志,2012),《(红楼梦)前八十回和后四十回词频的对比研究》(包辰瑶,2013),《前后迥异的(红楼梦)色彩世界——基于前八十回与后四十回颜色词比较看全书作者不一致性》(曹莉亚,2014),《Multiple Authors Detee-tion:A Quantitative Analysis of Dream of the Red Chamber》(X.Hu,2014),《(红楼梦)计量风格学研究》(刘颖,2014),《(红楼梦)前八十回和后四十回颜色用词的差异研究》(解岩岩,2014),《(红楼梦)词和N元文法分析》(肖天久,2015),《基于计量文体特征聚类的(红楼梦)作者分析》(叶雷,2016),《数理话红楼》(安鸿志,2016),《基于数理统计的(红楼梦)前八十回与后四十回相关性的多指标综合分析》(杨粟森,2017),《(红楼梦)花草描写之统计分类研究》(喻晓玲,2017)。

二、红学统计研究方法分析

利用统计学的基本原理和方法研究红学问题,具体的方法主要表现在对字、词、句、颜色等进行频率上的统计,所使用具体统计方法和基本原理主要有:T检验、聚类分析法、ITC算法、KNN算法、二项总体等价性检验、区间估计、区间套定理、人工智能、主成分分析、典型相关分析、多维尺度法、广义线性模型、类x:距离与相关系数、SVM方法、MAT.LAB方法、ICTCLAS汉语词法分析系统、图论等方法。

三、红学统计研究角度分析

语体风格是人们在语言文字表达活动中的个人言语特征,是人格在语言文字活动中的某种体现,可以通过数量特征来刻画。通过分析、总结利用统计方法研究《红楼梦》文献,依据语体风格的特点进行分类,主要从以下六个方面进行阐述。

(一)从字、词、俗语、语法角度作分析

B.Karlgren(1952)对32种语法、词汇现象在《红楼梦》前八十回和后四十回出现的情况进行分析。赵冈(1955)对“了”“的”“若”“在”“儿”五个字出现的频率,作均值的t检验。陈炳藻(1980,1986)从字、词出现频率人手,对《红楼梦》和《儿女英雄传》两书作者用词出现的频率进行了比较。陈大康(1983)对《红楼梦》字、词、句进行了全面的统计分析,并对一些“专用词”如“端的”“越性”“索性”在各回中出现的情况进行统计分析。曹清富(1985)从虚词、词组及回目的运用等三方面进行统计分析。刘钧杰(1986)从语气助词“呢”、“吗(么)”,“给”和“与”,“给/与”,“吃(流体)”和“喝(流体)”,“把N说”等词的用法进行分析。张卫东(1986)统计了《红楼梦》中230个非常用字,尤其是4个粗话脏词和3个异体字的使用情况,以及每回结尾的差异,并统计了前八十回和后四十回的生僻字。李贤平(1987)以47个虚字(之、其、或、亦……呀、吗、咧、罢、……的、着、是、在……、可、便、就、但……、儿等)为识别特征,统计出每一回里变量出现的次数并进行分析。严安政(1991,2009)对“忙”字和“连忙”两词的运用进行统计。李国强(2006)将《红楼梦》每四十回为一单元进行划分,再对各部分,根据具体规则,对副词进行统计、计算、分析。李瑞芳(2009)从“了”“一用字”“听戏”“吃茶”等字进行分析。安鸿志(2009,2012,2016)对“今儿、明儿、昨儿……今儿个、明儿个、昨儿个……”等土语个数从无到有、从少到多的统计分析。施建军(2010,2011)以44个文言虚字频率为特征向量,对《红楼梦》120回进行了分类研究。汪维辉(2010)列出了100多个词语,分为四类并进行分析。张凯(2011)选择“之、了、的、在、就、方、因、便”等8个虚词进行分类研究。杨婷婷(2011)从“仔细”“一行”“念心儿”“该”等词语着手进行分析。包辰瑶(2013)统计七个虚字“之”“了”“的”“着”“一”、“就”“又”和“这”“是”“在”“来”这四个不属虚字但出现频率极高且不受情节内容影响的字进行分析。曹莉亚(2014)从用例数量、频度、种类特征,以及主要人物服饰色彩运用特点,深入研究《红楼梦》颜色词。刘颖(2014)考查前八十回和后四十回在字词及数词、量词、名词、动词、副词、助词、语气词、虚词、高频词的使用频率以及平均词长和词长变化程度差异。解岩岩(2014)应用配对样本T检验的方法,对《红楼梦》在前八十回和后四十回的颜色用词进行比较研究。肖天久(2015)对41个虚词、独有词和词的二到三元文法,同时利用实词词類和词长分布作为特征项进行分析。叶雷(2016)建立文本的特征矢量空间模型时,使用参照文本比较观察,以确认文体特征的提取以及相应的相似度测度对《红楼梦》著作权属性问题的有效性。杨粟森(2017)从介词、副词、颜色、人名、情绪词五种能够很大程度上反映作者写作风格的指标出发,对它们分别进行前八十回和后四十回的相关性分析判断,再利用p.值和层次分析法将五种指标的判断结果综合起来。

(二)从《红楼梦》中的时间进程、人物年龄和关系等方面进行了分析

彭昆仑(1983)探索《红楼梦》中的时间进程和人物年龄问题,解开了《红楼梦》中的年龄迷,研究进一步肯定了林黛玉入京都“九岁论”说。后来又定量研究《红楼梦》版本,模拟出《红楼梦》中的重要场景“怡红夜宴图”,解决了参加夜宴的总人数和夜宴上的座次排列。何蕴理(1994)利用图论研究《红楼梦》人物的亲眷关系。《红楼梦》人物关系复杂,但从数学的观点来看,却杂而不乱,借助于图的运算,得到了一些有价值的成果,从为数众多的亲上加亲关系中,筛选出实用价值较大的优化关系,引入血缘系数和亲疏度的概念,比较了庚辰本、程乙本,以及其他版本《红楼梦》人物及其亲眷关系的异同,为红学研究中许多问题的研究提供了有价值的信息。

(三)从语法句式结构这一角度分析

黄晓惠(1996)从语法句式结构着眼,考察了新旧句式在《红楼梦》中的使用情况,并用统计的方法显现了《红楼梦》前八十回和后四十回整体语言风格和人物语言风格存在的差异。张运良(2009)利用向量空间模型,以句类作为特征,通过混合句类分解等技术对句类向量空间降维,使用ITC算法对特征项进行权重计算,KNN算法进行分类并形成集成判决技术进行分析。施政(2011)利用多元正态总体均值检验的基本原理和方法对文学作品的长短句这一特征进行比较研究。以《红楼梦》为例,结合MATLAB软件计算结果,推断表明:前八十回与后四十回在长短句方面存在着显著性差异。

(四)从花卉、树木、饮食、医学与诗词等角度分析

潘富俊(2005)从《红楼梦》中提及的200多种植物作为统计研究对象:将120回的小说等分为三部分,前四十回平均每回出现11.2种植物,中间四十回平均每回出现10.7种,后四十回均数只有3.8种,后四十回中只有6成提到茶,且仅一种龙井茶;前八十回逾92%提到茶,且有9种茶。汤庚(2007)对《红楼梦》中海棠出现的频率进行统计。前八十回共有16回涉及海棠,平均每5回就有1回涉及海棠,后四十回仅有4回涉及海棠,平均每10回有1回涉及海棠,前八十回与后四十回在海棠出现的频率上呈有明显差异。韦博成(2009)选择花卉、树木、饮食、医药与诗词等5个情景指标,统计出它们在前八十回与后四十回中出现的频数,用“等价性检验”方法来检验二者的差异,其可信概率不低于98%;同时在树木的描写上也存在明显差异,其可信概率不低于95%。喻晓玲(2017)立足于文学领域的研究,文学领域的研究与植物学领域的研究存在一定的区隔,植物学家在进行统计时,往往注重数量上的齐全以及对植物属性的清晰阐释,而文学研究在求全的基础上,更加注重其文学功用。

四、研究成果分析

运用统计方法研究《红楼梦》,所得成果主要集中在以下几个方面。

(一)关于前八十回和后四十回作者问题的分析

关于前八十回和后四十回作者是否一致的结论,分析成果主要集中在两个方面:前后作者一致和前后作者不一致两种结论。

1.认为前后作者一致的文献(包括倾向于一致)

得出《红楼梦》前八十回和后四十回作者都是曹雪芹或者非常趋向于曹雪芹或作者一致(并未论及曹雪芹)的文章主要包括以下6篇:《New excur-sions in Chinese grammar》(B.Karlgren,1952),《从词汇上的统计论(红楼梦)的作者问题》(陈炳藻,1980),《电脑在文学上的应用:(红楼梦)(儿女英雄传)两书作者用词的比较》(陈炳藻,1986),《The Au-thorship ofthe Dream ofthe Red Chamber》(陈炳藻,1986),《(红楼梦)后四十回决非曹雪芹所作——前八十回与后四十回虚词、词组及回目之比较》(曹清富,1985),《基于计算机的词频统计研究——考证(红楼梦)作者是否唯一》(李国强,2006)。

2.得出前后作者不一致的文献(包括倾向于不一致)

得出《红楼梦》前八十回作者是曹雪芹而后四十回不是曹雪芹(或者趋向于其他作者)所作的文献主要包括以下21篇:《红楼梦新探》(赵冈,1970),《从数理语言学看后四十回的作者——与陈炳藻先生商榷》(陈大康,1983),《(红楼梦)成书新说”难以成立——与李贤平同志商榷》(陈大康,1988),《(红楼梦)前八十回与后四十回语言差异考察》(刘钧杰,1986),《(红楼梦)前八十回与后四十回语言风格差异初探》(张卫东,1986),《(红楼梦)成书新说》(李贤平,1987),《从“忙”和“连忙”看后四十回作者问题》(严安政,1991),《红楼梦植物图鉴》(潘富俊,2005),《(红楼梦)64、67两回可能非原作之一证》(严安政,2009),《(红楼梦)海棠花文化考》(姜楠南,2007),《基于计算机的(红楼梦)字词浅探》(李瑞芳,2009),《也谈(红楼梦)前八十回与后四十回语言差异问题》(杨婷婷,2011),《红学研究中长短句的多元统计分析》(施政,2011),《(红楼梦)前八十回和后四十回词频的对比研究》(包辰瑶,2013),《前后迥异的(红楼梦)色彩世界——基于前八十回与后四十回颜色词比较看全书作者不一致性》(曹莉亚,2014),《(红楼梦)计量风格学研究》(刘颖,2014),《(红楼梦)词和N元文法分析》(刘颖,2015),《(红楼梦)前八十回和后四十回颜色用词的差异研究》(解岩岩,2014),《基于计量文体特征聚类的(红楼梦)作者分析》(叶雷,2016),《数理话红楼》(安鸿志,2016),《基于数理统计的(红楼梦)前八十回与后四十回相关性的多指标综合分析》(杨粟森,2017),《(红楼梦)花草描写之统计分类研究》(喻晓玲,2017)。

以上两部分的分析可以看出,关于《紅楼梦》前八十回和后四十回作者是否一致的讨论,用统计方法讨论的结果主要分为两大阵营,一致和不一致,其中作者一致与不一致之比为6:21,即绝大多数统计分析结果认为前八十回为曹雪芹所写,而后四十回作者另有他人,这也与当前红学研究的主流成果相一致。

(二)关于时间进程人物年龄和“怡红夜宴图”等问题探讨所得结论

《关于(红楼梦)时间进程和人物年龄问题的探讨——兼论电子计算机在红学研究中的初步运用》(彭昆仑,1983)讨论了《红楼梦》中的时间进程、人物年龄等问题,解开了《红楼梦》中的年龄迷问题,研究表明林黛玉人京都“九岁论”说更符合生活和文学逻辑。《关于(红楼梦)时间进程和人物年龄问题的探讨——兼论电子计算机在红学研究中的初步运用》(彭昆仑,1984)运用统计方法研究《红楼梦》中的“怡红夜宴图”,并模拟出了“怡红夜宴图”,解决了参加夜宴的总人数以及夜宴上的座次问题,并以此评价版本的权威性。

(三)针对《红楼梦》人物的亲眷关系研究所得结论

《红楼梦亲眷谱》(何蕴理,1994)运用图论等相关理论,研究《红楼梦》人物中的亲眷关系,同时比较了庚辰本、程乙本,以及其他版本《红楼梦》人物及其亲眷关系的异同,为澄清曹雪芹原著的本来面貌,正确评价续补者的功和过,深入研究《红楼梦》的思想内容、艺术成就和版本演化,提供了一定的参考价值。

(四)关于“曹雪芹在书中藏有暗喜雍正归天的玄机”等结论

《数理话红楼》(安鸿志,2016)运用统计方法研究,得出了一系列研究结论:曹雪芹在书中藏有暗喜雍正归天的玄机;《红楼梦》最大的可能性是曹雪芹和他的叔叔写作的;对于胭脂斋的问题,觉得也不是一个人,几个人写批语,只借用了这一个名字,作者曹雪芹可能也在写;研究了《姑妄言》和《红楼梦》所使用的人物姓名的谐音笔法问题,指出后者继承和发扬了前者的笔法,其可信概率不小于98.4%。

(五)关于红楼梦中三十二个梦研究结论

《计算机与“红学”研究综论》(贾洪卫,1991)研究了《红楼梦》一书中三十二个梦,这些梦是否有内在的联系呢?将梦的文学描写变成数字模型,编好程序输入到计算机里,用计算机测定了它们之间的相关程度。比如第5回“贾宝玉神游太虚境”与第116回的梦,经过计算机分析,两个梦有许多相同处,“太虚幻境”与“真如福地”的环境名异实同,因此这两个梦有一定的内在联系。

五、结语

统计方法与红学研究相结合是社会科学与自然科学相互渗透、交叉应用的又一个新的尝试,这也是当今世界科学研究的重大特征之一。从1952年到2017年间,有几十篇论文及数部论著发表,都是利用统计学的方法来研究红学问题,数量不算少,但是研究的角度略显单一,讨论的焦点主要集中在《红楼梦》前八十回和后四十的作者是否一致上。所使用的统计方法也较单一,主要集中在对字、词、句数量特征的统计分析,得出相应的结论。

《红楼梦》作为中国文学史上一部伟大的作品,围绕它的研究应该持续很长一段时间,相信会有越来越多的数学家和数学爱好者从数学的角度去研究《红楼梦》,为红学研究开辟了一条全新的道路,同时也拓宽应用统计学运用的领域。

[责任编辑:王辰]

猜你喜欢
统计方法红楼梦
《红楼梦》中的女性形象分析
细品《红楼梦》中的养生茶
假如《红楼梦》也有朋友圈……
续红楼梦
作家阅读的方式
统计学最近邻分类方法在网络舆情分析中的运用
汉语词汇研究中的统计方法述评
统计方法的改革与创新分析
统计方法在企业财务分析中的应用
统计方法在我国经济领域的运用