红楼梦前80章与后40章的作者分析

2019-10-21 08:11谭翔予陈龙石水萌
锦绣·上旬刊 2019年5期
关键词:方差分析支持向量机红楼梦

谭翔予 陈龙 石水萌

摘 要:《红楼梦》的作者问题成功地吸引了国内外读者的注意。基于此,本文以数理统计为基础,应用支持向量机的理论和方法,建立相应模型,证实了《红楼梦》前80章回和后40章回在某些字、词、句上确实存在显著性差异。首先采用引用大胆假设,小心验证的思路,使用机器学习-支持向量机进行分类,通过高斯径向基函数,寻找到最优分类超平面,由于数据样本不足,导致分类结果正确率仅为85%;然后,使用matlab软件绘制类别分界图。最终效果:0-80章回在1的水平上,81-120章回在-1的水平上,并且分界点明显在80-81章回之间,佐证了《红楼梦》前80章回和后40章回作者不同。

关键词:红楼梦;格拉布斯检验;方差分析;支持向量机

0.引言

《红楼梦》,中国古典四大名著之一,清代作家曹雪芹创作的章回体长篇小说。《红楼梦》开篇以神话形式介绍作品的由来,说女娲炼三万六千五百零一块石补天,只用了三万六千五百块,剩余一块未用[5],弃在青埂峰下。剩一石自怨自愧,日夜悲哀。一僧一道见它形体可爱,便给它镌上数字,携带下凡。不知过了几世几劫,空 空道人路过,见石上刻录了一段故事,便受石之托,抄寫下来传世。辗转传到曹雪 芹手中,经他批阅十载、增删五次而成书。

以贾、史、王、薛四大家族的兴衰为背景,以贾府的家庭琐事、闺 阁闲情为脉络,以贾宝玉、林黛玉、薛宝钗的爱情婚姻故事为主线,刻画了以贾宝 玉和金陵十二钗为中心的正邪两赋有情人的人性美和悲剧美。通过家族悲剧、女儿悲剧及主人公的人生悲剧,揭示出封建末世危机。

同时也是一部具有世界影响力的人情小说作品[1],是中国古典小说巅峰之作,中国封建社会的百科全书,传统文化的集大成者。小说以“大旨谈情,实录其 事”自勉,只按自己的事体情理,按迹循踪,摆脱旧套,新鲜别致,取得了非凡的艺术成就。“真事隐去,假语村言”的特殊笔法更是令后世读者脑洞大开,揣测之说久而遂多[3]。围绕《红楼梦》的品读研究形成了一门显学——红学。

因某些历史原因,《红楼梦》在传播和保留过程中出现了令人遗憾的缺失。前80章回曹雪芹本著,120章回高鹗续40章回的两大版本,是目前公认的版本。本文通过建立SVM分类模型[2],就《红楼梦》前80章回和后40章回中的语句和语义来佐证前80章回和后40章回的作者不同。

1 数据预处理

1.1格拉布斯检验法

通过下列公式进行计算1-80章与81-120章“必是”、“索性”、“为什么”等词在不同章节出现的次数对应的<!--[if gte vml 1]> <![endif]--><!--[if !vml]-->3092465.png<!--[endif]-->值:

<!--[if gte vml 1]> <![endif]--><!--[if !vml]--><!--[endif]-->  (1)

<!--[if gte vml 1]> <![endif]--><!--[if !vml]--><!--[endif]-->经过一系列的计算,整理得到下表,用所得到的<!--[if gte vml 1]> <![endif]--><!--[if !vml]--><!--[endif]-->值与格拉布斯临界值检验表进行对比,其中<!--[if gte vml 1]> <![endif]--><!--[if !vml]--><!--[endif]-->,将异常数据剔除[4]。

通过对比格拉布斯临界值找出可疑极值点,将这些可疑极值点进行剔除。

1.2 距离反比加权插值法

由于相邻章节在内容和作者上都有很大的相似性,相邻章节之间的影响会比较大,所以采用距离反比加权插值法进行填补,更大程度上保留了章节的信息量,具体计算过程如下:

设每组数据之间的距离为1,权重计算公式如下:

5 SVM分类

先大胆假设,后合理验证。本文选择使用SVM[6]方法来进行学习分类,为了证明分界点在80章与81章之间,在语句和语义选择上。通过参考资料,分析出它们不同之处,用关键字词反映语句和语言的特点,最终选择了“怎么”、“若”两个作为代表,“怎么”代表反问句,“若”代表假设句。模型如下:

假设1-10章回与81-90章回作者不同;

选择核函数[10]进行SVM学习。

常用的核函数有四种,包括线性核函数、多项式核函数、径向基核函数、二层神经网络核函数,在这四种核函数中,最常用的是高斯径向基函数,它的特点:收敛速度快,泛化能力强。

作为核函数[7]进行SVM学习,找寻分类最优超平面,通过拉格朗日方法把问题转化为其对偶问题

<!--[if gte vml 1]> <![endif]--><!--[if !vml]--><!--[endif]-->为拉格朗日乘子该,问题就是求解最优化问题。分类函数变为

之后通过支持向量机进行分类分类效果见下图:

对分类结果进行分析,使用的SVM分类正确率为85%。因为样本个体的数据太少,学习样本数目不足,尽管对数据进行了处理[8]但仍然有较大的随机性,将分类结果做成表格(数据见附录)和图,分析两类的分界点。

求证分类

结论

分界点明显在80章和81章之间,虽然中间有少量章节被错误划分,但是在假设的前提下,可以认定《红楼梦》前80章回和后40章回不是一个作者。

参考文献

[1]汪维辉.《红楼梦》前80回和后40回的词汇差异[J].古汉语研究,2010(03):35-40+95-96.

[2]施建军.基于支持向量机技术的《红楼梦》作者研究[J].红楼梦学刊,2011(05):35-52.

[3]杨粟森,彭旭,赵映诚.基于数理统计的《红楼梦》前80回与后40回相关性的多指标综合分析[J].电子世界,2017(02):197-199.

[4]公丽艳,孟宪军,刘乃侨,毕金峰.基于主成分与聚类分析的苹果加工品质评价[J].农业工程学报,2014,30(13):276-285.

[5]胡竹菁,戴海琦.方差分析的统计检验力和效果大小的常用方法比较[J].心理学探新,2011,31(03):254-259.

[6]杨小勇.方差分析法浅析——单因素的方差分析[J].实验科学与技术,2013,11(01):41-43.

[7]林海明,杜子芳.主成分分析综合评价应该注意的问题[J].统计研究,2013,30(08):25-31.

[8]丁爱玲,谢小军,闻怡.具有高斯核函数的支撑矢量机与径向基函数分类器的比较[J].交通与计算机,2003(03):44-48.

猜你喜欢
方差分析支持向量机红楼梦
细品《红楼梦》中的养生茶
假如《红楼梦》也有朋友圈……
续红楼梦
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于熵技术的公共事业费最优组合预测
高校二手书市场细分研究
基于支持向量机的金融数据分析研究
应用统计学课堂教学组织实践与探索
金华市大学生幸福感调查研究