大数据帮你进一步认识苏轼

2018-07-06 09:44官天泽徐子昂王储玉马梓铭葛宇轩
第二课堂(课外活动版) 2018年1期
关键词:编年高频词东坡

官天泽 徐子昂 王储玉 马梓铭 葛宇轩

编者按

不久前,北京清华附小六年级的学生成了“网红”。原因是几位小学生合作写了一篇论文《大数据帮你进一步认识苏轼》,利用大数据搜索,整理了苏轼诗词的高频用词,还展示了研究过程中克服文献查找困难的解决办法。很多人在惊叹的同时,也很困惑,为什么清华附小的学生这么牛?下面,我们选登《大数据帮你进一步认识苏轼》,看看这些小学生是如何开展研究性学习的。

前言:我们是清华附小2012级4班的学生,2017年正逢苏轼诞辰980周年,学校开展了一系列致敬苏轼的活动。我们利用课前时间演讲了解苏轼生平,在晨读时间吟诵苏轼的诗词,在暮省时间进行游戏飞花令,临摹苏轼的书法和画作,跟着康震老师一起品读苏轼。通过老师的推荐,观看了纪录片《苏东坡》。

随着对苏轼的了解越来越多,我们心中也产生了很多疑问。利用假期时间,我们进行了以苏轼为主题的小课题研究。同学们自愿组成小组,确定研究课题,进行小组讨论和分工。为了方便交流、讨论,我们组建了微信群和QQ群,大家在群里热烈讨论,特别是对于贡献了智慧的同学,组长还给他发红包。各小组同学将老师也拉入群中,大家一遇到疑难问题就随时向老师请教,老师成了同学们的“贴身军师”,思维在碰撞中产生了更多火花。

本次班级共完成课题研究报告23 份,研究主题各有不同:《大数据帮你进一步认识苏轼》《今人对苏轼的评价和苏轼的影响力》《行走的苏轼》《唯美景与美食不可辜负》《苏轼的朋友圈》《苏轼的心情曲线》《苏轼的旅游品牌价值》《苏轼VS李白》等等。

上学期我们用大数据的方法写了一首《如梦令》,这次我们小组研究苏轼,我们想再用大数据的方法对苏轼的诗词进行进一步的分析。

一、数据证明苏轼是名高产作家

首先我和徐子昂把苏轼的3458首诗词都找了出来,大概有25万字。我们发现唐宋诗词由9552位作者创作了276545首诗词,平均下来每位作者要完成28~29首诗词的创作,而苏轼一個人就相当于120位诗人,占了整个唐宋诗词量的1.25%。苏轼一共活了66岁(其实按照今天的计算方法来算,他只活了64年,古代出生的时候就算1岁,过了年又算1岁,所以在他出生半个月的时候就算2岁了),我们按照他的实际年龄来计算,他平均每年需要写54首诗词,这样下来平均每周至少写一首诗词。这些仅仅是他的诗词,不包括散文、札记、书信等。

二、通过数据看苏轼的人生经历

1. 我们的方法

我和爸爸通过电脑程序把苏轼的3458首诗词进行了分词研究,找出了这些诗词中的高频词。

排名前50的高频词表如下:

由于汉语里有很多一个字的词,这些词也需要考虑,于是我们把所有的高频字也做了分析。

排名前50的高频字表如下:

2. 我们的问题

这些高频词和字分析出来之后,我们产生了很多疑惑。比如:

“归来”这个词竟然出现了157次,是苏轼诗词里面用得最多的一个词(注:第一次分析高频词时,还没有搜索“子由”,因此排在第一位的词汇是“归来”),“归去”出现92次,苏轼是在到处云游吗?

苏轼经常提到“故人”,出现了135次,还有“道人”60次,这些人都指的谁呢?他是不是有很多和尚、道士朋友呀?

苏轼诗词里面提到“西湖”92次,“江南”84次,这些诗词是否都是他在杭州当官时候的作品呢?这些诗句描述的场景是不是与他的这段人生经历有关?

高频单字中,“山”2041次,“我”1732次,“风”1447次,“云”1260次,“月”1059次,“水”1020次,“花”1006次,“酒”826次,高频词里面“明月”出现100次,“饮酒”出现57次,这些诗句描述的都是什么场景?苏轼是不是因为官场上不得志而寄情于山、水、花、酒之间?

“使君”出现了152次,而使君是谁?“东坡”出现了108次,“东坡”是指地方还是苏轼自己呢?为什么提到这么多次“东坡”?他的人生和“东坡”的关系是什么?带着这些问题,我们小组开始了研究。

3. 研究的过程

研究的过程就像一次考古,很艰苦也很有意思,因为在这个过程中我们遇到了很多困难,也想出了不少办法。随着研究的深入,我们的研究范围甚至高频词表都进行了调整和更新。但通过这个过程,我们也收获了很多,于是我们把整个研究过程都记录了下来。

(1)小组分工和确定主题

根据分析数据产生的问题,我们小组成员进行了分工,其中:

徐子昂负责研究苏轼三次被贬的经历,以及包含“归来”“归去”的诗词。

马梓铭研究苏轼在西湖及江南的经历,以及包含“西湖”“江南”的诗词。

王储玉负责研究苏轼在“明月”“饮酒”方面的爱好,以及所有包含“明月”“饮酒”的诗词。

官天泽负责研究苏轼与“使君”“东坡”的关系,以及所有包含“使君”“东坡”的诗词。

葛宇轩负责研究苏轼与“故人”“道人”的关系,以及所有包含“故人”“道人”的诗词。

大家接受了任务之后,分别查找资料,总结分析后形成了各自的研究成果。其实上面这五个研究方向都很有趣,但是受时间和资料所限,我们经过讨论,最终决定把这次课题报告聚焦到苏轼三次被贬的经历和含有“归来”诗词之间的关系上来,其他的研究方向等以后有时间再一一攻克吧。

我们猜想“归来”可能反映了苏轼在被贬后,渴望回到朝廷、继续为官报效国家的一种心情。

我们先在苏轼诗词全集中把所有包含“归来”的诗词都找了出来,为了分析这些诗词和苏轼生平的对应关系,我们需要知道苏轼创作这些诗词的时间和地点,然后对比看看是不是他在被贬后写的。

(2)基础资料查找

我们上网搜索各种版本的苏轼诗词全集,但是发现要把每一首诗词对应的年代和地点都找出来,却是一件艰苦而且巨大的工程,因为没有一个网站能完成这样的任务。

后来我们发现了两本工具书,一个是《东坡先生编年诗》[50卷,清乾隆二十六年(1761年)海宁查氏香雨斋刻本],另一本是《苏轼词编年校注》(中华书局“十国古典文学基本丛书”,邹同庆、王宗堂著),这两本书对苏轼的诗词按照年代进行了编排,可以实现我们的想法。

研究苏轼的词,可以查找《苏轼词编年校注》。这书有编年的词292首,没有编年的31首,残句11则。我们在网上找到了这本书的电子版,可以快速检索出来每一首词的年代。

研究苏轼的诗,可以查找《东坡先生编年诗》。不过这本书只能找到哈佛线上图书馆的竹纸线装的扫描书,一共16册50卷(http://nrs.harvard.edu/urn-3:FHCL:15633072)。清朝人编著的都是繁体字,对我们来说简直是天书,根本无法进行检索(见下图)。

我们几乎放弃了之前的想法,但是在爸爸的帮助下我们找到了另外一个网站——http://ctext.org/library.pl?if=gb&res=94092&remap=gb,这个网站把这本竹纸线装的书进行了光学字符识别扫描,这样,大多数的诗就可以用搜索的方法查到了(见下图)。

我们是从编年诗入手的,工具书虽然找到了,但还有很多工作需要完成:

第一,由于这本古籍书是竖排排版,文字的识别率不是很精确,很多工作需要人工再次确认。

第二,我们需要手工查询每一卷诗创作的年代和地点。

我们开始分工,把50卷书中的每一卷书的年代和地点都找了出来,做出了一张对应表格,见下表(刊发时有删节):

我们兴奋地以为这下就可以大功告成了,真是高兴得太早了,我们开始查询的第一首诗就出了问题。《次韵和王巩》在《东坡先生编年诗》的第十册里面,可是第十册居然有2个电子文本(在扫描过程中现代人对这本古籍进行了重新分册,16本纸质书被扫描成了23册电子文本)。每个电子文本里面还有好几卷啊,我们如何能够快速定位这首诗是在具体的那一卷里面呢?看样子搞研究真不是一件容易的事情啊!

經过讨论,我们想到了一个办法,就是做一套对照表,来体现电子书和纸质书的对照关系,然后把搜索到的结果经过两次对照,找出它的具体年份。下面是电子书和纸质书的对照关系表(刊发时有删节):

这样我们就可以快速定位每一首诗的具体年代了,举个例子:《次韵和王巩》在《东坡先生编年诗》里面,我们搜索其中的诗句“归来千首诗”,搜索结果是如下图这样的:

这代表它在该书第十册第32列,我们点击“十”可看到下图中的的诗句。

由于十册是两本,我们还需要回到十册的首页,看一下到底是十(1)还是十(2),在《电子书和纸质书的对照关系表》上找到这首诗对应的卷册之后,再在《每一卷书的年代和地点对应表》上找到这首诗的年代和创作地点:

说明《次韵和王巩》这首诗创作于哲宗元祐元年,即公元1086年,苏轼当年在京都当翰林学士时候创作的。

(3)研究结论

我们按照上面的方法和步骤,查到了苏轼所有包含“归来”的111处诗的年代。但由于时间的原因,我们没有来得及对苏轼所有包含“归来”的词进行查找。因此,下面的分析是基于111首包含“归来”诗的统计结果。

这是苏轼一生中,“归来”一词在诗中出现的次数分布图:

我们查找了苏轼三次被贬的经历,即第一次(1080—1084),因为“乌台诗案”他遭到新党诬陷,被贬黄州;第二次(1089—1091),苏轼因为不同意司马光尽废新法,被贬杭州、颍州;第三次(1094—1101),苏轼因为与章惇政见不合,被贬惠州、儋州。

我们发现,每次被贬结束之后,苏轼诗中的“归来”出现的次数都会有所增加,苏轼这些“归来”诗,与他跌宕起伏的一生似乎存在着联系,他一直满怀忧国之情,总能将这些归去归来的经历,化作美好的文学意境。

数据分析的结果印证了我们的猜想,让我们从一个新的角度认识了这位文学巨匠。苏轼一生忧患重重、多次被贬,正是这些苦难的经历和丰富的阅历,让苏轼更关心民间疾苦,更亲近大自然,使他的作品成为传世的杰作。时至今日,我们读苏轼的诗词,仍然能感到无限的哀怨和悲凉,更能体味到中国文化的深厚底蕴和幽香。

三、额外的发现

在研究过程中,我们还发现“子由”出现在很多诗词中,“子由”是苏轼弟弟的字,这让我们想到应该检索一下“子由”在苏轼作品中出现的次数。于是,我们重新检索了一下,发现“子由”在《苏轼诗词全集》中居然出现了229次,它才是苏軾高频词里面的王者!为此,我们更新了高频词表。

我问爸爸为什么第一次做的高频词表中没有搜到“子由”,爸爸给我们解释说,“子由”在汉语中不是一个词汇,因此电脑软件第一次在做分词的时候,并没有对它进行检索。分词是一门很深的学问。每一部著作都有自己的特点。对每部著作的分析是一个不断发现的过程。今天看着正确的分析结论,可能随着研究的深入就不一定正确了,比如这次。

这次对高频词表的更新,让我们在研究主题之外,有了额外的收获:就是我们发现了苏轼和他的弟弟子由之间的手足情深。通过上网进一步查资料,我们了解到苏轼几乎每到一个任所就给弟弟子由寄信赠诗,晚年被贬谪时更是如此。苏家兄弟情谊之深厚是文学史上的佳话。他们是兄弟,是师生,是诗词唱和的良友,是政治上荣辱与共的伙伴,也是精神上相互勉励安慰的知己。我们设计的高频词表也进一步印证了他俩之间的情谊,我们可以得出结论,研究表明苏轼还是一个好哥哥!

猜你喜欢
编年高频词东坡
贵州土司史籍编年系列总序
30份政府工作报告中的高频词
省级两会上的高频词
28份政府工作报告中的高频词
省级两会上的高频词
索尼微单TM相机编年册
东坡诗元代接受论
宜兴:东坡书院忆东坡
苏词编年百年回顾与反思