新文科背景下的数字人文方法与文学研究

2022-06-22 05:47李天耿旭朴
艺术科技 2022年5期
关键词:数字人文新文科方法论

李天 耿旭朴

摘要:新文科概念的提出,肯定并强化了数字人文方法对文学研究的可行性。文章从三个方面对数字人文方法进行反思:一是从数字人文与人文计算的区别出发,阐释数字人文方法在文学研究中的独特性;二是在对数字人文方法的客观性提出质疑的同时,重审数字人文方法的研究对象;三是在國内文学发展新现象的语境下,探讨方法原创的可能性。

关键词:数字人文;新文科;方法论;人文计算

中图分类号:G644 文献标识码:A 文章编号:1004-9436(2022)05-000-05

“融通”是新文科的首要特征。新文科是指对传统文科进行学科重组、文理交叉,即把新技术融入哲学、文学、语言等课程,为学生提供综合性的跨学科学习。新文科的概念是针对传统的学科分类来说的,它打破了人文与科学之间的界限,其特征主要体现在多学科协同、融入信息技术以及变革人才培养模式等方面。新文科的“融通”是学科之间的交叉通融,但与此同时,不能遮蔽“文”的本质;文理交汇后,必须更加重视和凸显“文”的特质[1]。

基于计算机技术的数字人文具有典型的新文科特征,值得注意的是,新文科之“新”,不仅代表研究方法的革新,更在于新理念中蕴藏着的研究方法的原创可能性,即在数字人文的语境下,生成自己的新方法。对文学研究者来说,一方面,目前的数字人文方法主要来源于英美文学研究学者;另一方面,媒介技术的变革与网络文学的发展,促成了独具中国特色的新的文学现象,并且它们与数字人文具有契合性,使得中国文学具有方法原创的可能性。

结合新文科背景,文章系统地考察了国内外文学研究中数字人文方法的理论与实践,主要基于以下三点:其一,数字人文并不是简单的量化方法,也并非人文计算的某个阶段,它是一种真正的跨学科研究方法;其二,数字人文并不能保证研究的客观性,它的积极意义也不在于此;其三,数字人文方法与传统文学研究方法的研究对象有根本区别,这建构了数字人文的独特性。

1 作为文学研究方法的数字人文

数字人文通常被认为是人文计算发展的最新阶段[2],然而,从方法论的意义上来说,数字人文与人文计算并不是一回事,虽然都以量化为起点,但量化所起的作用却是截然不同的。

1.1 风格辨析与人文计算

人文计算的先驱是19世纪的科学家托马斯·门登霍尔(Thomas Mendenhall)和文学教授卢修斯·谢尔曼(Lucius Sherman),他们采用人工计算的方式,将科学方法带入文学研究领域,通过人工方式计算文学文本中特定单词的频率(词频),据此制作图形化的曲线,以区分不同作者或观察文学的发展变化。19世纪中晚期是数据方法运用在文学领域中的第一个高峰,日后计算机的出现大大提升了数据的量值和准确度,但基本上沿袭了这些开拓者的思路。

计算机的介入使得人文计算的概念开始形成,学界普遍认为人文计算出现在20世纪中叶,其标志是意大利神父罗伯托·布萨(Roberto Busa)的风格辨析研究。从1949年开始,布萨使用计算机对神学家托马斯·阿奎那(Thomas Aquinas)的《神学大全》全集进行处理,生成了中世纪拉丁文字词的索引,研究者可以据此对其的风格进行辨析,判定作品的著作权。布萨可以说是早期人文计算的代表,与19世纪的人工计算相比,人文计算离不开计算机的辅助,通过计算机对文学文本进行处理。

在文学研究中,人文计算最典型的类型是风格辨析。早期的风格辨析集中于作者风格,即对某部作品的著作权进行判断。奥古斯都·摩根(Augustus de Morgan)在1851年就提出了词汇表的量化研究可以作为辨析保罗书信作者的方法。如前所述,门登霍尔和谢尔曼是19世纪中期将量化方法应用在文学领域的代表人物,他们研究单词长度与句子长度,将之作为一种确定文学风格的方法,门登霍尔试图通过词频辨析狄更斯和威廉·萨克雷的风格差异,谢尔曼则通过文学作品中句子长度的不同观察英国文学风格的变化[2]。

中国文学对人文计算方法的采用,始于对《红楼梦》的著作权辨析,并于19世纪80年代形成第一个高峰,这个时期出现了一批用量化方法分析《红楼梦》的研究文章,如华东师范大学陈大康[3]和复旦大学李贤平[4]等人的成果。此后,用统计进行《红楼梦》作者研究的方法一直沿用至今。

1.2 大数据与数字人文

数字人文概念的兴起与文学大数据直接相关。21世纪以来,互联网的发展、计算与存储能力的飞升催生了大数据,与以前的数据库相比,数字人文概念下的文学数据不仅数量巨大,而且出现了相应的大数据分析工具,谷歌图书和古腾堡工程是文学大数据的典型代表。

基于文学大数据,数字人文的方法真正得到应用,“文化组学”和斯坦福文学实验室的工作是数字人文颇有代表性的成果。2011年,艾略兹·利波曼·埃顿(Erez Lieberman Aiden)和简-拜普提斯特·迈克尔(Jean-Baptiste Michel)等提出了“文化组学”的概念,认为单词像基因一样包含可继承的信息[5]。2007年,弗朗哥·莫莱蒂(Franco Moretti)用图表的形式勾勒出了从18到19世纪英法意西日等国的小说在数量和题材上的变化[6]。2010年,斯坦福文学实验室创立,以小册子是形式发表了一系列数字人文的研究成果,他们的研究不仅多元化,并且开发了多个文学大数据分析工具。

到了数字人文阶段,风格辨析仍然是重要的研究领域,与人文计算的辨析方法不同,斯坦福文学实验室开发了DocuScope等工具进行类型风格识别,取得了令人瞩目的成果。他们使用DocuScope对莎士比亚的戏剧进行类型分组,其结论不仅与传统的类型分组一致,而且还能自动选择出被批评家们视为例外的文本(如《亨利三世》)。不仅如此,DocuScope还可以准确地区分出工业小说、哥特式小说和教育小说等类型风格。06781BA0-0821-4532-9259-C02AC285977A

而最能体现大数据方法的是“远距离阅读”与“大分析”。“远距离”的意义在于挖掘经典之外的海量文本的价值,其与文本细读结合,能产生更自由、开放的探索。莫莱蒂结合历史、地理与进化理论,提供了两百多年来多个国家的新文学史样态,其中既有文本细读(微观),也有抽象模型(宏观)的建立。

2 证实与阐释:数字人文方法是否客观

数字人文方法与传统文学研究方法的差异,通常被表述为证实性与阐释性的不同,“远距离”与“近距离”的不同,定量与定性的不同等。其本质在于对客观性的追求。

从方法本身来说,数字人文通常涉及数据采集与整理、模型建立、结论分析等过程,它们追求的是一个共同的目标:客观性。风格辨析在于为作者风格或类型风格提供客观的证据,“远距离”与“大分析”方法在于“追求一个更为理性的文学史”。通常,数字人文方法的客观性被表述为证实性(Verifiable),其与传统研究方法的阐释性(Interpretive)对立。后者往往被认为是文学研究的本质,它根植于个体研究者对具体文本的阅读,依据研究者自身的理论框架得出相应的结论,如对文学现象的阐释以及对现象背后原因的挖掘等。

在数字人文的研究者看来,阐释的缺陷在于它的主观性,阐释是“靠观察来激发的,作为一种收集证据的方法,不管科学的还是人文的,观察都是有缺陷的”[7]。这里的观察是指研究者的主观视角与判断,基于观察的阐释具有轶事的(Anecdotal)及推断的(Speculative)特征,也因此远离了客观性,甚至在某种程度上削弱了学术研究的科学性。而数字人文方法因为减少了人为的参与,以数据调查代替个人观察,提供确定的文学史事实。另一方面,客观性与样本数量往往成正比,大数据所达到的样本数量可以使调查达到一定程度的广泛性,数据量越大,可靠性就越高,大数据的广泛性取代了以往随机的代表性样本,最大限度地保证了调查的客观性。研究者通常将阐释性与定性、主观、文学相关联,而将数字人文的证实性与定量、客观、科学相关联,并将证实性与阐释性对立起来,认为二者之间存在本质差异。

那么,数字人文中的证实性能否保证绝对的客观性?是否与阐释性对立?在数字人文的证实中,最基础的是对既定知识的证实或者纠正。以乔克斯对查尔斯·范宁(Charles Fanning)的研究结果的验证为例,范宁认为爱尔兰裔美国作家在1900—1930年间经历过“失去的一代”,即在这段时间内作家匮乏。而喬克斯通过大数据分析,发现“失去的一代”的论点不成立,或者说是一种错觉,这是因为范宁以爱尔兰裔美国作家的经典作品为研究对象,这些作品的作者大部分为男性,而1900—1930年代男性作者的缺乏让研究者产生了“失去的一代”的错觉。乔克斯的大数据包括250年间所有的出版数据,以及作品的地理环境和作者的性别、出生地、年龄和居住地等信息,发现1900—1930年这段时间并不缺少女性作家。在乔克斯看来,以经典作品作为研究对象的方法,忽视了更为广泛的文学体系,容易对文学史现象产生误判[8]。重审数字人文的客观性不难看出,证实性/客观性来自两个方面:其一,数据;其二,统计方法。这两点看上去都成功避免了人为的干预,能保证研究结论的客观性。但其实不仅数据本身很难保证绝对的客观性,统计方法本身的适用性也需要考量。

2.1 数据的阐释性

在数字人文方法中,数据是客观性的重要保证,数据被认为独立于观察者之外,具有确定性。然而,目前的数据库建设与利用并不能远离研究者个人的主观阐释。不同于公开的大型全本数据库,那些为文学研究创建的主题性数据库都存在研究者的主观预设,如英国小说类型(1740—1900年)的主题数据库,莫莱蒂表示该数据库对小说的分期标准建立在他个人对英国小说史的理解之上,也就是说该数据库的创建本身存在选择性,包含着研究者个人的阐释,不可能达到完全的客观。在科学研究中,客观性的重要标准之一在于可重复性,换句话说,如果数据库足够客观,那么其他的研究者就可以从被引用的这些资源中重建原始数据库。但无论是莫莱蒂还是乔克斯,都承认这是不可能的,就算乔克斯列出了他所分析的标题和作者,其他人也不可能在完全不接触他所使用的文本的情况下重建他的论点。

目前大部分主题数据库对文献外部数据的采集,一般会采纳文献的首次出版信息及出版所在地等。然而严格说来,只采集书籍第一次出版的数据是片面的,文学作品的版本并不单一,有些书籍空有标题却从未出版过,有些文学作品被重版多次,而作品的其他内部信息,如作者、出版者、编辑、插图、书商、广告者等却被选择性忽视了。另一方面,根据18世纪之后的全球化趋势,仅从国别表明文学作品的地理性太过单薄。选择性数据库建立的文学体系忽视了文学作品之间的不同以及体系的动态变化。这些阐释性的选择造成了文学体系的不充分性,往往只是在一定时间和空间中流通的文学的子集,无法达到大数据所要求的全本和整体的概念。正因为数据的主观性,大卫·布鲁尔认为,“远距离”方法虽解析了“伴随而来的那些经典化过程”[9],却以忽视历史上文学作品的不同面向为代价。数字人文方法的认同者们一方面赞成使用数据,另一方面也承认这种知识的新形式无可避免地会抽象或简化原本复杂的文学现象,以至于用“与魔鬼共谋”来形容“远距离”与“大分析”方法[10]。

2.2 统计方法的模糊性

由于往往涉及数据采集与整理、模型建立、结论分析等过程,且数据处理方法受益于统计学较多,数字人文也被称为“统计学与社会语言学的混合”。然而,在数字人文研究中,统计方法类似于一个黑匣子,研究者个人并不需要了解其运作过程,传统的论证过程被包裹起来。例如,斯坦福文学实验室在研究莎士比亚戏剧和小说类型时采用主成分分析(PCA)方法,它将一组文本里许多具有相似分布的不同词频组合到一个新的成分中,从而提取出一小组相关的能够反映出这组文本之间的主要差异的主成分,虽然提供了一种可以用来同时“阅读”大量词频的图形化方式,但这些新的主成分究竟代表什么含义却是模糊的。06781BA0-0821-4532-9259-C02AC285977A

2.3 研究的理论预设

约翰·弗罗认为,“远距离”并不能实现“一个类型与倾向的客观叙述”的目标,因为它忽视了某些基本的关键因素,即作为基础的形态分类并不是事先给予或不证自明的,而是“通过阐释性的Decision建构的”[11]。这里所谓的形态分类,即DocuScope对小说进行分类之前,需要先有教育小说、哥特式小说等既定的类型,而这些既定类型建立在文学的阐释基础之上。基于这个基本假设条件,才能依据小说的标题由20~25个词缩短到6~7个词,得到市场规模和标题长度之间的否定性关系,以及专有名词与小说是转喻关系,而抽象名词和小说是隐喻关系等结论。

然而,如果这种质疑是针对数字人文方法的客观性,那么该质疑实际上是无意义的,因为预设是几乎所有能产生新知识/观点的基石,无论是何种领域的研究,都不可能离开研究者的预设。如果没有研究者的理论预设,机器阅读就会失去其目的,无论工具多么先进,终将不能产生有意义的研究成果。数字人文方法并不会颠覆研究本身的价值取向,而是其论证方法,其本质则源于研究对象的不同。

3 “文本”:面向对象的集体话语

数字人文与传统文学研究方法之所以看上去如此不同,并不是因为定性与定量的区分,而在于研究对象的差异。数字人文的研究对象并非传统意义上的文学文本,而是作为对象的“文本”。

3.1 面向对象而非论述本身的多媒介论证方式

文学文本是传统文学研究的对象,即作为整体的文学作品,这是一个由语言文字组成、充满着作者情感与想象的完整世界,因此文学作品从本质上来说是无法量化的。文学是审美形态的语言作品,并不是语言的机械组合。语言文字是作品的组成成分,但将它们组织起来的是作者的主观意识,无论是情感还是认知都无法被量化,作为完整世界的文学作品也无法被切断为词或句子。量化意味着将文学作品打碎、分离,它不再是完整统一的文学世界,而变成了一堆毫无情感与想象力的数值,从这个意义上看,计数与文学天生就是对立的。

然而数字人文的研究对象并非仅是传统文学意义上的文本,它更倾向于作为物质对象的“文本”,如果借用计算机语言来比喻,传统文学研究方法类似于“面向过程”,研究的是文学作品内部的论述过程,而数字人文方法则是一种“面向对象”。对研究者来说,文学文本类似于“所指”,研究者需要阐释文本内部传达的意义,而“文本”则更像“能指”,它向外扩展它作为质料的地位。

风格辨析所研究的正是作为语言质料的“文本”。风格辨析之所以能通过数字人文的方法来实现,其理论基础在于风格所呈现出的语言特征。文学作品可以被看作字母、單词与句子的组合,作为语料它们是可以被量化的。文学风格是一种相对稳定的整体话语特色,在一定程度上可以体现为语言与修辞,虽然影响风格的因素包括作者的情感体验、个性与心理、艺术素质与时代影响等,但在具体文本中,风格表现为对某些词汇的重复性使用,这一重复性成了可被量化的特征。另外,语言质料还被用来研究标题与文学市场的关系(莫莱蒂),以及个体小说家在文学史上的影响力(乔克斯)等。

“远距离”与“大分析”所依赖的不仅是“文本”的语言质料,更是它在大文化语境中的新坐标。当文学作品被置于文化生产的更大领域中,被置于其他文化产品和出版物的族群之中,新的坐标使之拥有了更多的信息维度,这是“远距离”与“大分析”能有效进行的基础。当今“文本”的物质信息与印刷时代不同,它们拥有多媒介的表现形式,呈现出比以前更强的流动性,基于文字处理软件与转化工具,“文本”可以作为对象被改变、替换、计算,也可以转化成其他媒介形式,一个主对象由多媒介对象环绕,不同的媒介形式产生“文本”的不同面向。“文本”不再是语言构成的单个文本,而是由纵横交错的各种面向共同完成,从而使得文本性(Texture)与其原来的“纹理”和“纺织品”的含义再次关联。正如马克等将出版物、档案、语料库作为三个基本概念,研究者用“场域”来形容数字人文方法下的大文化语境,“远距离阅读”并不关注单个文本的具体特点,而是通过文本语料库考察更大的趋势和模式[12]。

与物质对象相应而生的是多媒介的论证方式。统计工具的设计、可视化的运用等,都是针对“文本”而产生的新论证方式。对大规模的数据集所展现出的大跨度的趋势或关系,可视化是比文字更清晰、精确并且更富有说服力的论证方式,能让曾经隐藏的信息变得视觉化,《图表、地图、树:文学史的抽象模型》里的图表、树作为分析与解释工具用来揭示世界小说发展的总体规律,《网络理论,情节分析》里的网状图用来显示对哈姆雷特人物关系的全新发现[13],《大分析:数字方法与文学史》里的蜂巢用来作为文学史影响力论证的总结,它们构成了阐释性的一部分,以至于能“促生新的内容”,甚至能“产生诗意的效果”[14]。如学者查德·魏尔蒙用“惊奇”的移位来解释数字人文对图表、地图和示意图的偏爱,在这里,“远距离阅读”中的“距离”并不仅仅是一种机器功能,而是这些参与到文学阅读中的新式示意图和图表的功能,它们本身就是文本,可以被阅读,可以被解释,也可以成为惊奇的对象[15]。

3.2 个人话语到集体话语

从精神性到物质性,从文本到“文本”,研究对象的变化引发了一系列的连锁效应。从研究过程到研究者构成,也都出现了与以往截然不同的面貌。“新文科”的“融通”意味着研究方法的交叉与跨越,这种跨越并非仅体现在个体研究者的知识构成上,需要不同领域的学者合作完成。换句话说,意味着个体著述的时代转入合作项目的时代。

传统以“正典”为对象、以细读为方式的研究方法,建立在个体阅读的基础之上,对有限的数据集进行精细分析,长期以来形成了对一系列主题历史性的、一般性的和风格上的研究。在数字人文语境下,面对大数据集和基于文本挖掘的文化分析,研究开始更倾向于集体性和合作性,流动性的文本意味着集体话语的生成。

“文本”的物质性带来的是研究对象的扩大化,文学作品所依赖的媒介正变得不透明。在印刷术一统天下的时代,书籍成为一种不言而喻的、透明的媒介,研究者只需要读取承载于其上的文本信息,稳定的印刷文化使研究者忽视了潜在的物质性力量,而在信息物质化与媒介多元化的时代,以往被视为透明的媒介已经与创造活动密不可分。研究对象扩展到作为空间记录单位的书籍,扩展到墨迹、雕版印刷和出版商的物质性历史,扩展到媒介与人的认知和身体互动。著述不仅是重要见解的简单包装,而且还是整个社会文化装置的一部分。06781BA0-0821-4532-9259-C02AC285977A

面对新的研究对象,个体研究已经无法满足数字人文的需要,“项目”一词越来越多地出现在数字人文的研究目录之中,研究者正在经历从个体著述时代转入合作创作项目的时代,项目管理也成为数字人文领域中的重要课题。项目集体包括不同领域的研究者,也包括知识平台的构建者以及互动形式的参与者。数字人文研究过程中,文学研究者、数据库设计者及计算机技术人员正紧密合作,他们利用数字性手段进行论证,再通过多元媒体组合进行传播,知识平台不再仅仅只是图书管理与技术人员或者出版单位的工作。学术交流形式的改变,使得读者参与、探索、探讨、互动等对著述发挥着越来越重要的作用。在数字人文出版物上发表的项目列出一大批作者也是常见现象。上述的斯坦福文学实验室的工作大部分都是群体作者,涉及平台开发更是如此。安妮认为,“以我为核心的单一著述模式已经转变为以我们为中心的合作性著述模式”[14]。

4 结语

从“融通”的意义上来说,数字人文具有典型的新文科特征,新文科之“新”蕴藏着研究方法的原创可能性。数字人文的方法,无论是论证方式、分析工具还是数据库设计,大部分仍然来自英美文学实践,国内方法的原创性并不突出。但英美的研究主要集中于传统的文学形态——出版物。就西方数字人文的主要研究机构而言,无论是斯坦福文学实验室,还是数字人文中心,文本分析与文學史研究都占据较大比例。

而新时代,最具有中国特色的文学形式是网络文学。20世纪末诞生的网络文学迅速发展到今天的庞大规模,不仅成为读者接受的主要文学形式,也成为文学研究与产业研究的重要对象。比起传统文学作品,网络文学更适合数字人文的方法,不仅因为它具有原生的数字性,也因为与传统印刷文学相比,网络文学更具有物质性,它更像是一个对象,一个被各种媒介形式和交互方式包围的对象。

一方面,数字人文方法擅长处理大数据集,而能够产生文学大数据的,除了日渐成熟的各类文学数据库之外,最显著的当属网络文学大数据。它不仅拥有天然的电子文本优势,还因为强互动性产生了庞大的实时数据流。不论在学术界还是产业界,数据都是分析网文最重要的指标,就同一时间段所产生的文本数据来说,无论是单个作品的体量,还是作品的数量,网络文学已经远远超过传统文学。另一方面,网络文学并不是传统意义上单纯的文学话语,而是一个多面向的“文本”。在这个文学生态系统中,作者与读者的数量前所未有,接受者意图可能直接影响作品生产,而且大量影视作品改编自网络文学,IP概念的兴起使得它超过了传统文学的传播形态。

数字人文几乎与计算机技术同步发(下转第页)(上接第页)展,与世界接轨的信息产业为我国提供了产生自生科学方法的环境。典籍的数字化是信息产业发展的直接影响之一,统计学与计量学等为数字人文提供了方法上的保障。科技的发展为数字人文提供了产生模型和数据方法的土壤,中国文学研究可以在此基础上发展出自己的研究方法。

参考文献:

[1] 陈鹏.“新文科”要培养什么样的人才[N].光明日报,2019-05-20(008).

[2] 李天.数字人文背景下的文学研究:量化方法在中西文学研究中的比较[J].厦门大学学报(哲学社会科学版),2020(5):153-162.

[3] 陈大康.从数理语言学看后四十回的作者:与陈炳藻先生商榷[J].红楼梦学刊,1987(1):293-318.

[4] 李贤平.《红楼梦》成书新说[J].复旦大学学报(社会科学版),1987(5):3-16.

[5] 让-巴蒂斯特·米歇尔,等.使用百万数字化书籍的文化定量分析[J].科学,2010(331):176-182.

[6] 弗兰克·莫莱蒂.图表,地图,树:文学史抽象模型[M].纽约:维索出版社,2007:7-13.

[7] 马修·乔克斯,等.十九世纪文学的重要主题[J].诗学,2013(6):750-769.

[8] 马修·乔克斯.大分析:数字方法与文学史[M].香槟:伊利诺伊大学出版社,2013:36-46.

[9] 大卫·布鲁尔.计数、共鸣和形式,一种思辨的宣言(附注)[J].十八世纪小说,2011(2):161-170.

[10] 希瑟·爱.近而不深:文学伦理与描写转向[J].新文学史,2010(2):371-391.

[11] 约翰·弗罗.思考小说[J].新左翼评论,2008(49):137.

[12] 马克·阿尔吉-休伊特,等.正典/档案:文学场域大型动力学[J].山东社会科学,2017(9):46-62.

[13] 弗兰克·莫莱蒂.网络理论,情节分析[J].新左翼评论,2011(68):80-102.

[14] 安妮·博迪克,等.数字人文:改变知识创新与分享的游戏规划[M].马林青,韩若画,译.北京:中国人民大学出版社,2019:45.

[15] 查德·魏尔蒙,曾毅.神圣阅读:从奥古斯丁到数字人文主义者[J].山东社会科学,2017(9):38-45.

作者简介:李天(1984—),女,湖北荆州人,博士,副教授,研究方向:数字人文、新媒体艺术、影像美学。

耿旭朴(1981—),男,河南南阳人,博士,高级工程师,系本文通讯作者,研究方向:大数据、数字信号处理、遥感技术。06781BA0-0821-4532-9259-C02AC285977A

猜你喜欢
数字人文新文科方法论
汉学方法论值得关注
新文科建设背景下的高校图书馆服务研究
方法论视角下的制定法解释
新文科建设的理路与设计
新文科背景下公共管理学科大类人才培养模式的优化
“新文科”背景下新闻传播教育的新形势与新进路
法本位的方法论阐释
UAF的方法论意义