我国数字人文研究领域作者合著网络分析*

2019-11-15 02:20徐晨飞赵文娟
图书馆论坛 2019年11期
关键词:学者论文人文

徐晨飞,赵文娟

0 引言

进入21世纪以来,计算机技术在人文科学领域不断渗透,“数字人文”(Digital Humanities)研究兴起,催生出庞大的学术研究网络。近年科研合作频繁,合著分析成为热点。研究合著现象就是研究作者之间的关系[1],而合著网络(Coauthorship Network)的本质即利用网络来描绘作者之间的关系。论文合著是研究科研合作水平的重要表现形式,可以通过对某领域论文合著情况的调查来探究该领域的科研合作现状和特点。随着合著网络研究深入,采用社会网络分析方法(Social Network Analysis)展开合著网络分析的研究文献逐渐增多,在许多科研领域的合著网络规律亦被一一发掘。

在数字人文研究领域,Lisa Spiro通过比较AmericanLiteraryHistory与Literaryand Linguistic Computing两种著名期刊上的合著论文,发现在数字人文学科中,作者合作发表论文的情况更常见,总结出3种类型的合作方式:教师与学生、项目团队、跨学科合作[2]。Julianne Nyhan等对比分析两种数字人文期刊以及1种传统人文期刊,发现单作者论文均占多数,而传统期刊中的合作论文增长速度更快,这个结果并不能说明数字人文研究并非如想象中开放与合作[3]。高瑾等先后运用引文分析、社会网络分析,结合知识图谱可视化方法,揭示数字人文研究领域的影响力人物、相关研究主题,并对国际数字人文研究社区知识结构进行分析[4-5]。Muh-Chyun Tang等对1989-2014年发表的数字人文文献,利用共引分析、内聚力分析、合著网络等检验数字人文研究随时间变化的知识凝聚程度,发现随着数字人文学科出版物不断丰富,虽然多样性和连贯性逐渐提高,但合著网络主要受语言和地理边界限制,仍然分散,领域内的特定实践有助于改善这种状况[6]。目前我国尚无该方面研究,本文运用社会网络分析方法构建我国数字人文领域论文合著网络,总结我国数字人文研究领域的科研合作现状,提出推动我国数字人文领域科研合作的建议。

1 我国数字人文研究文献合著特征

笔者选取“中国知网”“万方数据知识服务平台”“维普网”3个主要中文期刊全文数据库作为数据源进行数据获取,论文发表时间设置为截至2018年12月31日。在“知网”中,检索条件设置为“主题”或“关键词”包含“数字人文”或“人文计算”,采用精确匹配查找,共检索到424篇文献;在“万方”与“维普”数据库中,检索条件设置为“题名”或“关键词”包含“数字人文”或“人文计算”,同样采用精确匹配查找,“万方”检索得到361篇文献,“维普”检索得到216篇文献,从3家数据库中共获取文献数据1001篇。借助NoteExpress进行预处理,去除重复文献、会议通知、征文通告、与数字人文主题相关度不高的文献,最终得到345篇文献数据,428名作者数据。需说明的是,笔者采用Sati提取论文作者信息生成合著关系矩阵,由于该软件无法区分多作者合著情形,故先运用Excel手工构建作者合著关系初始矩阵。鉴于我国数字人文领域刚起步且规模不大,作者重名率不高,故忽略重名作者的状况。

1.1 作者发表量

我国数字人文研究领域作者发表论文数量的统计见表1。绝大部分作者只发表1篇论文,说明多数研究主题未形成连续的专题化与体系化研究。发表论文数量最多的两位作者为夏翠娟、王东波。夏翠娟是上海图书馆数字人文项目团队负责人之一,其团队在数字人文研究领域建树颇多,如家谱知识服务平台[7]、名人手稿档案库[8]、中文古籍联合目录及循证平台[9],且均已发表相关论文成果,故撰文量较多;王东波依托国社基金重大项目“基于《汉学引得丛刊》的典籍知识库构建及人文计算研究”发表了一系列实证研究论文[10-13]。

表1 作者发表论文量

1.2 作者地缘分布

由于我国数字人文研究存在跨国合作研究情况,因此从抽取的数据中对来源期刊的作者供职机构所属国别进行统计,如表2所示。我国机构作者与美国机构学者合作频次最高,其次是德国与英国。在中美数字人文合作研究中,有中美传统人文学者之间的合作,如姜文涛、戴安德等的合作[14-15];有中美图情领域学者之间的合作,如刘炜与林海青等[16],王晓光与曾蕾等[17],跨学科的国际合作还相对较少。还有一些论文是我国学者获得国外学者授权的翻译与整理,如夏翠娟与包弼德等[18]。从合作渠道看,大多是我国学者在外留学或访学期间与国外学者达成合作意向,也有一些基于项目合作,如上海图书馆分别与哈佛大学、加州大学伯克莱分校的合作。

表2 作者供职机构所属国家分布

根据中华人民共和国行政区划,对400位中国作者的来源机构进行所属一级行政区分布统计(见表3),北京、江苏、上海、湖北、广东排名前5位,这些地区是我国数字人文研究的前沿阵地,北京大学、南京大学、上海图书馆、武汉大学、中山大学为排头兵。

表3 我国作者机构所属一级行政区分布

1.3 作者合著程度

在345篇研究论文中,独著191篇,占55.36%;合著154篇,占44.64%。合著作者数一般集中在2~3位,超过5位合著作者数量的论文较少(表4)。按年份统计合著作者数如图1所示,2015年后合著现象开始增多,合作规模逐渐扩大。选取2012-2018年数据进行合著程度统计(表5),发现我国数字人文研究领域近7年合著程度存在一定波动,2014年合著程度最高,近3年论文数量增加,但合著程度微幅下降。

表4 论文作者数量统计

图1 论文作者数年份统计

表5 合著程度年份统计

1.4 作者合作形式

将154篇合著论文按照作者间的合作形式分为4类:同机构合作、跨机构合作、师生合作、全球性合作。来自同一机构作者合作数量最多,占37.01%,这符合常理。跨机构合作方式一般分两种情形:一是同一机构内的不同部门,如图书馆与相关院系合作;二是完全不同的独立机构,32篇属于不同机构之间的合作,合作机构的数量一般不超过两个。师生间合作主要是根据期刊出版物上作者简介信息来判定。例如,张某,某大学硕士(博士)研究生;李某,某大学(与前一作者单位相同)教授,硕士生导师,则认定其合作形式为师生合作。28篇论文为师生合作,超过半数是在读硕士研究生与导师合作的成果。

表6 作者合作形式

2 基于SNA的我国数字人文研究领域合著网络分析

借助社会网络分析软件Ucinet对我国数字人文研究领域作者合著关系初始矩阵进行处理,转化为428个节点构成的合著网络,通过Netdraw进行可视化处理,形成合著网络图(图2)。根据428名作者数据,理论上最多可生成183184个合作对,但实际只有620个合作对,存在182564个结构洞,说明我国数字人文领域学者之间的合作关系较稀疏。图中每个节点表示我国数字人文研究领域的一位学者,节点的大小代表合作发表论文的数量,节点越大发表论文数量越多;节点之间连线的粗细代表两端节点关联的频次,连线越粗表示作者之间合作越频繁。图的最左侧竖行作者为独撰作者,与其他作者不存在合作关系;合著网络较为分散,大节点数量偏少说明该领域具有较大影响力的作者还不多。

图2 我国数字人文合著网络

2.1 网络结构特征

我国数字人文研究领域合著网络结构特征可借助社会网络分析方法中的平均路径长度、网络密度以及聚类系数3个指标[19]来展开分析。

社会网络中任意两个节点之间距离的平均值为平均路径长度,利用这一指标可来描绘社会网络沟通的效率和流畅程度。我国数字人文研究领域合著作者的平均路径为1.957,表面该领域学者最多通过2人即可与另一位领域学者建立联系,符合网络小世界特性[20]的小平均路径长度特点。

网络密度是指社会网络中节点之间的关联程度,是节点间实际关联数量与理论上存在的最大关联数量的比值,比值越大说明网络的连接程度越高,信息传递的途径也越多。我国数字人文领域合著网络密度为0.0034,网络中心建立连接的节点较稀疏,连接度不高,网络整体结构较为松散,说明目前我国该领域作者之间的科研合作频率亦不高。

节点的聚类系数是描述相互关联节点之间关联程度,网络的聚类系数是描述网络中各节点聚类系数的平均值,网络聚类系数越大,说明网络的聚集性越强。我国数字人文研究领域的聚类系数为0.805,聚类系数接近于1,说明该合著网络具备聚类特性,与同一学者合作的不同学者之间合作的概率约80%,表明合作发表论文的学者之间有较多交流,但间接说明该领域学者之间合作对象比较固定,长远来看并不利于创新与发展。

2.2 中心性

中心性是社会网络分析中衡量节点中心地位的重要评判指标,可反映用户在网络中的权重大小[19]。本文主要从点度中心度、中间中心度、接近中心度等3个角度对我国数字人文研究领域合著网络展开分析。

2.2.1 点度中心度

表7列举出点度中心度排名最高的20位作者,在428名作者中,近8.18%点度中心度≥5,说明只有少数作者具有较为广泛的合作对象。从表7中可看出点度中心度较高的作者来自上海图书馆、武汉大学等机构。点度中心度最高的作者是南京农业大学王东波,先后与12名学者发表数字人文论文5篇。

表7 点度中心度统计

2.2.2 中间中心度

中间中心度是衡量网络中节点控制能力强弱的重要指标。在428名作者中,近92.06%中间中心度为零,表示这些作者节点并不处于任何其他两个节点的最短路径上,表明在该领域的网络中控制能力较低。表8列举中间中心度较高的前20位作者,他们在该领域具备一定的影响力,具有较强的合作控制能力。此外,将中间中心度较高的作者与高产作者排名进行对比,发现表8统计的前20名高中心度的学者中有4名同时存在于高产量的作者排名前10名,分别为朱庆华、刘炜、赵宇翔和夏翠娟,表示这4位高产作者在我国数字人文研究领域有较高的中心地位。

表8 中间中心度统计

2.2.3 接近中心度

接近中心度是一个与中间中心度相类似的网络中心性的评价指标,表9统计我国数字人文研究领域作者合著网络中接近中心度较高的前24位学者(其具有相同的接近中心度0.247)。他们在我国数字人文的合著网络中具有较高的接近性,在网络中的中心地位较高,同时具有较高的合作控制能力。在24位学者当中,南京大学与上海图书馆学者相对较多,说明这两个机构在该领域研究具有较为领先的影响力。

表9 接近中心度统计

2.3 核心-边缘结构

核心-边缘结构分析的目的是找出合著网络中哪些作者处于核心地位。对合著网络的相关性以及各个作者的核心度进行计算,得到整个网络的相关性为0.235。表10中列举作者核心度较高的前20位,他们处于合著网络的核心位置,是整个合著网络中的关键性节点。前3位作者(核心度0.4以上)均来自上海图书馆,再次体现出上海图书馆在我国数字人文研究中具有较为突出的地位。

2.4 小型合著网络分析

从图2的合著网络图中看出合著网络中存在较明显的聚集现象,选取发表论文数排名前四的小型合著网络进行分析。图3所示小型合著网络聚集程度最高,共发表论文22篇,作者来源见表11。该网络主要是由上海图书馆刘炜团队与南京大学朱庆华团队中合作控制能力较强的学者联结而成,从相关论文的基金信息看出这两个团队的合作基于国社基金重大项目“面向大数据的数字图书馆移动视觉搜索机制及应用”。该网络包含上海图书馆与哈佛大学的跨机构合作,南京大学与南京理工大学、安徽大学研究团队的合作(合作建立在师生关系之上)。通过关键词提取并统计词频,看出该合著网络主要围绕“数字人文”“公众科学”“关联数据”“数字图书馆”“图书馆”进行研究。

表10 核心度统计

图3 小型合著网络1

表11 小型合著网络1的作者统计

图4 小型合著网络2

表12 小型合著网络2的作者统计

图4所示小型合著网络主要是以武汉大学王晓光为中心的小型合著网络,合作对象主要来自武汉大学信息管理学院(同机构),见表12。研究主要围绕“数字人文”“大数据”“科研组织”“跨学科”“数字图像”“图档博数据”“文本可视化”“文本挖掘”“语义标注”“远距离阅读”“智慧数据”等关键词展开,代表性研究项目有文化遗产(敦煌莫高窟)图像深度语义知识组织等。

北京大学研究团队构成小型合著网络3,见图5。合著对象来自北京大学(同机构),以聂华与朱本军合作次数较多(团队的领军人物)。相关研究论文6篇,作者统计见表13,研究关键词主要有“数字人文”“北京大学数字人文论坛”“CASHL”“数据服务”“数据管理”“数据驱动研究”“图书馆数字人文”“知识服务”“数字方志”等,北大团队的研究侧重以数字人文与图书馆学科服务相结合,着重探讨高校馆在当今我国数字人文研究中的角色定位与担当。

图5 小型合著网络3

表13 小型合著网络3的作者统计

小型合著网络4(图6)主要由南京农业大学信息科学技术学院科研团队为主(表14),团队成员王东波与其他机构学者合作发表多篇论文(合作建立在师门同窗关系)。该合著网络相关论文关键词主要包括“数字人文”“人文计算”“汉学引得丛刊”“共词分析”“古文数字化”“古文信息处理”“哈佛燕京学社”“命名实体”“深度学习”“特征提取”“条件随机场”“问句分类”“先秦典籍”“先秦语料库”“知识图谱”等,这一合著群体侧重于古文信息的智能化处理研究,尤其是运用自然语言处理,深度学习等技术开展的实证研究。此外,一个有意思的现象是在该网络中“人文计算”的词频为4,而其他合著网络很少出现该关键词,在大规模使用“数字人文”作为约定俗成的研究主题词的我国学界,“人文计算”相对小众,南农团队黄水清曾探讨二者之间的概念异同[21],相信未来通过该团队的坚守会让“人文计算”依然有它活跃的舞台。

图6 小型合著网络4

表14 小型合著网络4的作者统计

3 研究结论及建议

3.1 跨学科合作

数字人文研究属于跨学科研究,一般采用数字化方法、信息技术应用于人文科学领域,参与其中的学者大多来自历史学、文学、艺术学、哲学、传播学、图情档、计算机科学等学科。我国该主题相关作者之间的合作并未完全打破学科壁垒,合著作者的学科分布集中。笔者近年多次参加我国规模大小不一的“数字人文”或相关主题的学术会议,发现一个有趣现象:如果是图书馆为主办方的会议如北京大学图书馆、深圳大学城图书馆、上海图书馆,参与的我国成员大多来自图情学科,人文、计算机领域学者参与比例较少,有些非图情领域的学者大多是参与此类会议的“老面孔”;如果是人文类学科主办的该主题会议如南京大学历史学院、浙江大学人文学院,参与的我国学者中来自图情、计算机学科领域的寥寥无几;近两年“知识图谱”研究开始在计算机学科领域升温,但在由计算机学科主办的相关会议中也很难瞥见人文或图情领域学者参与。我国该主题研究领域跨学科合作程度不高有两个原因:其一,人文学者对数字人文研究中一些过分依赖信息技术的论调存在排斥,对于相关数字资源以及研究工具、方法并非完全信任,并且一些资历较老的人文学者对于学科中年轻学者以及其他领域学者借由数字人文研究获得的学术资源与影响力视为一种不太符合学术伦理且有投机性的挑战或威胁(国外也有相似认知,如《数字人文的幻灭》[22])。数字人文研究范式中相关技术工具的较高习得成本也会让一些人文学者望而却步。其二,相关“数字”层面的学科如计算机、图情专业学者缺乏人文学科专业素养的基础训练,对人文学者的研究需求并未搞清楚。“数字人文”的立足点与核心是“人文”,这一观点被学界普遍认可,但仍有相当多的研究案例以技术的视角与方法来处理人文资料,如文本挖掘、社会网络分析、时空可视化,得到的研究成果要么是对经典知识的验证,要么是发现了一些无从考证的新知识,加上使用的数字化资源或许还存在讹错、缺失等不足,所以相关研究结论很难引起人文学者的侧目或认可,成为所谓“自娱自乐”式研究。

促进跨学科合作才能积极有效提升领域作者的合著率,可以尝试3种方法:(1)“数字”积极向“人文”靠拢。不同学科之间的合作应有一个良性健康的互动关系,才能积极消弭学科之间的壁垒。从学科研究特点来看,人文学者大多习惯“单打独斗”,计算机、图情等学科的学者更应放低身段,明确“数字”为辅助“人文”这一大前提,积极与相关研究领域的人文学者沟通,认真了解其研究需求并定制开发一些系统或软件,引导人文学者使用,通过不断迭代这一过程,共同取得有价值的研究成果。(2)寻找“桥梁”或建立“中介”。学科之间的合作需要寻找“桥梁”,从机构属性看,高校馆担任这个角色较为合适,毕竟许多高校馆很早就将学科知识服务列为常规工作。还可以依托一些机构建立“中介”,如杂志社、学会组织、软件系统供应商,基于自身各项业务,依托各类资源扮演“媒婆”角色,撮合不同学科之间学者充分合作,互利互惠。(3)科研主管部门积极引导与促成。比如,制定课题指南时向特定领域适当倾斜;加大跨学科研究项目的立项比例;设定跨学科研究课题双负责人制度,平衡与保障相关负责人的基本权益。

3.2 跨机构合作

科研合作大多是一种自发式且具有互利性的行为,跨机构合作越积极,说明相关领域研究活动越活跃,不同机构之间的合作可以优化资源促进知识共享,有利于产生更多创新性的成果。上文中已提到,目前我国数字人文研究领域合著作者有来自同一机构同一部门、同一机构不同部门以及不同机构等3种情形。同机构合作模式较多,说明大多数学者还是会优先选择自己较为熟识的研究者作为合作对象。

从我国数字人文研究进展来看,跨机构合作将成为未来越来越多学者会采用的科研合作方式,笔者认为推进数字人文研究基础设施建设可进一步加强跨机构合作。数字人文研究基础设施即支持人文学者在数字环境下开展科研活动的必须具备的基础设施[23],包括与研究主题相关的数字化文献资源、数据、软件工具、硬件(云存储),系统平台等对象,并支持人文科学研究数据分析与重用,促进科研成果在线出版、人文学科合作,加速科研创新的生态系统。目前全球尤其是欧洲数字人文研究基础设施数量急剧增加,如面向考古学的ARIADNE、研究大屠杀历史的EHRI、面向历史研究的CENDARI、面向语言学研究的CLARIN、面向艺术与人文学科的DARIAH以及面向文化遗产研究的IPERION;我国台湾大学以及上海图书馆构建的数字人文研究基础设施也已初具规模。相关机构建成的数字人文研究基础设施为相关学科领域学者提供了支持跨学科研究的资源、工具、数据管理与检索的通用解决方案。目前除欧盟成立了专门机构来落实数字人文研究基础设施外,其他基于国家层面的广义数字人文研究基础设施还未能建成。一般是政府表明支持态度,由各类财团、基金会以及一些官方或非官方组织,在各自学科、领域进行相关主题的狭义数字人文研究基础设施建设。因此,相关机构本身既可以努力成为研究基础设施的创建者与管理者,为其他机构提供相关资源与服务来达成合作模式;也可在已有研究基础设施合作平台上(如DHCOMMONS[24]),实现注册机构之间的广泛且有效地合作。

3.3 师生间合作

在合著网络中,师生合作是常见方式。在数字人文专业研究生教育方面,国外已有多年实践,形成了较完善的课程体系[25]。我国虽已有相关课程实践[26],但专业化、学科化仍在酝酿之中。要加强师生间合作,更需要激活的是学生群体。首先,在本科生教育阶段应面向特定专业如文史哲等普及数字人文概念、工具与方法,增设数字人文类课程。南京大学历史学院王涛于2016年开设的“数字工具与世界史研究”是我国较早的真正意义上数字人文课程[27],北京大学推出数字人文公选课[28],举办“数字人文研究技能与方法读书会”[29],起到了较好的宣传效果,我国台湾地区高校面向本科生开设数字人文通识课程更早。本科生在参与这些课程学习后,可在任课教师的指导下参与一些项目研究或者是自建团队参加大学生创新创业训练计划或“挑战杯”等竞赛,优秀的学生可与指导教师一起合作发表相关论文。其次,在研究生教育阶段,有条件的高校或机构可在相关专业中增设数字人文方向,而在这个阶段师生合作发表论文也是常态,因此也可增加师生合作发文数量。最后,教师不定期举办线下的工作坊、训练营,以及线上的公开课、慕课等向各类学生推广数字人文研究,为将来师生合作打下前期基础。例如,哈佛大学CBDB团队早在2014年开始即在我国多所高校开展中国历代人物传记资料库工作坊,成为当时许多师生数字人文研究的“启蒙课”[30];我国台湾大学数字人文研究中心在多所高校举办“Docusky数字人文学术研究平台实训工作坊”[31-33],推广普及其潜心研制的数字人文研究工具与平台;我国台湾教育主管部门2016-2017年委托台湾大学推行“数位人文课程创新计划”,试将课程模组化、制作成MOOCs教材,目的是培育学生成为数字人文领域的产学人才[34];我国台湾政治大学随后承接该计划构建了“数位人文创新课程典藏网”,目的是研发优质的数字媒体课程来支撑教师教学与学生自主学习,丰富数字人文课程以及普及数字人文教学[35]。

3.4 全球性合作

国外数字人文研究日趋成熟,相关研究方法、研究工具、软件系统、数据集等层出不穷,为我国领域学者开展各项研究带来极大的便利与借鉴价值。全球性合作是带动整个领域向前发展的重要手段之一,近两年我国数字人文研究渐有起色,但全球性合作程度还不高,目前我国较有影响力的外来合作单位屈指可数,如哈佛大学费正清中国研究中心(与北京大学、南京大学等高校合作)、哈佛大学地理分析中心(与浙江大学合作)、伦敦大学学院数字人文研究中心(与武汉大学合作)。当然,要全面推进全球性合作也不是一蹴而就的,合作是互利双赢,为提升国际合作,建议做好3方面工作:(1)加强我国机构特藏资源共享与利用。我国许多机构一向“重藏轻用”,许多有价值的文献资源没有物尽其用,对于学术研究而言我们应有更开放的姿态,与全球专家学者一起来开发、挖掘、利用与保护这些特藏资源,同时也是对我国优秀传统文化的宣扬。(2)鼓励学者走出去。我国领域学者应踊跃参加领域内的国际学术会议、研讨班、工作坊,或是前往国际数字人文研究重镇进行访问学习,加强与国际学术前辈、同行之间的交流,主动推介自己的研究项目,提出相关需求并寻求合作的机会。(3)我国相关优秀期刊面向全球合作研究主题设立专栏。由于目前我国学者合作成果更多在外文期刊发表,导致我国中文期刊此类论文较少,若我国优秀期刊能开辟专栏并主动向学者约稿,吸引佳作来投,可以提高我国数字人文研究成果的含金量。

4 结语

本文透过社会网络分析方法对我国数字人文研究领域合作关系展开分析,不足之处在于数据获取时忽略了部分未以“数字人文”或“人文计算”命名但行“数字人文”之实的研究成果,数据完整性上稍有瑕疵。此外,我国台湾与香港数字人文研究成果亦不少,如台湾大学出版的“数位人文研究丛书”,台湾数位人文学会创办的《数位典藏与数位人文》期刊极具学术价值,本研究理应纳入数据来源中展开分析,但考虑到我国大陆地区与港台地区学者合著成果较少,生成的网络结构特征或较为松散,未并入该部分数据。假以时日,三地在该研究领域合作更加密切频繁后,笔者考虑会在未来研究中完善这部分工作。

总之,我国数字人文研究刚刚预热,这种跨学科的研究范式孕育而生的研究成果理应有更多的合作形式来呈现。《光明日报》发表《2018年度中国十大学术热点》,数字人文研究榜上有名[36],相信若干年后其合著网络一定会变得更加绚丽多姿,未来可期。

猜你喜欢
学者论文人文
美在山水,魂在人文
最朴素的人文
学者介绍
学者简介
学者介绍
本期论文英文摘要
人文绍兴
学者介绍
本期论文英文摘要
人文社科