基于知识图谱的电影学研究热点与演进分析

2021-10-14 01:45
电影文学 2021年17期
关键词:电影史图谱聚类

李 婧

(北京电影学院影视实验中心,北京 100088)

“数字人文”在电影学研究领域的探索创新,致力于将信息科学方法、技术和工具充分融合进入电影学研究。基于认识论,如何了解和找出那些无法快速而直观了解的电影学相关的信息,并且科学地推测出那些传统研究方法未曾发现的电影学及其相关学科之间的信息联系。基于方法论,利用电影学信息的产生、收集、分析等多种方式来对电影学现有的研究成果进行合理的信息补充。不仅能够拓展电影学研究的空间,而且能提升电影学研究的工作效率,更重要的是给电影学研究引入新的研究方法和范式、新的发现问题的方式,从而辅助更好地解决问题。电影学学科具有多学科交叉的性质,人文、艺术与技术结合带来的繁复性以及各细分领域之间既独立又松散的关系,造成了现阶段电影学研究的诸多困难。只有全面地掌握电影学研究的发展动向,实时地追踪学者关注的核心问题,洞察研究中的新方法和新突破,才能促进电影学理论和实践的创新发展。

知识图谱为电影学定性研究的传统模式提供补充,通过文本挖掘、可视化工具更直观地展示和探测电影学知识领域研究的热点问题及其发展的趋势。

深度挖掘出学科结构与关联关系,寻找“学科发展的生长点”和“知识创新点”。定量研究方法可用于识别和跟踪研究热点随着时间的推移而演变的本质。通过检测并分析与研究热点相关的新兴趋势和突然变化。并且在其知识基础的背景下,确定研究热点在特定时区的重点,以揭示研究发展过程中重要的智力转折点,并发现不同研究热点之间的相互联系。

一、研究的意义和价值

(一)为电影学研究提供辅助工具

1.将构建知识图谱的方法引入电影学研究

基于可视化的方法,在情报学、管理学、体育学、教育学、经济学,以及新闻与传播学等社会科学领域,构建学科知识图谱的研究已经比较广泛了。但在电影学相关领域研究中的应用仍属少见,但该方法在艺术和人文领域的应用,有利于凸显其研究的全面性和客观性,不失为一种有效的电影学研究发展路径。

2.为电影学研究探索定性和定量相结合的方法

定性研究始终是电影学专家学者所釆用的主要的研究方法,而通过数据精确、逻辑严密的定量方法进行研究,可与定性研究互为参考、互相验证,使电影学研究在方法和实证中更进一步。

3.为电影学客观梳理发展脉络并进行知识发现

知识图谱可更直观、更全面地呈现出电影学研究的多元、务实和理性的活跃态势,可更便捷、更高效地梳理学科发展脉络。此外与定性研究多关注代表作和重点论文的方式不同,知识图谱还可进一步帮助研究人员,提示过去不被注意的、却可能非常重要的信息,从而引发许多新的发现与创见。

(二)为跨学科合作提供参考依据

为电影学专家提供一种数字人文的视角,来快速地发现新热点和洞察新趋势。为电影学相关学科专家提供一个数字研究的工具、来快速地概览学科的知识脉络,从而有效地推动跨学科学者的交流和合作。为电影学学科建设、基金资助、人才培养、政策制定等多方面提供参考依据,从而全方位地促进电影学的发展。

二、研究对象和方法

(一)核心期刊论文和引文数据作为研究对象

选取2004—2013年CSSCI收录4种电影学期刊:《电影艺术》《当代电影》《世界电影》《北京电影学院学报》共18068条论文数据和引文数据作为研究电影学研究的基础样本,通过文本处理工具对数据进行筛选、清洗,发现和理解隐藏在信息中的知识结构和知识之间的亲疏关系。

(二)基于跨学科理论的科学知识图谱研究方法

知识图谱结合了引文分析、共现分析等方法,挖掘学科的发展历史、前沿领域以及基本知识架构,并利用可视化展示工具和基于文本的可视化分析软件直观呈现给研究者。可视化图形常用的主要有统计图、网络图、地图、热力图、聚类图、矩阵图等。CiteSpace基本跨学科融合的理论基础,基于波普尔的三个世界理论,通过对客观知识世界知识体系的图谱化认识物理世界。参照托马斯库恩的现代科学技术革命的推进结构,尝试通过科学文献的关系找出范式兴衰的足迹。经过普赖斯科学前沿方法指导,基于论文引证关系形成的网络进行研究从而形成概念模型。基于博特的结构洞理论来识别关键节点和关键位置。信息觅食理论用于网络结构探测,开发出探求知识演变路径的方法和技术。

基于国内四本核心期刊论文和引文数据进行电影学研究热点的探索,从两个方面体现研究热点的特征:施引文献群组本身的内容;施引文献群组引用的参考文献。电影学知识基础的发现,需要研究相对于研究热点文献集的所有前期文献集合,即为文献共被引聚类。知识单元是表征知识领域文献和信息的概念及陈述、语词及词组、术语及定律等可计量的基本单位。在知识单元之间所构建的关系矩阵所形成的网络可分为两类:一类是引文网络(通常为有向网络),一类是共现网络(通常为有向有权网络)。信息可视化可以分为:基于距离、关系、时间线和叠加等的表达。

三、关键词共现知识图谱分析

共现分析的方法论基础是心理学的邻近联系法则和知识结构及映射原则。关键词是一篇论文的核心概括,根据施引文献中关键词词汇对或名词短语共同出现的情况,绘制关键词共现频次矩阵,来发现该论文集所代表学的各主题之间的亲疏关系。但利用CiteSpace生成的知识图谱并不是显示原共现矩阵,而是在原矩阵的基础上通过COSINE,PMI,DICE或JACCARD标准化后的矩阵,然后利用它们进行网络可视化图谱绘制。

(一)高频关键词的分析

绘制的关键词共现知识图谱,其中网络的节点数(N=461)即图中的关键词个数,网络的边数(E=976)即关键词之间的连线数。图中圆圈大小代表的是关键词频次,频次越大,圆圈越大。结点间的连线反映关键词间的共现关系,线条颜色与图中上方年份相对应,用于标志每一年有哪些主要关键词。从关键词首次出现的时间分析,统计时间为2004年起,高频词首次出现时间为2004年的关键词依次为:电影创作、电影艺术、中国电影、电影评论、香港电影、电影理论、美国电影、电影市场、中国电影史、类型电影、韩国电影、数字电影、数字技术;“电影美学、电影导演、电影史、艺术电影”在2005年开始首次呈现研究热度;“电视电影、数字电影、电影产业”在2006年开始呈现明显关注热度;“新媒体”研究自2007年开始至今热度不减,呈现持续上升趋势。“(贺岁档,2009)、(柳城,2007)、(主流电影,2007)、(军事题材,2007)、(共和国名将,2010)、(电影营销,2008)(电影音乐,2010)”等高频关键词也在其首次出现的年度表现出电影学研究时区中不容忽视的关注热度(见图1)。另外,burst指标参数表示一个变量的值在短期内有很大变化,通过探测突现词可以发现两个参数较为突出的词一个是“电视电影(20.99)”,另一个是“电影创作(20.98)”与排在第三名的美国电影(11.86)相比,在数值上呈现出了明显差异。这两个关键词在研究的十年时区中,在时间和热度上均表现出了较大的突然研究关注。

图1 关键词共现时区知识图谱

(二)聚类关键词团的辨析

联系紧密的关键词会相对形成一个个小的团体,进而将这个小团体中的关键词进行归纳总结,总结出一个个主题,从而可以获得学科中各主题之间的关系。Log-Likelihood Ratio(LLR)算法是一种假设检验的方法,可以代替余弦定理计算相似度。利用LLR算法进行聚类主题提取,LLR数值越大的词越具有对这个聚类代表性,并不是单纯的频次统计关系。

选取聚类标签是从0到12,数字越小,聚类中包含的关键词越多,每个聚类是多个紧密相关的关键词组成的。其中电影艺术类(电影创作)、中国电影类、电视电影类、柳城类、电影市场(电影)类、商业电影类、中国电影史类、香港电影类、电影评论类、大众文化类、导演类、数字技术类、制片类(见图2);作为13个聚类关键词团,通过LLR算法计算并筛选该词团最高频关键词进行类命名。类名一方面可以大致反映该关键词团主要围绕的研究内容,一方面也会存在机器选择概括性不准确的问题,可以通过对关键词团中的高频词聚类关系进行进一步的准确辨析。本文选取两个关键词团,同时也是凸显高频词,作为样例进行进一步探析的探索,为电影学者通过数据展开发现问题提供一个思路。

图2 关键词共现知识图谱

1.电影艺术类(电影创作)关键词团

是最大聚类词团,囊括十年数据中关联关系紧密程度最高的关键词,同时展现了研究时区中最备受瞩目的研究热点。

(1)聚焦电影创作相关的理论和实践研究热点:包括电影艺术(500.31)、电影创作(467.15)、电影语言(56.49)、视觉语言(45.16)、叙事空间(33.87)、创作观念(33.87)、音乐创作(33.87)、电影作品(25.12)、历史叙事(25.12)、主流创作(22.58)、影视文化(22.58)、纪录片创作(22.58)、表演风格(20.9)等;

(2)大量重要电影人成为研究热点:包括创作者、电影工作者、导演等对电影创作产生重要影响力的人物,包括安东尼奥尼(112.87)、谢飞(101.59)、田壮壮(79.02)、吴贻弓(67.73)、沈浮(67.73)、郑君里(60.44)、张骏祥(56.49)、陈凯歌(56.49)、郑洞天(56.44)、冯小刚(45.88)、钟惦棐(45.88)、英格玛伯格曼(45.16)、孙瑜(40.18)、阿兰雷乃(35.39)、蔡楚生(33.87)、吴思远(33.87)等;

(3)关注电影人重要群体:包括电影生涯(90.3),第四代导演(33.87)、电影导演(28.16)、创作型电影人才(22.58)等;

(4)关注电影创作类型的多样化研究:包括电影纪录片(169.29)、中国纪录片(22.58)、现实题材(56.44)、贺岁片(47.89)、电影民族化(45.16)、女性电影(45.16)、大众电影(45.16)、徐克电影(33.87)、左翼电影(33.87)、新现实主义(33.87)、谢飞电影(25.12)、本土电影(25.12)、小众电影(22.58)、诗化电影(22.58)、数字媒体时代(45.16)、数字化电影(15.19)等;

2.电视电影类相关的关键词团

是2004—2013年期间探测出的重要的凸显词团,同时覆盖了其备受关注的研究热度周期,与此同时“电视电影类”词团和“柳城类”“电视剧评论”“数字技术”等词团呈现出较强的关联相关,同时又均于电影研究相关词团,呈现出较弱的关联关系。现阶段“电视电影”的关注热度已经明显减少,有研究讨论,数据探测体验了该研究热点的研究热度轨迹。

从1999年电影频道首次播放电视电影(当时也称数字电影),此前除美国外鲜少有国家大规模投拍电视电影,但也出现了如俄罗斯的《战争与和平》、英国的《包法利夫人》等佳作。王志敏率先发表电视电影相关文章,探讨“电视电影”的定义,即理解为按照电影规范制作通过电视播放的电影,并认为电视电影当时在中国出现具有重大意义。2000年,国家广电总局电影频道节目制作中心、中国电影艺术研究中心和《当代电影》编辑部联合召开首次“电视电影研讨会”,探讨电影电视的本体、作品评论和发展前景。2007年起,《当代电影》首次开辟“电视电影”栏目,以便于加强我国对电视电影艺术理论和创作实践的深入研究,首期栏目首推2005年柳城《电视电影三字经》的专题讨论。

根据数据显示与重要决策和会议相对应的研究探讨热度,在2002年和2007年也出现了两次小高峰,2007年研究的广度和深度都上了一个台阶。包括发展战略与趋势(饶曙光、赵葆华)、前景与途径(陈墨、赵卫防)、价值空间(王海洲)、喜剧性(胡克)、现实主义(任殷)、美学选择(王宜文),概念阐明(阎晓明)、电影创作者研究(李镇、边静、周霞、王群)、电视电影作品研究(黄式宪、赵进、李斌、张丽宁)等。随着“电视电影”研究热度高峰期的减退,取而代之的是“微电影”在2008年开始有了研究热度,在2014年达到关注顶点,随后热度持续逐年降低;“新媒体电影”首次热度开始在2002年,2010年出现较大研究热度的增幅,2015年接近顶点,至今仍继续保持一定的关注热度;“网络电影”首次关注出现在1999年,2011年出现关注热度小高峰,2016年后研究热度出现较大增幅至今仍保持在高度受关注的时期。对数据进行进一步探究发现,网络电影2016年的关注高峰实际上是由更为聚焦的“网络大电影”带来,自2013年爱奇艺首次试水“网大”,2015年研究热点首次出现,到2016年,“网大”作品井喷式增长,与之匹配的研究关注度也可见地日益繁荣,也验证了电影形式随着时代发展的不断丰富。

四、文献共被引知识图谱分析

1973年,美国情报学家Small首次提出了文献共被引(Co-citation)的概念,作为测度文献间关系程度的一种研究方法。通过分析共被引网络中的聚类及关键节点,可以勾勒出电影学领域的基本知识结构,研究前沿在分析突现文献和突现词(Burst Terms)的基础上,结合对施引文献(Citing Articles)的分析,进行综合判断和探测。回溯某一研究文献的起源与历史(Cited References)或者追踪其最新的进展(Citing Articles)。

(一)高被引文献的分析

数据显示高被引文献几乎都是国内外经典书籍,主要分为三类电影理论和电影史类,香港电影类和无声电影类。例如:《中国电影发展史》(程季华,1963)、《影视类型学》(郝建,2002)、《电影是什么》(巴赞·安德烈,2008)、《故事:材质、结构、风格和银幕剧作的原理》(麦基·罗伯特,1997)、《中国无声电影史》(郦苏元,1996)、《香港电影的秘密:娱乐的艺术》(波德维尔·大卫,2003)、《映画:香港制造:与香港著名导演对话》(张燕,2006)、《世界电影史》(萨杜尔·乔治,1982),《好莱坞电影:1891年以来的美国电影工业发展史》(麦特白·理查德,2005)、《香港影视业百年》(钟宝贤,2004)、《电影的形式与文化》(考克尔·罗伯特,2004)、《三十年代中国电影评论文选》(陈播,1993)等。

根据突现度分析,突现度反映文献在一段时间内影响力程度增加速度,也即通过被引用频次的增加来体现。突现度较高的大部分文献同时也是高被引文献,此外还有几本,其中还有一篇论文也同样值得关注。《全球化与中国电影的转型》(张颐武,2006)、《堕落女性,冉升明星,新的视野:试论作为白话现代主义的上海无声电影》(米莲姆·布拉图·汉森著,包卫红译,《当代电影》2004年第1期)、《上海摩登:一种新都市文化在中国(1930—1945)》(李欧梵,1900)、《中国电影史》(陆弘石,1998)等。

(二)共被引主题聚类的探析

共被引分析仅可以观察到文献之间的联系,却无法从文本内容角度发现主题之间的联系。利用CiteSpace进行文献共被引的聚类分析,可以从主题角度分析共被引每一个簇所代表的主题,挖掘相似文献的共同主题,从而进一步探究电影学领域的重要研究主题及其发展脉络。聚类形成93个共被引词群,其中37个较大词群,截取13个密切相关的词群进行展示分析(见图3),群类名分别为:电影理论、吴永刚、吴贻弓、安东尼奥尼、布拉斯基、沈浮、史料发展、类型化、视觉文化、巴赞、电影商业美学、徐克电影等。结合高被引书籍内容和聚类分布情况选取两类进行进一步探析。

图3 共被引主题聚类知识图谱

1.史料发展类聚类关键词团

主要分五个部分:一是电影史相关词团:电影史、新电影史、中国电影史等;二是史学相关词团:新史学、历史理论化、理论历史化等;三是文化史相关词团:文化史、电影文化史、中国电影文化史等;四是电影史重要人物相关词团:郑君里、李少白、程季华、史东山、沈浮、张骏祥、朱石麟、吴永刚、吴贻弓等;五是其他相关词:数字技术、中华民族审美心理、当代影视艺术、后假定性美学、全球化语境等。

电影史是关于电影发展历史的描述与阐释,两岸三地的中国电影史学研究存在着一条“程树仁—郑君里—程季华—余慕云(港)、杜云之(台)”的传承主线。自20世纪80年代提出“重写电影史”以来,2004年,“百年中国电影史重构研讨会”的召开,使得对电影史进行重写再次成为热点话题。2009年《当代电影》开设了重写电影史专栏,沿用至今成为常设栏目,并于第4期组织了12位专家就中国电影史研究的重构与发展等问题展开深入的讨论。2012年,《中国电影发展史》出版五十年,《当代电影》组织李少白、丁亚平、陈犀禾、齐伟、陈山、李道新、汪献平围绕这部重要学术著作,以寻源、重读和重写的姿态作致敬。朱天纬还采访了程季华撰写《病中再答客问》。重写电影史时至今日仍是电影史学家们持续关注的研究重点问题。

2.香港电影类聚类关键词团

主要分五个部分:一是文化研究相关词团:香港意识、电影概念、华语电影全球化、香港回归、大中华视野、港式人文理念、香港电影文化、后九七香港电影、中国想象、传统守望、文化身份、国族认同、电影百年、童权问题等;二是类型片研究相关词团:类型拓展、类型化叙事、动作喜剧、合拍影片、纯港产片、武侠电影、功夫片、文艺电影、动作片、少儿片、文艺武侠片、青春片等;三是导演研究相关词团:导演风格、女性导演、徐克、张婉婷、马楚成、三部曲、李小龙、杜琪峰等;四是产业相关研究词团:嘉禾产业创新、卫星制、邵氏兄弟公司、天映公司、银河映像等;五是其他方面研究:视听冲击、颠覆经典、数码美学、唯美、风格流变、悲情、动作设计等。根据数据显示,2007年香港电影研究呈现过一次小高峰,香港回归10年,“后九七香港电影”的相关研究呈现出一个高潮。

五、研究总结与展望

基于关键词的共现分析取决于作者对关键词提取的质量,若作者对关键词的提取有不规范、不完整或者不能准确表达文献的核心内容,对关键词共现和效果分析会造成一定的影响。同样共被引分析也取决于作者在撰写文献时是否能够如实、准确地标识参考文献信息。虽然通过科学计量学方法可以连接出版物、主题、关键字、作者、机构和引文等信息,用以识别、分析电影学领域知识基础和前沿,并绘制出研究成果的科学图谱,但是特别值得指出的是定量的研究方法在任何情况下都不能替代其他类型的定性分析,而应被认为是辅助的方法。最终,仍是研究者基于自己对知识的了解而建立的,需要有更多的专业学者共同进行解释发现的工作。

未来研究除了基于文献结构化的题录和引文信息外,拓展结合自动文本摘要和全文自然语言处理技术,进一步深入对非结构化内容的研究,将研究前沿和知识基础的可视化与现有的电影学各个类型的数字资源相集成,实施和比较趋势检测和主题跟踪技术。探索利用更多数字人文数据库和工具,不断增进对电影学研究领域的理解。将原本孤立的技术转变为一个集成环境,通过汲取多个学科的优势,分析和可视化电影学研究领域的发展潜力。特别是专注于与发现瞬态研究前沿中的新兴趋势和突然变化有关的各种实际问题,未来还会面临更多的挑战和更多机会,定量和定性相结合的研究更可能给电影学的学者们带来广泛的利益。

猜你喜欢
电影史图谱聚类
绘一张成长图谱
基于DBSACN聚类算法的XML文档聚类
补肾强身片UPLC指纹图谱
基于高斯混合聚类的阵列干涉SAR三维成像
对中国电影史研究的思考
从法国电影史的发展看“作家电影”流派的意义与影响
电影史研究 主持人寄语
一种层次初始的聚类个数自适应的聚类方法研究
史学观念的转型与中国电影史研究及教学刍议
自适应确定K-means算法的聚类数:以遥感图像聚类为例