人工智能技术的电影美学应用场景及其前景

2024-01-10 01:58王志敏

音乐传播 2024年1期

■ 王志敏

人工智能(AI)技术的迅猛发展正把我们推向一个发生巨变的、被智能浪潮席卷的“增强”时代。一系列人工智能技术正在深入走进众多行业,应用场景日益丰富。而电影作为一种科技赋能、美学护航的传播媒介和艺术形式,在社会生活中具有特殊的重要性。安德烈·塔可夫斯基(Andrei Tarkovsky)仿佛预言般说:“电影会成为首屈一指的艺术形式,是其他一切艺术的灵感之源。”(1)[美]约翰·吉安维托编《安德烈·塔可夫斯基访谈录》,史敏译,南京大学出版社2023年版,第59页。在这个意义上,研究人工智能技术的电影美学应用场景,不但同样具有特殊的重要性,而且其创新空间和拓展空间也将会近乎无限。我们要想抢占先机,就要密切关注此类技术的发展和应用,包括算力、算法、数据和平台各方面的最新进展,毕竟电影艺术信息的有效传递和为电影美学的保驾护航一直都需要强有力的技术支持。斯科特·菲茨杰拉德(Francis Scott Fitzgerald)1922年的小说《本杰明·巴顿奇事》(TheCuriousCaseofBenjaminButton)直到1995年才被人真正想到拍成电影,因为这篇小说讲述了一个从出生到死亡“逆生长”的男孩和一个正常的女孩之间的恋爱故事,实在是太离奇了。而实际上,因为技术支持的问题,此片又拖了13年,直到2008年才拍出来。我们看到的影片非常感人,呈现的效果也特别惊艳,但是仍感觉有些“不过瘾”,这是因为相应的技术还不够强大。

现在看来,人工智能技术的电影美学应用场景有两条探索路径:一是间断式的有限应用实践,是当下主流的“现实主义”路径;二是全流程无限应用的实验,是一条长期处在艺术畅想、理论憧憬之中,属于近期先锋探索的理想主义路径。

先来看有限应用。它是指在电影制作流程的各个环节,在对投入和回报之比等因素进行综合平衡选择的条件下,尽可能采用虚拟拍摄手法,锐意进取,最大限度发挥创造性,开发相关的应用空间。

2012年,中国电影集团公司(“中影”)引进了虚拟制片系统。2017年,“博采传媒”开始了对虚拟制片应用的各个环节(数字资产、预览、LED屏、动作捕捉、虚幻引擎)的自主研发,由此对开源程序的底层代码进行了全面改写,建立起了自己的虚拟制片底层技术体系和管理逻辑,争当虚拟制片探路者和领路人。2019年,中国电影科学技术研究所启动了“中国电影云平台”的建设,“华为云”也推出了“云渲染”服务。2020年,“中影”掌握了自主创新的CINITY放映系统和人工智能母版重置系统,显著提升了电影作品的审美品质和观众审美过程的力度感。总之,中国电影制作中人工智能技术应用的自主创新历程已经开启并在稳步推进,在拍摄周期、艺术呈现、审美保障、社会效益和经济效益方面都取得了骄人的成绩,当然也还有继续发展和提升的巨大空间。谨此举例说明相关技术对实践的赋能:影片《金刚川》(2020)拍摄时间短、任务急,但在约2600人的视效团队的助力下,几个月就完成了拍摄,没有技术的支持是不可想象的;《长津湖》(2021)前期使用了虚拟制作平台进行虚拟化预演,后期渲染则借助了“华为云”的强大算力;《封神》(2023)几乎把动态预览的使用做到了极致,其剧本完成的故事时间量大约200分钟,其中动态预览部分就达到了125分钟;《流浪地球2》(2023)的故事和场景均气势恢弘,摄制工程浩大,若没有人工智能技术的全方位“加持”,也难以如期完成。而在人工智能赋能电影美学并由此成为中国电影提质升级和建设电影强国的重要支撑与“利器”的同时,业内人士也仍应清醒地看到现有的相关架构的局限性,充分探索虚拟制片的优势和短板,并为人工智能技术应用“奇点”的到来做好充分准备。

至于那条理想主义的路径,一开始只是一种相当模糊的向往,经过了较长的等待期才有了尝试采用自动生成方式的条件。大约1927年,谢尔盖·爱森斯坦(Sergei M.Eisenstein)产生了用电影手段来拍摄马克思《资本论》电影版的艺术狂想,这一想法不说在当时,即使在今天看起来都是十分大胆的,也许他是想表明电影能像语言文字一样表达复杂的抽象思想。不久,法国电影导演让·雷诺阿(Jean Renoir)畅想电影是一种新的“印刷术”,凡是语言文字能表达的,电影也能表达,这等于暗示电影是一种新的文字。1948年,法国电影导演亚历山大·阿斯特吕克(Alexandre Astruc)的“摄影机自来水笔”理论继续推进这一畅想,希望电影成为像语言文字一样灵活精妙的写作手段,并提高了对前述暗示的要求:不是让电影导演去拍摄学者的学术著作,而是让学者去拍摄自己的学术著作。这一要求意味着人们掌握电影这种媒介手段的程度要达到像掌握语言文字手段一样的水平。也许,阿斯特吕克没有意识到这种类比中难以逾越的巨大障碍:语言文字已经有了单元性的有限的语音和笔画(或词符)系统,而电影却没有。1964年,马歇尔·麦克卢汉(Marshall McLuhan)仍然坚持电影和文字的类比:“目前,电影仿佛仍处在手抄本阶段,不久,在电视的压力下,它将进入便携便读的印刷本的阶段。”“电影与字母表和印刷文字一样,是一种富有攻击性的威力至上的形式,它由于爆炸而侵入其他文化之中。”深究起来,电影技术其实可以说发端于印刷,因为正如我们所见,活字印刷术对任何工业或电影流程都是必不可少的。(2)[加拿大]马歇尔·麦克卢汉:《理解媒介:论人的延伸》,何道宽译,译林出版社2019年版,第355、357、360页。同一年,法国电影符号学家克里斯蒂安·麦茨(Christian Metz)在憧憬电影语言(文字)系统化之可能性时指出,这里最大的障碍是没有电影结构单元清单——电影没有双重分节的编码层次:“如果说电影没有音素,那么无论如何也没有‘单词’。”(3)[法]克里斯蒂安·麦茨:《电影表意泛论》,崔君衍译,商务印书馆2018年版,第58、61页。与此同时,意大利电影导演皮埃尔·保罗·帕索里尼(Pier Paolo Pasolini)提出,电影的导演创作和作家创作的区别在于作家运用语言,导演创造语言,因为作家写作时已经有了现成的词典,而电影导演创作时却没有现成的词典——如果将来有了词典,那可能也将是一部无穷大的词典。意大利符号学家乌伯托·艾柯(Umberto Eco)在参加1967年皮萨罗电影节的论文《电影代码的分节方式》中,提出了确定“电影构成清单”的3层10种代码的分类,(4)[意]乌伯托·艾柯:《电影代码的分节方式》,载[法]克里斯丁·麦茨等:《电影与方法:符号学文选》,李幼蒸译,生活·读者·新知三联书店2002年版,第62-85页。如下表所示。

⑩无意识代码⑨风格代码⑧感觉和趣味代码⑦情调代码韵味意指⑥修辞性代码⑤肖似化代码含蓄意指④肖似代码③识别代码②知觉代码①传输代码直接意指

艾柯认为,这个数字式离散单元的代码系统一经解析出来,就能够把现实复原给我们,它是人类历史上仅有的。如果我们愿意将电影和文字类比,那么艾柯实际上提供了一种解析出或说找出“电影笔画”的解决方案。同年,法国哲学家雅克·德里达(Jacques Derrida)在《论文字学》一书中,把电影、舞蹈、绘画、音乐和雕塑,乃至军事、政治、语言和作为生命活动之指令的遗传密码的传递等,都包括在了“文字”概念之下,总之,他认为“一切”都是文字,文字之外别无他物。(5)[法]雅克·德里达:《论文字学》,汪堂家译,上海译文出版社1999年版,第11页。这本书第一章的标题是“书本的终结和文字的开端”。(6)同上书,第7页。那个时候,可能没有几个人能理解他在说什么。他仿佛在宣布一个旧印刷时代的结束和一个新印刷时代的开始。他忧心忡忡地表示:“未来已经在望,但是无法预知。展望未来,危险重重。”(7)同上书,第6页。他把电影当成一种踪迹性质的文字,却不能指出它的笔画。

1970年,麦茨不再反对艾柯提出的电影代码分类方案,但是却认识到:电影符号学再先进,也开不出代码清单。(8)[法]克里斯蒂安·梅茨:《电影的意义》,刘森尧译,江苏教育出版社2005年版,第433页。此后他又觉得,这个代码清单即便有可能开出来,也不是一个系统,而是几个系统,只是现在还开不出来。(9)[法]克里斯丁·麦茨:《论电影语言的概念》,载《电影与方法:符号学文选》,李幼蒸译,生活·读书·新知三联书店2002年版,第96页。这位颇具天才又因受挫而抑郁的电影符号学家后来终于明白,找到电影笔画的任务或许不是人的智能可以完成的,于是大胆地推测:电影构成单元的清单与语言文字的不同,可能是一种构成模式清单;语言文字的构成模式清单已然在那里,但是电影的构成模式的清单现在还无法测量出来,只能寄希望于将来认知的更高阶段。(10)[法]克里斯蒂安·麦茨:《想象的能指:精神分析与电影》,王志敏译,中国广播电视出版社2006年版,第180页。他设想的很可能就是现在作为人类智能的增强和延伸的人工智能。法国哲学家吉尔·德勒兹(Gilles Louis)的《电影1:运动影像》和《电影2:时间影像》两本重磅著作从哲学和符号学的角度提出了影像分类学。德勒兹从时间和空间的概念出发,对影像进行了一次极其复杂的、分布和层级由上到下不断叠加的功能性区分和标识。以他的“晶体-影像”为例可见一斑:“现实影像和潜在影像的聚合,是现实和潜在双重影像,我们曾把脱离其运动延伸的现实影像称为视觉符号(和听觉符号),因为,它们是由大循环构成,与能够表现为回忆-影像、梦幻-影像、世界-影像的东西进行交流,但是,当现实视觉影像与它自己的潜在影像结晶成为内在小循环时,视觉符号才能找到其真正的遗传成分。晶体-影像为我们提供了视觉符号及其构成元素的理由,或者更确切地讲,‘核心’。而这些视觉符号只不过是晶体-影像的光环。”(11)[法]吉尔·德勒兹:《电影2:时间影像》,谢强、蔡若明、马月译,湖南美术出版社2004年版,第108页。这段话理解起来比较困难,但其实意思并不复杂,即现实-影像一旦脱离其运动延伸,进入了时间-影像,就与环绕它的潜在-影像(即回忆-影像、梦幻-影像和世界-影像)相互映照,熠熠生辉,成了晶体-影像。三种影像标识出了六种影像。德勒兹认为,他在做一项可以与生物学家卡尔·冯·林奈(Carl von Linné)的生命形态分类学和化学家德米特里·伊万诺维奇·门捷列夫(Дмитрий Иванович Менделеев)的物质成分分类学(即元素周期表)相媲美的电影形态分类学。(12)[法]吉尔·德勒兹:《电影1:运动影像》,黄建宏译,远流出版公司2003年版,第22页。他坚决反对麦茨的电影符号学,但却殚精竭虑地开列了电影形态的类型清单。

有人统计过,德勒兹提出的电影形态多达241种。这仿佛是在冥冥之中为将来对电影进行人工智能解析提供可行性方案。我们知道,构成并驱动人体的血肉之躯和全部精神活动的细胞总量大约为40万亿至60万亿,可分为大约200至600种,看来电影的代码种类至少也得有几百种才够用。这让笔者想起中央美术学院教授徐冰从1987年到1991年完成的一个先锋实验装置作品项目《天书》。事实上,这一探索也可视为他30年后作为美术家首次“触电”的“前传”。他用自己精心设计出来的4000多个伪汉字,刻写印制出共4册604页、看起来极其古朴典雅的线装书。这些字看起来像汉字但是又没有人认识和理解,是他用地地道道的宋体汉字的笔法式样绞尽脑汁编造出来的。但是,这一作品最重要的前提,就是要把可识别的汉字笔画拆解出来,再把它们建构成为绝对不能识别的样子。这一创造或许堪比2023年诺贝尔生理学或医学奖获得者卡塔琳·卡里科(Katalin Karikó)和德鲁·威斯曼(Drew Weissman)的医学科学发现。该项获奖成果是他们在mRNA技术的核苷碱基修饰方面的发现。有医学界人士对其间的原理作了介绍:人体能够识别外来的病原体的核酸,从而诱导强烈的炎症反应来消除病原体,同时对病毒抗原进行呈递,来诱导获得性免疫,以有效应对病原体的再次入侵。这是人类在数百万年进化中形成的保护机制或说免疫力密码。而mRNA疫苗开发中最大的问题就是,疫苗被注射到人体后的遭遇也会像病毒那样,被人体免疫系统识别并诱发炎症反应,结果还没来得及表达其靶蛋白就被降解了,导致失效。至于mRNA疫苗技术“落地”的关键,正是如何绕过人体的核酸识别及其炎症反应机制,让疫苗顺利实现体内的靶向分子表达。这一成果是人类的又一次底层技术突破,可能给生物医药领域带来难以估量的变化。(13)《张文宏点评mRNA疫苗技术获诺奖》,微信订阅号“生命科学前沿”,2023年10月6日,https://mp.weixin.qq.com/s/ehGIVMdeQaFBohRQNdj18A,访问日期:2023年10月26日。这里的技术关键有两点——保护装置和表达修饰。首先,脂质体纳米颗粒作为保护装置,确保mRNA有表达机会;然后,还必须对表达进行修饰,让免疫细胞以为表达是假的,但其实表达中的组件(笔画)是真的。若作一类比,这或许可以说是对病毒基因的“文字造假”。有趣的是,徐冰本人在谈到《天书》时也提到过“传统基因”和“转基因”的话题。(14)徐冰:《徐冰:从天书到地书》,广西师范大学出版社2020年版,第28页。

人们能从徐冰的《天书》中看到他首次“触电”的影子,这包括两个方面:揭示汉字的复数性,暴露汉字笔画的复数性。(15)同上书,第11页。而基因和文字都是复数性的。2017年,徐冰推出过一部既没有摄影师也没有演员的剧情长片《蜻蜓之眼》,其镜头全都来自全国各地从1999年到2016年长达17年间的监控视频,是从选出的11000个小时的素材中剪出的一个81分钟的爱情故事。这次尝试向电影影像那如同文字一样的复数性发起了冲击,开启了“被记录下来的每个片段都可能被用来讲述另一个电影故事”的艺术进程。它就像既得影像电影(found footage film)、档案电影(archive film)、编篡电影(compilation film)、现成品电影和再媒介化影像等艺术探索一样,仿佛是在呼应德里达的电影文字学:既然电影像文字一样具有踪迹性,那么,它能像文字一样被不断重复使用吗?徐冰团队2021年在平遥国际影展上推出的“人工智能无限电影”,就再次发起了对电影复数性的冲击性探索。人工智能会根据观众围绕电影类型、故事偏好等提出的关键词或语句描述,立即开始自动编剧,从网上搜索选取相关的视频片段,编辑或创建出影片画面,还可以根据观众的想法实时调整。这个项目的创意、算法和设计流程,包括剧本改进协调、场景生成对话、人物配音等,也是由六个人工智能系统经过不断的测试、纠错和迭代共同完成的——这很可能是世界上首个真正可以实时产生电影脚本并找到其图像的全流程系统,当时使用的人工智能版本是GPT2。徐冰这两次“触电”的启示是,通过宣示电影影像的复数性,可以暴露出电影影像笔画的复数性。

2022年,“博采传媒”又用4天时间、3样道具拍出了全虚拟制作的9分钟短片《诞辰》。此片于2023年获得中国科幻大会的最佳科幻特效短片奖,以及美国波特兰的“电影、动画与科技”电影节的前瞻性技术运用奖等多个国内外奖项。该片导演李炼表示,他拍摄这样一部侧重视效的科幻短片,是想向行业证明虚拟制片可以干净利落地完成整部影片的摄制工作。在他看来,虚拟制片代表着电影工业的又一次从头开始的革命。虚拟制片强调数据迭代,从剧本阶段起就可以进行实时预演制作,每个环节的数据都可以继承优化,一直到LED拍摄阶段。这个过程始于数字资产阶段,会伴随整个项目,中间的迭代是没有浪费的。而这些都得益于系统底层的大量研发工作。“博采传媒”希望走出一条与好莱坞不同的路,并努力将自主研发的虚拟制片技术推向海外。李炼还认为,今天的虚拟制片正处于虚拟与真人之间,将来一定会过渡到全数字化生成的全虚拟阶段。(16)参见《51亿美元市场规模,虚拟制作将迎来更多高光时》,微信订阅号“博采传媒”,2023年6月26日,https://mp.weixin.qq.com/s/fKGNqqQMSvzpCzvTym6e1Q,访问日期:2023年10月17日。该公司的尝试,显然也值得研究者关注。

2023年,美国“路标”(Waymark)公司更是推出了全世界第一部全人工智能(用到DALL-E2、D-ID、MJ等)逐帧生成短片——12分钟的《冰霜》(TheFrost)。该片燃起了人们对“个人电影”时代的想象和憧憬。创作者帕克说,他制作《冰霜》的动力是借助生成式人工智能为尚未拥有相应的图像和视频(或不想使用已有图像和视频)的企业与个人创建图像和视频的想法:创造一个世界、一种氛围。(17)《AI 生成的影片〈The Frost〉全球首映!》,搜狐网,2023年8月21日,https://it.sohu.com/a/713529338_121124363,访问日期:2023年9月28日。中国金鸡百花电影节推出的2023年《AIGC人工智能与电影发展研究报告》(18)该报告总策划为王丹,首席专家为燕兴,总撰稿为吴雷、张凯;发布时间2023年11月2日。亦指出,人工智能生产内容(AI Generated Content,缩写为AIGC)作为新一代人工智能技术与电影创制应用场景的结合体,是电影产业及其技术发展的重要方向。

诚然,视频生成方兴未艾,且很可能将成为跨模态生成领域中的高潜力场景,但目前它还处在非常早期的探索阶段。好消息还是有一些的:创作生成式短片《冰霜》时使用的DALL-E2现在已经升级到了DALL-E3,并且与GPT集成,原生建构在GPT之上;最近推出的GPT4包括了能让用户根据需要而定制的各种模型和架构(DALL-E3也在其内);谷歌、微软、脸书、华为、腾讯、百度等品牌,也都有了自己的深度学习框架。而Open AI公司所确定的被赋予无限美好想象的终极目标,是通用人工智能(Artificial General Intelligence,缩写为AGI)。华为的“盘古”预训练大模型,也是着力于解决通用大模型的通用与泛化问题的。虽然目前人们还没有明确地把解析电影的全部构成模式(即解析电影笔画清单)的任务提出来,但是我们似乎不用过于心急,“人工智能将分析更多的数据”(19)[美]布雷特·金:《智能浪潮:增强时代来临》,刘林德、冯凝、张百玲译,中信出版集团2017年版,第235页。,“电影将向交互式互动体验转变,游戏将变得越来越像电影”(20)同上书,第389页。。当然这些预期都有一个前提,即未来可以从已有的全部电影中解析出很可能包含多达数百种“笔画”的方程式体系。人类已有的至少几十万部电影作品的数据就在那里,等待这一进程。我们可以让人工智能乃至通用人工智能运用艾柯的电影代码分类理论和德勒兹的电影形态分类理论,从庞大的电影作品数据库中解析出电影作品的构成模式单元。

OpenAI 的联合创始人兼首席科学家伊利亚·苏茨克弗(Ilya Sutskever)说:ChatGPT 已经改变了很多人对即将发生的事情的期望,从“永远不会发生”变成了“将比你想象的更快发生”。(21)《早晚实现人机合一!Open AI首席科学家专访:ChatGPT可能已有意识,AI万世不朽》,搜狐网,2023年11月2日,https://www.sohu.com/a/733269179_120607343?scm=1102.xchannel:325:100002.0.6.0,访问日期:2023年11月3日。甚至人类已有的全部视听成品和文化遗产,都可能成为真正数字化的、被全人类共享的、不存在知识产权限制的方程数据库。若这一切变得可以想象了,那么甚至还可以期待人们一定会有当年那些世界一流的科学家果断地决定不给遗传基因相关科研成果申请专利的英雄气概。这一事业的关键取决于人工智能算力和算法的提升与优化。处理器方面,继CPU(美国英特尔,1971)、GPU(1999)、IPU(英国,2019)之后,如同繁花般以各个字母开始、占满了英文字母表还打不住的“×PU”正在涌现,中国的科技公司也加入了这个行列。美国计算机科学家佩德罗·多明戈斯(Pedro Domingos)在他2015年的书中提出了整合已有的五大算法的“终极算法”。他对这种算法的定位和期许很高:“给出所有学科的统一思想”,“是所有理论的起源”,“很有可能成为万有理论的最佳出发点”,“最后会告诉我们更多关于上帝思考的东西”。(22)[美]佩德罗·多明戈斯:《终极算法:机器学习和人工智能如何重塑世界》,黄芳萍译,中信出版集团2017年版,第58-61页。对“终极算法”来说,电影笔画问题很可能不在话下。在多明戈斯看来,终极算法问题的解决方案既可能远在天边也可能近在咫尺,既可能需要几代人的努力也可能只需要某个孤独的天才灵光一现。(23)同上书,第61页。我们希望这个人是中国人,而且不管他是不是天才,都能像多明戈斯说的那样,不是带着成果跑到专利局,而是向世界开放资源(24)同上书,第372-373页。。

当然,我们不能过早地欢呼雀跃。可以自动生成活灵活现、惟妙惟肖、充满生机之影像的拥有极高仿真度的数据挖掘,可能一直在路上,不是靠等待就一定能等来的。英国生物学家理查德·道金斯(Richard Dawkins)定义出来的、与已被发现并广泛应用的遗传基因(gene)相对应的、尚未被发现的文化基因(meme,觅母),值得我们去争取将它从全人类保留下来的全部艺术作品和文化遗产中解析出来。正如道金斯所写:“我们是被作为基因机器而被建造的,作为觅母机器而被培养的。但我们具备足够的力量去反对我们的缔造者。”(25)[英]R.道金斯:《自私的基因》,卢允中等译,科学出版社1981年版,第281页。另见《自私的基因》40周年纪念版,卢允中等译,中信出版集团2018年版,第442、447页:奥地利生理学家赫林于1870年首先提出记忆功能是所有生物的基本特征,并用精心选择的一个终于其词源的词汇“觅聂米”(mneme)来表示它的基本单位。道金斯用了mneme一词的英文缩写meme来表示遗传基因的等价物。

我们应该认识到,无论是生命基因的发现(1953)、对文化基因的猜测(1977)还是电影代码的发现,都是划时代的事件。