AIGC 技术在影视制作中的应用探索和趋势前瞻

2024-01-05 06:47巴晓

现代电影技术 2023年12期

巴晓

1 引言

在影视制作领域，人工智能图像合成技术应用前景广阔。人工智能生成内容（AIGC）技术通过深度学习算法和大量图像数据的训练，能够自动生成逼真的图像，并将它们融合到影视制作过程中。这种技术的出现，极大地提高了影视制作的效率和质量，同时也拓宽了影视制作的创作空间。传统影视制作的影像合成需要耗费大量人力和时间，而且实现效果往往不能令人满意。而AIGC 技术的应用，则能够快速生成高质量的影像，大大节省制作成本和时间。此外，AIGC 技术还能够实现一些传统合成技术无法做到的效果，比如实时场景预览、特效实时生成等。AIGC 技术在影视制作中的应用正在为行业带来颠覆性的技术革命，成为影视制作行业的一股新力量。

2 AIGC 技术的基本概念

2.1 AIGC 技术的定义

AIGC 技术是一种通过模拟人类思维和感知能力，生成逼真图像和动画的技术。它通过深度学习（Deep Learning）和神经网络（Neural Network）等技术，可以自动分析大量的数据和图像，并根据学习到的模式和规律生成高质量影像[1]。AIGC 的出现离不开其底层技术发展，AI 技术与虚拟现实（VR）和大数据的不断融合，包括生成算法、AI 大模型和多模态（Multi Modal）等方面，为AIGC 的发展创造了有利条件。首先，生成算法模型如扩散模型（Diffusion Models）、生成式对抗网络（Generative Adversarial Network，GAN）和神经辐射场（Neural Radiance Fields，NeRF）在性能和稳定性方面取得了突破，大大提升了AI 生成内容的质量和种类的多样性。其次，多模态技术使得不同类型的数据能够相互转化和生成，例如从文本到图像、从静态图片到3D 动态场景以及3D 内容的创作等应用不断涌现，进一步丰富了AIGC内容的多样性。最重要的是，拥有庞大参数量（目前已达千亿）的预训练模型（Pre-trained Model）具有更强的通用性，同一个模型可以完成多种内容生产和交互任务，而无需为每个具体任务设置单独的训练模型，这促成了AIGC 技术能力质的飞跃。

2.2 AIGC 技术生成内容的处理模态

根据目前AIGC 的应用场景，AIGC 技术主要分为文本类、音频类、图像视频类和虚拟空间类等。文本类技术用于生成或编辑文章内容，包括文章生成、文本风格转换、问答对话等应用，如写稿机器人和聊天机器人。音频类技术用于生成或编辑语音内容，包括文本转音频、语音转换、语音属性编辑等，非语音内容的应用包括音乐合成、场景声编辑等，典型应用有智能配音主播、虚拟歌手演唱、自动配乐和歌曲生成。图像视频类技术用于生成或编辑图像和视频内容，包括人脸生成、人脸替换、人物属性编辑、人脸操控和姿态操控等。这种生成或者编辑图像视频内容的技术与图像生成、图像增强、图像修复等技术息息相关。典型应用包括美颜换脸、捏脸、复刻或者是修改图像风格以及AI绘画等。虚拟空间类技术主要包括了三维重建和数字仿真，可用于生成或编辑数字人物和虚拟场景。典型的应用场景包括元宇宙、数字孪生、渲染引擎、3D 建模和VR 等。

2.3 AIGC 技术的发展演进

根据2022 年4 月中国信息通信研究院发布的《人工智能白皮书（2022 年）》[2]，结合人工智能的演进历程，AIGC 技术的发展演进可以概括为三个阶段：早期萌芽阶段（20 世纪50 年代至90 年代中期）、沉淀积累阶段（20 世纪90 年代中期至21 世纪10 年代中期）以及快速发展阶段（21世纪10年代中期至今）。

（1）早期萌芽阶段。由于受限于当时的科技水平，AIGC 仅限于实验尝试。标志性事件是1957 年Iejaren Ftiller 和Ieonard Isaacson 通过将计算机程序中的控制变量改为音符，完成了历史上第一支由计算机创作的音乐作品弦乐四重奏《伊利亚克组曲》。由于高昂的系统成本无法带来可观的商业利润，各国政府开始减少在人工智能领域的投入，AIGC 在这段时间没有取得重大突破。

（2）沉淀积累阶段。在这个阶段，AIGC 逐渐从实验性转向实用性。2006 年，深度学习算法取得了重大突破，同时期通用图形处理器（Graphics Processing Unit，GPU）、中央处理器（CPU）和张量处理器（Tensor Processing Unit，TPU）等计算设备的性能不断提高，为人工智能算法提供了大量的训练数据，推动了人工智能的快速发展。但AIGC 受限于算法瓶颈，无法很好地完成创作任务，应用范围仍然有限，效果也有待提升。

（3）快速发展阶段。从2014 年起，随着深度学习算法中以GAN 为代表的算法的推出和不断改进，AIGC 进入了新时代（图1）。生成内容变得丰富多样，效果逐渐逼真，甚至超越了人类的分辨能力。AIGC 的爆发发生在2022 年，主要归因于深度学习模型领域的技术创新，包括生成算法、预训练模型、多模态技术的融合，这些创新推动了AIGC 技术的变革。AIGC 模型具有通用性、基础性、多模态、参数多、训练数据量大以及生成内容高质稳定等特征，使其成为自动化内容生产的“工厂”和“流水线”。

图1 2014年至2022年AIGC 的技术发展路径和实现效果

3 AIGC 技术对影视制作的重塑

3.1 AIGC 技术赋能下的内容生产方式重构

从技术迭代的角度来看，内容生产方式从专业生成内容（Professional Generated Content，PGC）到用户生成内容（User Generated Content，UGC），再到AIGC。当PGC 和UGC 的生产潜力逐渐消耗，AIGC将弥补数字世界内容消耗与供给的缺口（图2）。目前AI 以辅助创作为主,伴随数据、算法、算力等要素持续迭代。AIGC 具有之前内容生产方式所不具备的自动化、大批量和高效率的特点。这是因为AIGC采用了多模态加工技术，使得人工智能可以在不同类型的内容模态之间进行转换、映射和生成。此外，自从谷歌在2017 年发布了Transformer 技术后，大语言模型（LLM）作为特征提取器逐渐不再依赖于人工调参。AIGC 采用的“大数据预训练+小数据微调”方式进一步加快了内容生成的自动化进程。在人工智能介入内容经济之前，内容的生产主体一直是人类，其产能受到限制。而当AI成为内容产业模式中的一个关键参数时，首先改变的是生产力的层面。人工智能的一大应用领域是创作广泛的内容，不仅包括图像、视频、音频、文本、合成数据，甚至还可以涉及虚拟环境创建。生成式人工智能将广泛应用于艺术、设计、软件开发、游戏、娱乐和人际沟通等领域，并可用于科学研究，例如生成新分子用于药物发现或模拟复杂的物理过程。根据麦肯锡人工智能团队QuantumBlack 2022 年7 月发布的《探索人工智能新前沿：中国经济再迎6000 亿美元机遇》研究报告，到2030 年，生成式人工智能在文本、代码、图像和视频等方面的产出将成倍增加，超越人类工作者的生产能力。使用生成式人工智能为从事内容创作的组织和专业人士打开了全新的机会。以自动化的内容生成为例，大语言模型和图像模型可用于生成各种内容，这对于需要定期创作内容的组织和专业人士来说是一个非常宝贵的节省时间工具。与此同时，人工智能模型通过人类无法察觉的模式学习海量数据，提高内容的质量和准确度。并且，人工智能模型还可以生成各种类型的内容，包括文本、图像和视频，创造出更多样化和吸引人的内容，吸引更多人关注。

图2 从PGC 到UGC 再到AIGC 的发展路径①

3.2 AIGC 技术赋能下人机关系的转变

（1）从人机交互到人机协作的模式转变。作为参与交互的两个主体，人和计算机都是信息处理系统。人类通过感知、认知和行为反应来进行信息处理，计算机则通过软件、硬件、输入输出设备和相应的反应程序来进行信息处理。人机交互的过程就是信息在人和计算机之间传输和转换的过程。同样的道理，人与技术增强的空间之间也存在一种信息传递的过程。类似于人机交互的原理，技术增强的场景空间就像一个大型机器，在人机交互过程中扮演着计算机的角色。通过技术在空间中的集成和安置，创造智能化的空间，而人与场景空间“交换信息”的过程中，可以获得多维度的感官、行为和心理体验（图3）。随着迭代更新的软硬件技术对人的视听觉、身体感觉及行为反应的不断探索和链接，虚拟空间在现实世界中的介入方式和呈现效果也不断升级，实现了从有限的屏幕展示到沉浸式、交互式的高级进阶，让人与计算机实时沟通、对话。这种平行艺术为创作过程建立了一个平行的系统，并将人引入了机器学习的循环之中。在艺术创作的过程中，机器创造性技能的学习受到人类不断地指导。虚拟人工系统充当了技能学习的实验场，拓展了数据和动作的探索范围，从而提升了机器学习的效率。通过对人工虚拟系统和真实系统进行迭代优化，进一步推动了平行艺术的发展。在此过程中，机器通过人类的指导和评价不断学习创作，而人类则借助机器的协助不断扩展创意的边界[3]。随着时间的推移，机器和人在艺术创作中以一种平行的方式合作，也就是我们所说的人机协作（图4）。

图3 人机交互模型②

图4 图片生成的人机协作模型

（2）从工具体到意识体的角色转变。人工智能的本质是技术性和工具性，依赖于信息技术的模块化装置。然而，当人们将其应用于人类社会时，不可避免地赋予了其社会意义，并使其成为社会互动的一部分。人机关系理论中的“计算机作为社会行动者”范式（CASA）已经被证明，当机器能够提供足够的“社会线索”或“拟人化线索”时，人们会自然地将机器视为社会行动者对待。随着人工智能的类人性逐渐显现，大语言模型的沟通方式开始体现出从工具使用到社交属性的转变。人工智能的发展旨在满足人类需求，并增强智能产品的可用性，使其在互动过程中更加自然。为了实现这一目标，研究人员对人工智能进行了人性化的设置和改造，使其能够适应和模拟人类行为。ChatGPT 通过多维展现人际交流的线索，为用户营造了高度逼真、沉浸式的交流体验。其界面类似于聊天室，通过模拟光标打字的方式，让用户参与其中并感受到文本生成和写作的现场感。在内容上，ChatGPT 不仅能够以自然语言与用户交流，还能够生成与真人在内容、结构、语法、逻辑等方面相似的文本，同时掌握人类社会规范和常识，为与人类进行较流畅的沟通打下基础。在现实世界中，人们的行为与社会结构之间存在复杂的关联，因此日常沟通中的语言表意往往不完全，理解对话内容需要基于实际说出的内容以及许多未明示的假设和共享知识。而ChatGPT 作为一个大语言模型，通过训练从大量人类生成的文本中学习并内化了广泛的人类知识、价值观和语言模式，能够理解人类意图并模拟出与人类的共识。

3.3 AIGC 技术赋能下内容生态的全新融合

（1）现实与虚拟的融合。在深度学习技术支持下，AIGC 持续优化和迭代升级。信息技术发展推动影视创作空间屏障消弭，不可逆转地重塑了影视内容生产。互联网的普及使得普通人也具备创作视频的能力，不再只有影视机构才能参与影视创作，内容生态呈现出多样化特征。移动通信技术使得原本只存在于固定空间的视频编辑室变得流动起来，影视制作流程重新组合，视频生产空间无处不在。智能信息技术不断突破人类活动空间的限制，带来了数字电影、AR 电影、游戏电影等新形态的影视类型涌现，视频生产的速度、数量和精准程度大幅提升，现实世界和虚拟空间从并置逐渐融合，“在虚拟与现实的中间地带，是更为宽阔的虚拟现实空间，既立足现实又有虚拟成分”[4]。例如在创作《银翼杀手2049》垃圾场片段的群组动画时，伦敦的团队拍摄了动态场景，并在虚幻引擎（UE）中实时渲染数据。蒙特利尔的视觉效果团队可以通过观看现场情况，对最终的拍摄有清晰的认识，无需亲自前往伦敦。而在电影《克里斯托弗·罗宾》中，Graham 的团队需要一些CG相机来与已拍摄的场景相匹配。借助虚幻引擎对Alembic 文件的支持，Graham 将来自电影流程中的动画引入，使摄影导演和动画总监能够在动画上进行实际拍摄，以便与实际场景相匹配。

（2）技术与场景的融合。场景驱动技术，技术提升生产力。计算机的发展和互联网时代的到来使得场景这个概念更加具体和形象。在罗伯特·斯考伯和谢尔·伊斯雷尔的观点中[5]，新技术的推动带来了场景的概念，这是基于移动设备、社交媒体、大数据、传感器和定位系统等互联网技术构建的一种身临其境的体验感。AIGC 技术赋予了场景传播以时空融合和互动性。由于交互使用过程中涉及到用户所在的具体环境，互联网行业逐渐发展了“场景化思维”，这种思维通过技术与场景的融合将互联网的虚拟世界与现实生活融为一体。例如用三维扫描技术捕捉人体动作,让演员的表演和个人风格被录制并储存为三维模型,可以被电影公司永久重用。另外，利用AIGC 技术还能够捕捉包括人体动作在内的动态三维图像，可以辅助甚至取代传统的动作捕捉,用于电影电视节目的制作，将来可能被应用于数字替身等领域，减少对真人演员的依赖。

4 AIGC 技术在影视制作中的应用探索与趋势前瞻

4.1 应用场景的容器建构

在文化科技融合的过程中，不同的内容“容器”正在发生改变。新技术不仅支持容器的生产，而且开始介入容器装载内容的创作和生产，使容器变得更加智能和活跃。

（1）文字容器，由AIGC 工具自主性填充内容。人类则成为填充内容的事前训练师和事后优化师。小说作者可以利用自己的作品来训练和调试Chat-GPT 模型，然后再向它提供新的故事概要和角色设定等信息，AIGC 工具就可以补充详细的细节描述。AIGC 目前已经应用于资料搜索、情节分析、设定搭建、激发创作和协助创作等方面，用来提高写作效率。

（2）图像容器，由人和AIGC 工具协作填充内容。通过文生图、图生图工具，用自然语言描述图像的想法，并提供必要的提示（Prompt），生成全新的图像。另外还可以通过指挥工具来分解“创作”的动作，重新组合点、线、面、色彩、光这些表现元素，有效降低创作门槛、提高生产效率和创新能力。

（3）音频容器，通过AIGC 技术进一步丰富语音的种类、风格和应用。语音合成技术可以生成逼真的语音，创造出新的音频容器，应用到虚拟助手、语音翻译、虚拟教师等各种场景之中。此外，基于广泛采集的数据和大模型的交互性，例如腾讯音乐的“智能曲谱”，音乐家们可以低成本完成创意风暴和灵感试验，进一步探索多元化的音乐风格。

（4）视频容器，利用AIGC 技术实现一站式、整合式视频生成。容器即工具，融合多个生产环节并升级生产模式。AI 技术的运用使得素材搜集、视频剪辑、后期包装、渲染导出和发布等环节可以在一个容器中完成，加上AIGC 等数字交互引擎技术，视频制作过程可以实现虚拟制作，这将升级传统的蓝幕/绿幕拍摄模式，实现“所拍即所得”全新模式。

4.2 线性到非线性的流程重构

在AIGC 技术加持下，影视行业的“内容创作、内容生产、内容传播、内容消费”产业链实现由线性到非线性的流程重构。

（1）在内容创作方面，创作方式实现智能化升级。从“人工创作”进化到“人+机器”协作模式。利用AIGC 工具增强信息采集能力，实现快速高效的数据遍历。根据提示词抓取海量数据，并完成自动分析处理。基于“容器即工具”的升级，各类容器进化，减少“可重复、可预期创作”投入，在原始创意提出、可视化创意筛选方面发挥着重要作用。

（2）在内容生产方面，人机互动与协同双模式产出。通过使用AIGC 等技术生产工具，可以实现内容生产的标准化和智能化。这些工具支持原创作者、设计师和编辑等人员的协同生产，同时也可以提供更多的实时互动机会，供作者、编辑和读者参与，从而实现内容供应的实时更新，进一步促进互动式的生产模式发展。AIGC 技术提升了内容生产的标准和规范，让内容生产进入更注重质量标准和流程规范的新工业化阶段。

（3）在内容传播方面，实现生产和消费的实时互动。通过交互式引用准确溯源，来提高内容输出的质量。在AIGC 技术支持下，用户可以与智能对话机器人实时互动，对某一特定的新闻报道进行提问并得到相应的回答，从而呈现出一个精准且符合用户需求的完整新闻图景，实现内容生产和内容消费的实时互动。

（4）在内容消费方面，利用内容嵌入构造智能匹配的个性化消费模式。通过AIGC 与智能终端的“软硬一体化”技术以及数字人和VR/AR 等内容展示和表演技术的叠加，可以提供形态多样且沉浸式的内容产品和交互式的内容服务。在专业场景中嵌入知识，在社交场景中嵌入资讯，在娱乐场景中嵌入故事，帮助智能客服、智能推荐和智能教育培训升级，达到供需双方数据标引，实现智能匹配，创新个性化的消费模式。

4.3 可持续创新内容价值的实现

影视传媒行业是内容创意产业，是创意、生产、传播的协同产业，但其本质上仍是文化产业，文化属性仍然是影视传媒行业的本质属性。新技术应用作为一种生产力工具，一方面，以高科技手段提高生产效率；另一方面，以技术手段介入文化领域，影响内容创作。因此，新技术应用我们既要看到新技术带来的新机遇，也要认识到新技术应用所带来的消极影响。

（1）从行业本质出发，充分发挥内容优势，以元数据标引促进内容数据的可复用。新技术应用不当，会产生一系列消极影响，如文化污染、文化同化、文化枯萎、就业冲击、虚假欺诈、版权失序等。要想解决这些问题，迫切需要重新审视影视行业的初衷，回归到问题的本质。元数据是影视行业的关键数据和核心资源。一方面，元数据的结构化和可标注性促进了智能化的重用和价值挖掘；另一方面，人工智能生成的内容可能会产生虚假信息。解决这个问题的关键在于通过标注来实现可追溯性，并提高内容的准确性。传统的文献索引是各个领域知识传承和创新的基础。影视行业应该建立内容元数据的标准，通过规范化的标注来提升核心资源的管理水平，才能够在变革中前行，并实现可持续发展。

（2）回溯影视行业的根本目标，实现内容优势和科技优势联合创新。沿着信息生命周期提供各类信息，满足各类信息需求是影视行业的根本目标。信息需求包括生产、生存、生活，与之对应的是信息分类，包括知识、资讯、故事。知识是信息的高级形态，也是影视行业基因的密码。互联网是技术和内容的融合，信息技术是实现连接可能的基础，信息内容是实现交流的连接点。影视行业应当拥抱新一代信息技术，通过促进人与物、物与物、人与人的广泛联结，实现内容优势和科技优势联合创新。

（3）顺应文化与科技双向驱动关系，实现覆盖交互前后端的体系化关联。文化科技处于影视行业与前沿信息技术领域的交叉地带，是文化科技融合过程中诞生的系列技术成果。影视行业与信息技术是“双向驱动”：前沿科技为影视行业数字化提供技术基础，影视行业不断驱动前沿科技研发创新。在此基础上，利用标引提高后端资源管理的体系化，重组前端用户界面的碎片化，实现后端内容资源和前端用户需求的结构化，加强知识关联管理、需求关联管理，提高供需“匹配与调度”的关联管理能力，推动大语言模型（LLM）成为AI 横向应用的通用能力，建设领域内大知识模型（LKM），助力AI 进入垂直行业领域的纵向应用，实现服务模型（MAAS）。

5 未来展望

随着人工智能技术在传媒行业的广泛应用，人工智能生成内容已经深入融入新媒体内容体系。在内容创作方面，ChatGPT 采用对话方式来提升内容的创造。在内容展示方面，数字交互引擎以沉浸的方式促进内容的生产。在内容传播方面，Web3 通过共识机制来实现内容的交易升级。在内容互动方面，AR/VR 技术的体验性为内容消费提供了升级。人工智能生成艺术正在引发一场变革，如同19 世纪摄影技术出现一样，摄影技术的进步改变了艺术家对图像的看法，引发了印象派、野兽派、立体派和超现实派等艺术流派的兴起，使绘画脱离了对现实的再现，变成了艺术家个人印象的表达。现如今，摄影技术作为一种艺术语言，已成为艺术家必不可少的工具之一。作为智能时代的艺术家，我们需要了解和掌握人工智能的艺术语言，将人工智能作为展现创意和表达情感的媒介、工具和平台，最大程度地发挥人类与人工智能的智慧。人工智能生成艺术的未来，已经到来。

注释

①图片来源：https://mp.weixin.qq.com/s/Q4vnt-kUfB3UGhsiwdLpfA。

②图片来源：https://mp.weixin.qq.com/s/r53bTGsb54BjpExKQZwg1w。