基于人机关系的电视媒介再观察与视听内容重构*

2023-01-23 12:54曾爱伊

中国出版 2022年24期

□文│陶冶曾爱伊

近10年来“电视死亡论”的论调甚嚣尘上，而媒介环境学派长期对所谓“死亡”嗤之以鼻，在他们看来任何媒介的出现、演化乃至我们今天说的媒介融合，其根本上都无法脱离媒介技术的发展。换言之，电视的“死亡”是一个动态平衡的概念，一如物种在进化过程中呈现出的不同样貌，在长期的时间维度上任何物种其实都是演化过程里的一种中间形态。后世物种必是前世物种的基因经过多重迭代与沉淀后的产物，而媒介的演化亦如是，今天的电视沉淀了文字、电报、广播、电影等多种媒介的基因，而很多年以后的电视必然是我们今天无法想象的形态。因此问题的关键在于，电视媒介未来究竟会向何方发展？

媒介进化论的代表人物保罗·莱文森（Paul Levinson）认为影响媒介进化的根本原因是“人性化趋势”（Anthropotropic），即媒介的演进方向是越来越趋向于人本应处于的“自然故乡”状态，并且其坚定地认为“人是积极驾御媒介的主人，不是在媒介中被发送出来，而是发号施令，创造媒介的内容”。[1]同时，笔者曾经翻译了美国著名电视研究学者阿曼达·D·洛茨的名著《电视即将被革命》（Television Will Be Revolutionized），其于2007年便创造性地提出了美国即将进入“后电视网时代”的预言，而其后电视媒介演化的轨迹，也不断印证着她当初的设想。至于其将美国电视分为“电视网时代”“多频道切换期”和“后电视网时代”，[2]显然是一种站在观众（用户）角度进行人机关系的断代，其依据是观众内容获取（Content Accessibility）的便利程度，以及内容选择的丰富程度。显然，这种断代依据与莱文森“人性化趋势”在精神上是一致的，本质上都是人与媒介技术之间的关系演化。只是莱文森侧重于媒介供给端的创造，而洛茨则更关心观众作为需求端的获取，但毫无疑问，人的主观能动性是媒介演化的根本动力，而其无论在需求端还是供给端也都会能动地影响媒介技术的变革。

“后电视网时代”的概念被引入国内后，引起了较大反响，虽然我国没有对应的电视网体系，但用户“无论何时何地，都能通过不同的屏幕观看自己想要的内容”却是不争的事实。[3]因而国内不少学者基于此提出了“后电视”[4]或“后电视时代”[5]等概念来表述当前的中国电视的历史阶段。结合我国实际，进入“后电视时代”的中国，内容层面的“媒介融合”已然成为全行业乃至全社会的共识。显然，这一概念不仅符合电视媒介演进的方向，也成为了从中央到地方电视媒体机构改革的方向。但是，基于当前媒介融合战略下发生的电视媒介演化趋势，是应该最大化地保有各自媒介形态固有特征，而仅在内容生产上进行整合呢？还是应该最大化地消弭媒介间性，连电视这个媒介形式都被融合掉，从而产生一个全新的媒介形态呢？我们或许可以从人与电视（技术）的关系中寻找端倪。

一、一度重构：人对固有时空关系的挣脱

马歇尔·麦克卢汉 ( Marshall McLuhan) 于 20世纪60年代在其巨著《理解媒介》中提出“媒介是人的延伸”的观点，[6]至今依然振聋发聩。莱文森继承并发扬了其观点，并认为“人类扮演的双重角色——既是外部环境又是技术的传播代理——主要是因为人类不仅是技术的发明创造者（属于技术传播代理），也是技术的使用消费者（属于外部环境）”。[7]那么就电视而言，人类的使用场景构成了电视这种媒介演化的外部环境。当电视成为大众消费品普及至千家万户之后，其作为一种“媒介稳态”被限定为固定场所（一般为客厅）和线型播出（固定时间），由此诸如“文化壁炉”“家庭仪式”等传统电视理论应运而生。但毫无疑问，从媒介进化论的角度来看，这种“媒介稳态”一定是其演化过程中的某一“中间状态”，其固定场所的观看空间和线型播出的观看时间，就必然会构成其进一步演化“延伸”的方向。而最直观的体现，便是使用终端的在硬件层面的融合。

1.固定场所的空间解耦

随着电视机售价的不断降低，以及人们居住条件的改善，使得电视媒介的使用场景脱离了客厅这一家庭成员聚合场所。当每个房间都可以安装电视机的时候，观看行为从家庭最大公约数解耦为个体行为。与之伴随的技术变革则是卫星直播加密通讯技术的发展、有线电视频道的扩容，进而带来频道数量的大幅增加。“千台一面”的尴尬局面迫使各个频道进入内容细分领域的“蓝海”，也因此，一家三口人，分居三个房间，观看三个不同节目的场景成为一种新常态，而“壁炉”与“仪式”的聚集效应与家庭共同体意识被迫减弱。但值得注意的是，观看内容在家庭内部的分化，只是让观看场所的数量增加，而并没有动摇电视媒介“固定场所”和“线型播出”的根基。

显然，固定场所观看的制约者是有线电视运营商。与美国私营的康卡斯特（Comcast）或美国电话电报公司（AT&T）等自主实现了“三网融合”的运营商不同，我国由于早期平行推进广电网与电信网的建设，致使今天“三网融合”的矛盾依然尖锐。尤其是有线电视用户，如果他想通过电视机观看网络视频，那将面临着从退出有线电视机顶盒界面，到切换互联网电视盒，再到进入电视端应用等一系列复杂的操作程序。本来就固定的观看场景，配之以复杂的操作，某种程度上加重了观众使用的负担。显然通过有线电视提供海量内容给消费者的初衷，属于莱文森所称“媒介发明者”技术传播代理的演化逻辑，但作为消费者的人类同时具有自反式的选择逻辑。因此，当人们手持遥控器面对如此复杂的操作界面的时候，在固定墙上的电视机与无线网络的移动终端之间，会毫不犹豫地选择后者。

现实的情况也确实如此，就我国而言，随着智能手机和4G网络的普及，至少在全国县级以上城市的范围内，使用智能终端流畅地观看网络视频已然成为事实。并且，随着漫游费的取消，以及流量资费的进一步下降，洛茨在2007年时想象的“电视无处不在”的场景已经基本实现。[8]未来，随着5G网络建设的进一步完善，或者类似“星链”方式的低成本数据链通讯卫星的大规模使用，信号覆盖的死角将会越来越少，数据传输的速度将会越来越快，从而在空间上的制约也会越来越少。

2.线型播出的时间打破

传统电视的线型播出，完全是因为其早期播出技术依赖无线电传播而造成的。因此，世界各地的电视台都不约而同地以小时（整点）为单位编排电视节目，这与广播的节目编排别无二致。由于无线电信号传输的单向性，造成了“直播”成为建构起广播电视作为大众传播媒介的一种本质特征。尽管，后来因录音录像技术的发展使得节目内容不必“现场直播”，但是节目的编播依然是按照24小时的自然时间线型输出的。也因此，在线型播出的节目内容中插播广告，成为建构起电视这一媒介的根本盈利模式，而由此被抽象为“二次销售”的理论，亦成为传媒经济学的核心概念。

基于前述对线型播出“延伸”的逻辑，回溯电视发展的过程，我们不难发现，从需求侧第一次挑战线型播出的技术是遥控器。虽然改变不了电视播出的内容，但至少观众在面对广告时有了选择换台的权力。但只要线型播出与被动观看的时间关系不做出调整，观众只能随着电视机播出的内容共同度过这一段共时性的存在。而真正意义上打破线型播出的是VOD流媒体点播技术的出现，当视频内容通过互联网播出平台呈现在用户面前的时候，用户不但可以进行快进、后退等操作，而且可以在时间轴上任意选择时间点。视频网站为了便于用户精准地选择时间点，甚至提供了每一时刻的预览画面，从而在技术上最大化地支持这种打破线型播出的行为。同时，多倍速播放功能，也使原定的播出时间得以压缩。于是，当一部40集的电视剧在视频网站完整上线的时候，有的用户就可以当天“刷完”这一整部剧，而在线型播出的电视频道上，每天两集的播放速度则必须耗费20天。

也因此，传统电视因线型播出伴随着节目内容而来的广告，也不得不通过点播前强制观看，或者被购买了会员资格的用户无情地跳过。此时，“二次销售”的理论因视频播出平台与用户的直接交易，而被彻底颠覆。当广告商不断调试自己的广告销售模式时，传统电视频道的盈利能力大幅下滑——显然，在今天依然能够接受线型播出的观众，对于广告商而言，商业价值越来越低。

二、二度重构：数据物联带来的时空便利

当今天的人们端着手机或平板电脑观看视频节目的时候，都会对自己的行为脱口而出为“看电视”，换言之，当“看电视”这一行为脱离了前述固定空间与线型时间的背景后，其语言学意义上的能指与所指发生了位移。因此，以电视为中心的媒介融合，恐怕不仅仅是媒介层面的，更可能是社会文化层面的。一如乔姆斯基将其“语法深层结构”理论作用于媒介研究领域，认为前一技术时代的模式可能会遗传与衍生一样，[9]今天平板电脑上看的“电视”，正是电视作为前一技术时代提供的内容产品的当下形态。

1.算法推荐：消解人的选择权

物理层面的媒介融合发生的标志，恰恰是消费者作为媒介使用者在操作行为上的迭代。如果我们将遥控器的发明看作电视观众在操作层面的第一次飞跃的话，那么毫无疑问，基于人工智能的算法推荐无疑是又一次飞跃。视频网站的关键词搜索功能，给用户提供了精准查找内容的服务，但本质上的使用模式与传统用遥控器换台找自己想看的内容一致，都是一种依托用户自主找寻的内容获取模式。然而算法推荐则逆转了平台与用户之间的关系。

目前，人们已经很熟悉视频网站提供给不同用户的首页界面呈现为“千人千面”，这种因人而异的面貌全都有赖于算法的推荐。而视频网络平台的推荐算法，目前总体上是从三种逻辑出发。

第一种是基于内容进行推荐，呈现在用户面前的界面往往是“大家都在看”。这一算法一般推荐给平台的新用户，由于没有用户行为的数据，因而只能依托大众传播（Broadcast）中的“最大公约数”来进行推荐。而当用户有了初步行为之后，算法则继续以内容为关联，推荐同类内容。

第二种是基于个人行为推荐，呈现在用户面前的是“猜你喜欢”。这一算法基于用户不断增加的观看行为数据，推荐与用户历史行为相关的内容。此时的关联与前一种基于已看内容推荐同类内容的逻辑不同，算法会猜测用户是因为偏好这个演员，还是偏好这类题材。

第三种则是基于他人行为推荐，呈现为“看了这个视频的人还在看××”。这一算法基于后台数据积累的其他用户行为，并取其最大公约数从而向用户进行推荐。例如有50%的用户在观看了A剧之后，都会选择观看B剧，尽管二者之间内容、角色等关联都很小，但算法依然会有很大可能性将其推荐给用户。

当然，如何将最合适的内容推荐给用户，成为了各大视频网站的重要课题，奈飞（Netflix）甚至为找到最佳电影推荐的解决方案，而向全社会悬赏100万美元。[10]尽管还有许多更高科技含量的算法，因成本问题短时间内尚未投入应用，但是目前各大视频网站混合了上述三种逻辑的“整合式算法”已然构成了当下的主流，并不断对用户行为进行学习而持续迭代。然而这三种逻辑却有着根本性的缺陷——无论用户个体还是基于大数据的用户群体，其计算的基础全都是过往的历史数据。一旦用户个体对某一类型内容的兴趣边际效应递减，进而随机产生“用户兴趣漂移”，则存有一定的预测难度。因此，这也是当前各大视频网站进一步研究推荐算法的重中之重，而这种技术的突破则真正能够带来“比自己更了解自己”的呈现。

2.数据物联：万物皆可被推荐

寻求技术突破有两个路径：其一是增加算法的计算能力，特别是增加随机性算法的运算量；其二则是引入其他关联数据来对可能的随机性进行计算。尽管两种路径都意味着科研成本、算力等的大幅增加，但具体到我国的现实层面，后者的成本反而更低。

我们会发现，尽管付费用户的数量在逐年增加，但是各大视频网站最重要的利润依然来自于广告。当然，在算法推荐内容的平台上，算法也会基于用户的观看行为数据推荐合适的广告内容，从而实现“流量变现”；同时，植入式广告（Placement）在节目内容中越来越普遍，交互式的人机互动，使用户可以点击节目中植入产品的超链接直接下单。这种颠覆“二次销售”理论的流量变现方式，成为接下来讨论问题的基础。当前，我国以“爱优腾”为代表的视频网站平台，其背后的控股方恰恰是被称为BAT的“百度”“阿里”和“腾讯”。因此，我们基于前述第二种算法方案，引入其他关联数据来假设这样一种人工智能的算法。

作为阿里巴巴旗下视频网站的“优酷”，目前可以通过“淘宝”“支付宝”等平台的账号等进行数据共享，在加上阿里巴巴旗下其他诸如“淘票票”“饿了么”“滴滴打车”“蚂蚁金服”等账号，并对这些关联账号的行为数据进行整合。显然，这样实现的用户画像，远远比前述视频网站的三种逻辑要精准和立体。且不说通过“淘票票”的电影购票记录来推测“优酷”用户的内容偏好这类“基于内容的推荐”，就根据“他人行为逻辑”的推荐就足以通过大数据计算出观看某类内容的人一般会点何种外卖的结果，以至于可以在用户选择某部剧的时候，自动送上“配剧饭”。再加上“淘宝”上的消费数据，“支付宝”上的交易数据，“蚂蚁金服”上的金融数据，足以给正在观剧的用户推荐他们正想要购买且符合其消费习惯的商品。

由于互联网巨头深入我们社会生活的方方面面，使得如上数据的“互导”可以给我们带来“比我自己还了解我自己”或者“想我之所想”的优渥体验，[11]但这种建立在互联网巨头数据霸权基础上的行为还是值得我们警惕。更重要的是，此时因媒介融合而带来的视听内容选择行为，成为了万物互联的“物联网”上的一个数据节点。此时，获取的内容不仅仅是媒介内容，而生活中的一切需求都成为了“内容”被推荐给用户。因而，我们在发现前面讨论电视固定观看与线型播出的时空关系重构，只是电视人机关系演化带来的第一阶段重构。那么基于用户行为数据展开的物联网服务，才是打破了“观看行为”本身时空关系的第二阶段重构。

三、人机一体：算法生产内容与即时满足

电视媒介人机关系演化过程的前两个阶段，一是人从观看内容的固定时空关系中解放出来，二是人让渡自己对内容的选择权利给机器，但内容终究是人生产的。传统意义上电视媒介是专业内容生产（professional generated content，PGC）的代表，而社交媒体则长于用户生产内容（user generated content，UGC），那么将两者结合起来的专业用户生产内容（professional user generated content，PUGC）被视为社交化“媒介融合”的典型代表。然而在前述数据物联的背景下，如上三种内容生产模式所生产的内容将全部构成人工智能对抗性学习的数据，从而提供给人们机器生产的内容（machine generated content，MGC）。那么机器到底能否生产人类需要的内容呢？

1.算法内容：从推荐到生产

当前，由于新闻写作的高度规范性，使得世界各大媒体广泛使用AI机器人进行数据新闻的写作，但在艺术创作领域，人们对机器的“创造力”尚有疑虑。然而，2016年2月法国科学家皮埃尔·巴罗（Pierre Barreau）团队向世人公布了他们研发的机器人Aiva，其学习了莫扎特、巴赫、贝多芬等著名作曲家的1.5万多个曲谱后，自主进行创作，无人能判断出这是非人类所作。[12]文学创作领域也有类似情况，同样在2016年，由人工智能创作的小说《电脑写小说的那一天》，参加了日本“新星一奖”作文比赛，无人发现这是一部机器人写的文学作品；[13]同年，史上首部人工智能编剧的短片《阳春》（Sunspring）摄制完成，虽然其他主创还是人类，但是剧本却100%是由名为本杰明（Benjamin）的机器人创作的。[14]我们可以设想，高度类型化的好莱坞商业剧本一定可以被AI大规模深度学习，进而稳定创作出质量中上的“文化工业品”。

“一切文学皆人学”就此颠覆，然而随着人工智能主播的上线以及AI换脸技术的全面应用，连“人演给人看”也未必能够做到了。基于当前的技术水平，人工智能可以通过算法合成出任何银幕形象，而随着动态捕捉技术应用的规模化，人工智能对于人类姿态、动作的学习与仿真水平也会以几何级数提高，合成的人物形象将越来越趋向于“人”。目前，制约计算机合成影像的根本问题是硬件与人力，但是可以预见的未来，硬件问题随着“摩尔定律”的迭代一定会被解决，而人力问题也一定会随着AI学习能力的不断增强而彻底消解。届时，即时3D渲染和生成场景与形象将彻底实现。由于此时所有的人物、场景、环境、服装以及声音都是AI（人工智能）通过算法合成出来的，加上人工智能对于视听语言的学习，蒙太奇的手段作为一种语法规则被纳入算法，从而服化道、美术、录音、摄影、剪辑甚至包括导演在内所有的人类工作将被一揽子替代。

即便是作为视听内容艺术创作的核心——导演，也可以通过将人类历史上各位“大师”的作品作为大数据来深度学习，从而形成一套“导演算法”，并通过不断出品新内容而得以完善。那么此时，这位“算法导演”——不用优秀，只需要平庸即可——足以稳定生产出供普通用户观看的“文化工业品”。这些产品又会通过前述万物互联的物联网，不断通过算法推荐给用户，并配之以其他同步的消费品，实现“精神食粮”和“物质食粮”的同步供给。而人类则在此时，恐怕还乐而不觉。

2.脑机接口：即时需求满足

从供给侧来看，传统广播电视（Broadcast）的逻辑本质上如美国加州大学圣巴巴拉分校迈克尔·柯廷教授所言，是一个基于“福特主义”原则的“大众生产、大众营销、大众消费”产业模式。[15]如果我们将之类比为服装行业的话，每个人身材各异，但却被批量化的服装规格化为大、中、小号，而至于款式、颜色等而言也是在供给和需求两侧寻求市场最大公约数的过程。同理，传统的电视媒介，其所谓大众传播的属性，根本上也是基于这种内容生产的主导原则。但是，根据前文中的逻辑，随着硬件和算力的突破，个性化的内容生产在未来成为可能。

由于所有的内容生产环节全部由AI和算法生成，那么在不考虑成本的情况下，只要用户提出对视听内容的需求，便一定可以实现。当然，传统电视媒介生产的哪怕最廉价的内容，对单个用户都是不可想象的。但是，随着人力成本在这一过程中的逐步消失，以及电脑硬件与人工智能成本的大幅降低，未来这种个性化内容生产的成本一定会降低到人们可以接受的范围。未来，大规模的仿真3D场景渲染和人物合成等需要巨大算力之处，完全可以通过云计算实现即时生成。相应的内容通过5G（甚至6G）的移动带宽可以实现1秒以内的即时传输，从而在用户面前即时呈现。换言之，此时，从内容生产到内容消费之间的过程不超过5秒，中间的内容分发环节完全被取消。

更进一步，如果脑机接口的性能大幅增加并且成本大幅降低的话，那么内容生产便可以接受用户的即时反馈，而用户则可以随时调整自己对内容的需求，以便算法能够随时调整接下来的节目内容，比如AI通过脑机接口感知到用户对剧中某一人物的不满，便可以安排接下来的剧情走向使此人消失。这些剧情某种程度上还会超越当事人的预期，因为毕竟还有“他人行为”的大数据逻辑作为AI进行剧情创作的参考，从而实现“要什么有什么”的即时满足。在这个需求、生产、消费、反馈、再生产的过程中，全都是以毫秒为单位的，真正实现“瞬息万变”。而所谓的用户需求，除了脑机接口的感知以外，还有用户日常行为的大数据，足以勾勒出这个用户真实的内心形象，以及据此计算出与之相匹配的视听内容，弗洛伊德关于电影是“白日梦”的观点在AI与脑机接口面前成为现实。特别值得注意的是，我们在此讨论的“需求”可能并不止于用户对视听内容的需求，由于脑机接口的存在，使得用户沉浸在剧情中时其他方面的需求也可以被感知，从而通过物联网提供实体性的满足。

四、结语

麦克卢汉晚年认为媒介的迭代需要经过“提升（enhancement）、过时（obsolescence）、再现（retrieval）与逆转（reversal）”四个阶段。[16]当然，这四个阶段是相互交织并螺旋式循环演进的过程，并且长时间伴随着新旧媒体融合的过程。本文对电视媒介演化的逻辑基础是人机关系，但是演化的方向也确实伴随着这四个过程。首先是海量的在线视听内容打破了固定场所与线型播出的时空关系，“提升”了媒介使用者的便利性；在算法推荐内容面前，固有的媒介形态被颠覆，传统电视或者说视听内容的获取方式“过时”；当算法开始生产内容的时候，生产的视听内容被形式上“再现”；而此时麦克卢汉所认为的“新形式被推向潜能（另一个互补的行动）的极限之后，它原有的特征会发生逆转”，[17]此时一种真正意义上的新媒体宣告诞生，即人类在享受人工智能算法投喂的内容甚至物联网提供的即时满足之后，这种内容（需求）的生产与供应方式已经很难再被认为是电视了。

更重要的一点还在于，随着脑机接口嵌入程度的加深，“后人类”时代的这种媒介形式某种程度上解构了“媒介”的意义。基于本文我们不妨设想，当人工智能算法能够为人类即时生产和即时满足对内容和实体需求的时候，实体需求可能进一步虚拟化。由于我们在前文中默认的视听内容呈现方式依然依托屏幕，但随着脑机神经元性能的提升以及嵌入程度的强化，算法即时生成的视听内容直接以脑电波的形式刺激大脑皮层，从而映射于视网膜和耳膜也在理论上完全可能。此时，电视作为一种媒介，其最后的物理坚守——屏幕，也将消失，这恐怕就是麦克卢汉所谓的“逆转”的发生。那么如果再进一步，所谓实体性的满足，是否可以通过脑机接口控制味觉，进而产生相应的感受，再控制脑垂体实现即时的多巴胺、内啡肽、后叶催产素适量分泌呢？

此时，电视媒介演化过程中，人机关系的最后一道防线——人的自主意识也将全面失守，人工智能将通过算法和脑机神经元实现对人类欲望的全面控制，进而控制人类的行为。在我们基于人机关系的逻辑推演中，随着人类对时空便利性的需求、对内容选择便利性的需求、对个性化定制内容需求、对即时实体性欲望的需求依次被满足的时候，这种保罗·莱文森所谓的“人性化趋势”一步一步推动人类不断让渡自己对这一媒介的控制权。此时，电视这种媒介彻底“消亡”，而媒介融合也从今天的内容整合、多元分发，演化为脑机神经元对大脑皮层不同部位发出的电波，人也终于可以回到不用思考的“自然故乡”。麦克卢汉所谓的“逆转”居然在此表现为控制权的逆转，电视从被人类控制的一块屏幕，涅槃为人类欲望与行为的主宰。那么当人工智能控制人类的时候，谁又在控制人工智能呢？