□ 文 翟 尤
2 02 3年,科技领域的热点层出不穷,ChatGPT和GPT-4先后引发大众对人工智能的关注和热情,其背后既有大模型奠定的“新型基础设施”,又有新交互入口对大众普及人工智能应用的助推。为此,我们有必要深入分析以GPT-4为代表的大模型以及以ChatGPT为代表的聊天机器人在哪些方面引发了变革,以及在变革中我们应该做好哪些准备。
ChatGPT(Chat Generative Pre-trained Transformer)是OpenAI开发的人工智能聊天机器人程序,高度拟人化的交流方式,让ChatGP T可以生成符合大众习惯的自然回复内容,和传统意义的人机对话系统相比,ChatGPT实现了自然语言为交互方式的通用语言处理平台。除了对话外,ChatGPT还可以进行文学、媒体领域的创作,在某些测试情境下可以在教育、考试等方面表现优于普通人类测试者。因此,有专家称C h atGP T是首款面向消费者的人工智能应用。比尔·盖茨也评价称“ChatGPT这种人工智能技术的出现,其历史意义不亚于互联网和个人计算机的诞生”。2023年3月15日,OpenAI对外发布了GPT-4,并再次引发大家关注。GPT-4是一个大型多模态模型,接受图像和文本输入,并返回文本输出。其定位是一款能够给大部分人在专业领域中提供知识增量的人工智能产品。见表1所示。
表1 GPT系列架构基本情况
总的来说,ChatGPT有以下优势:一是交互简单。ChatGPT交互界面极其简单,用户打开界面输入问题就可以很快得到答案。这一策略对于C h atGP T出圈有较大帮助。二是有话题性。ChatGPT拟人化的交互方式,很有话题性。同时在埃隆·马斯克、比尔·盖茨的助推下很快成为媒体焦点,再通过社交媒体的传播,成为了全球热议话题。对智能的理解:大众对智能的理解,其核心定义是要“像一个人”,类似我们说家养的宠物容易“通人性”一般。推出策略:据报道,Open AI在2022年年中的时候,就向微软的高层演示了ChatGPT,2022年下半年GPT-4就已经完成开发。很显然这样的决定并非临时起意:既要有对技术的积累,又要对现有产品实现无缝对接,因此有理由相信OpenAI在推出ChatGPT和GPT-4的时间是经过多轮评估之后做出的系列动作。
ChatGPT从2022年11月诞生,一直受到关注持续至今。一方面是生成式人工智能技术积累和效益已经到达临界点,另一方面也得益于数字经济时代海量数据需求的推动。从ChatGPT这里,我们已经可以看到新的人工智能技术展现出“模块化”的趋势,过去需要单独开发的工作变成了开放、可复用、可调用的组件。这是之前谷歌AlphaGo等技术所达不到的,其泛化能力仅仅局限在围棋游戏上,ChatGPT利用大模型的有力支撑,可以为不同场景和垂直应用进行赋能。
从GPT-3到ChatGPT,再到GPT-4,我们可以看到OpenAI将大模型作为通用人工智能发展的必由之路。相当于通过从海量数据中学习各种知识,打造一个与具体任务无关的超大语言模型,从而再根据不同的应用场景和需求,来生成不同的模型应用解决各种各样的实际问题。如果把ChatGPT比喻成一棵树,那么大模型为代表的基础模型就相当于“树根“,而树之所以能够成活,离不开土壤的滋润,人类上千年积累的知识就是这颗树可以成长的“土壤”。这一过程中,模型能力的“泛化”引发关注。
当模型规模较小的时候,模型的性能提升和参数增长呈现出的是线性关系。但是随着GPT-3这种千亿规模参数的模型出现之后,模型的能力出现质的飞跃,任务性能有了明显的提升,这种能力也被称为涌现能力。2022年一篇名为“Emergent Abilities of Large Language Models”的文章中,对涌现给出了这样的定义:如果一种能力在较小的模型中不存在,但是在较大模型中存在,那么这种能力就是涌现的。这也解释了为何ChatGPT有着相当于真人一样的理解能力,大模型为整个对话机器人提供了较好的鲁棒性。即建立起真实用户调用和模型迭代之间的飞轮,实现对真实世界数据的调用和数据对模型的迭代,同时也帮助更多创业公司找到商业模式和生存空间,建立生态。但需要指出的是,这种能力涌现并非线性发展或者可预测的,仅在工程上得到证实,理论上仍难以得到有效的解释和论证。
总体来看,ChatGPT基本实现了大语言模型的接口层,让用户可以用更加习惯的方式进行表达并获得回复,这增加了大语言模型的易用性和用户体验。意味着人工智能应用从过去以小模型训练为主的“手工作坊模式”,向通用大模型预训练为主的“工业化时代”转变。未来竞争的焦点将聚焦在ChatGPT能够解决客户和行业真实的需求和痛点,让以ChatGPT为代表的AIGC工具成为类似电力、能源以上的经济社会生产原材料。当然,在这个过程中,业界还需要在成本、场景等方面进行持续的探索。
在能力表现上,ChatGPT具有主动承认错误、质疑不正确问题、承认自己无知、支持多轮对话能等功能。尤其是ChatGPT在对话过程中会记忆使用者之前的对话信息,从而具有理解上下文的能力,极大地提升了对话交互的用户良好体验。
ChatGPT之所以让我们对其生成的内容感到震惊,是因为底层的模型学习的海量数据,是人类社会积累的知识结晶。学习统计规律需要通过大量的数据和巧妙的模型设计来实现,为了能够达到这一目的,研究人员采集了海量的数据,这些被ChatGPT进行训练的数据基本蕴含了人类社会的所有知识体系。当我们用AIGC进行绘画的时候,我们获得的图片基本符合人类所有艺术作品的统计规律。当我们用人工智能生成一段音乐的时候,我们听到的旋律也基本符合全世界音乐的统计规律。
因此,我们在和生成式人工智能进行互动后,面对的不是有“认知”的机器,而是面对着全人类数据统计规律的近似载体。尤其是ChatGPT获得了全球海量的数据资源,知识量远远高出单个用户掌握的知识量,因此我们感觉到在能力上被“碾压”也在情理之中。ChatGPT的学习方式仅仅是掌握了语言中的统计规律,而不是语言规则,更不是逻辑推理,对世界本身的运作形式也没有跟人一样的直觉理解,距离类人智能还有很远的一段发展距离。
ChatGPT的出现让人们意识到,通用人工智能的发展有很多优势,那就是可以用一个统一的大模型来试图解决所有问题。这也是ChatGPT超出大家预期的地方,即人工智能涌现了一些类似人脑独特的能力,甚至包括逻辑判断等,这突破了之前的机器学习领域。
具体来看,一方面情景学习(In-context learning)。 ChatGPT具有较强的情景学习能力,尤其是一些之前没有见过的任务或者问题,只需要给出几个任务实例作为模型输入,就可以让模型从给定的情境中学习新任务并给出满意的回答结果。期间模型不需要变化,更不需要对模型进行重新训练。另一方面思维链(Chain-of-Thought,CoT)。对于逻辑性比较复杂的问题,大模型的答复有时候并不准确。为此可以对问题进行拆解,给到大模型有逻辑的解题步骤示例后,从而激发大模型的推理能力,获得正确的结果。尤其是对大模型的训练数据中存在大量代码数据的时候,由于代码有较强的逻辑性,因此把问题中文本内容替换为编程语言可以进一步提升模型的思维链能力。思维链技术能够激发大模型对复杂问题的解决能力,这也被认为是大模型能力涌现的关键。
科技进步的标志之一就是交互方式的进步,新一代技术能否流行普及,核心也是看是否产生了新的交互方式,否则只能受困在小众市场。这也是为何ChatGPT没有技术从0到1的理论突破,但是依然具备大众市场规模化商业价值转化的核心价值。
长久以来,研究人员一直尝试在软件的使用过程中,更加贴近人类的自然语言。过去需要输入一堆命令,机器才能完成一项工作,为此我们需要去学习机器语言,但是ChatGPT让我们可以通过自然语言来获得想要的结果。同时,大语言模型的答案更接近人的内容反馈,不但语言的组织能力更强,甚至可以像人一样使用“直觉思考”,很多答案并不是现有信息的汇总整合,还包括了预测和推理。这就可以让人们用日常生活中使用的语言和计算机直接进行互动。也就是说,用户直接用自然语言来提出自己的需求,然后机器把用户的语言转化成机器可以识别的语言进行分析处理,之后再把结果转化为用户可以使用的语言。比如,你想知道公司这个月成本支出情况以及那个部门利润最高,作为CEO你可以直接开口问人工智能,马上就可以得到结果。但在传统模式下,企业管理者需要找财务负责人和业务负责人来反馈结果。因此,我们需要用新的方式来解决原有的场景难题。
通过回顾历史我们会发现,交互方式深刻改变着我们对科技的理解和互动。互联网时代,我们和机器交互的主要方式是通过电脑显示器、鼠标和键盘,这一时期服务的形式主要是软件或者是网页浏览器,人工智能在互联网时代还处于早期发展阶段。移动互联网时代,交互特点出现改变,智能手机的出现让小屏幕、多点触控成为标配,但是通过键盘输入仍然被保留下来。服务形式方面则主要是通过App来实现,这一阶段人工智能技术通过单点突破进入我们的生活,比如人脸识别、智能推送等等。智能互联网时代,通过语言、表情、视觉和手势动作等自然交互方式,将成为这一时期的主要交互特点。服务形式将不再仅仅是软件或者App,将涌现出更多人格化的服务。类似ChatGPT这种人格化的交流将更加普遍。我们感知信息的方式也将更加虚实融合、沉浸式的进行。人格化的人工智能技术将成为我们的必需品。见表2所示。
未来,人工智能将带来更多微创新,让某些场景从原来的想象、愿景变成现实。可以说,人工智能能力的提升可能会重构我们日常生活。未来,抢走你工作的不是人工智能,而是其他掌握人工智能工具的人。
当然,C h atGP T不会替代人类,但是会有效提高我们的工作效率。类似《流浪地球》的MOOS,或者《钢铁侠》里的人工智能助手贾维斯,使用者告诉人工智能助手要做什么,人工智能助手会先做出一个原型,然后在一次次的交互中,告诉人工智能助手如何修改和完善。
OpenAI打造的“技术信仰与长期主义+风险投资创新+小公司创新与大公司商业化闭环”,让更多人在惊叹其技术领先性的同时,也意识到创新机制、生态、文化需要借鉴和学习的地方还有很多。
在组织机制方面。ChatGPT基于InstructGPT模型,从最初的一篇论文出发,即使在与BERT模型路线竞争中处于劣势,但也没有被放弃,最终结合人工反馈增强学习实现了重大突破。足见其技术路线交替竞争是业内常态,如何保持创新精神和长期主义,在创新性、投入、决心、人才储备上一如既往的坚持将成为占据竞争优势的关键。
在人才密度方面。根据《ChatGPT团队背景研究报告》的数据显示:Open AI中,参与ChatGPT项目中,作出贡献的人员有87人。也就是说这个不足百人的团队,作出了令全球关注的明星产品。从ChatGPT团队分工来看,87人中研发人员为77位,占比88%;产品人员4位,占比5%。在年龄分布上看,20-29岁共28位,占比34%;30-39岁成为50位,占比61%;3位在40-49岁,60岁以上的为1名。平均年龄为32岁。本科、研究生、博士的占比分别为33%、30%、37%。可以看出,OpenAI小而美的团队不但高端人才密集,而且能力不输其他大型科技工作,反而达到了惊艳的表现。
在基础学科方面。从根本上来看,如果把人工智能对话系统的回复答案看做是A,已知的问题和信息看做是B,那么ChatGPT可以通过贝叶斯定理计算出P(A|B),从而确定回答的概率,这是ChatGPT最核心的本质。从中我们也可以看出,ChatGP T底层的大模型,依托的也是数学家在指引我们前进。
人工智能正在以前所未有的创新速度让原本分散的各领域自然语言处理算法“飞入寻常百姓家”,影响到人类的未来发展。可以说,人工智能已经不是现实世界的简单复刻,而是人类想象力的延伸。未来,人工智能将是一种基础能力,人们有必要考虑如何更好的利用人工智能来提升自己的综合能力。