无痛AI记典

2024-01-15 17:14

第一财经 2024年1期

按字面意思，人工智能就是由人制造出来的机器所表现出来的智能，其最终目标是创造与人类差不多甚至高于人类智能的机器。

就像人有名字一样，创造这些人工智能机器（目前主要是软件形式的模型）的公司们也常常会给它们的模型起名字，比如OpenAI的人工智能机器（模型）叫GPT，它的最终产品叫ChatGPT，而Google的模型叫Gemini，最终与人聊天的产品叫Bard……这些不同维度的产物常常会被笼统地、拟人化地叫作一个个AI。

简单说，深度学习就是让计算机通过深度神经网络来学习—哈，这句话中又有两个新概念，神经网络和学习。

理解神经网络相对容易，你把它想象成人脑中的神经网络就可以了，它有很多个节点（就像人脑的神经细胞），节点的层与层之间相互连接（就像大脑神经细胞之间的连接）。所谓“深度”，是指这个网络有很多层。

在人工神经网络中，知识以权重的形式存在。而学习，就是根据训练数据来调整神经网络链接上的权重，最终，神经网络的学习成果就是权重。

这个词是最近两年才被创造出来的，与判定式AI相对，提出者不详。2022年之前，你在市面上见过的AI基本都是判定式的，比如人脸识别的主要工作就是判断镜头前的人是不是你、一封邮件是不是垃圾邮件，即当时AI只能以回答yes or no的方式来工作。

现在，ChatGPT能大段大段地回答问题，“生成”一连串的字，还有些AI可以“生成”一张一张的新图片。与判定式AI相比，生成式AI从无到有地创造了大量新内容。这种AI创造内容的状况被称为AIGC（Artificial Intelligence Generated Content），与用户创造内容（Users Generated Content，UGC）、平台创造内容（Platform Generated Content，PGC）相对—社交媒体是典型的UGC，而机构媒体是典型的PGC。

模型学习、生成、预测的最小数据单位，就像人类语言的最小单位是字母、单词。一个token的长度可能长于一个单词，也可能短于一个单词，整体而言，100个token大约相当于75个英文单词。

看英文翻譯你应该就知道了，大模型的全称是“大语言模型”，所以它原本指的只是语言模型。因为基于Transformer架构构建，随着训练数据增加，基于这种架构的语言模型会越来越大—具体表现就是参数越来越多，像GPT-3的参数量达到1750亿，GPT-4的参数量虽然没有公布，但据说有上万亿之多。而从结果上看，模型越大似乎就越智能。

不过在实际使用中，不少人在提到生成式AI的时候会用“大模型”代替，不管它生成的是图像、视频还是蛋白质结构，这种使用方式起初是种误用，但正逐渐被更多人接受。

历史常常就是这样，很多事物的命名一开始都是有点随意的。如果最初发现Transformer的人是研究视觉而不是研究语言的，那大模型一开始很可能指的就是大视觉模型（Large Vision Models，LVMs），而不是大语言模型了。

作为一种模型架构，Transformer会让模型越训越大，并且模型越大越智能。从功能上看，Transformer能处理一切可以表达为序列的东西，从自然语言到计算机代码、从图像像素到DNA，或者说，它可以生成带有重复图案或模式的所有东西。

在Transformer被发明之前，处理语言的模型、处理图像的模型和处理DNA的模型，会采用迥异的架构（即专用模型），而Transformer出现之后，图像也不过是另一种语言。

2017年12月，Google的人工智能团队Google Brain中的8位工程师共同发表论文提出这一架构，论文名称“Attention Is All You Need”（所有你需要的东西就是注意力）致敬了披头士乐队的《All You Need Is Love》（所有你需要的东西就是爱）。

预训练指一个模型的初始训练阶段，在这个阶段，模型会从大量数据中广泛学习，掌握“通识”知识。若要在特定场景中有更好表现，就要让模型学习更多特定领域的专门知识，这个阶段也被称为“微调”或“精调“（Fine-tuning）。这跟人的学习很像。在文理分科或从大学阶段进入研究生阶段之前，学生接受的都是通识性的预训练，而文理分科或者选择特定研究领域之后，学习就进入精调阶段，如果继续读博士或成为博士后，精调程度就更高。

以OpenAI为例，其面向大众发布的GPT-3.5（ChatGPT所基于的模型）就是一种只完成了预训练的模型，只不过它在预训练阶段接受了更好的通识教育，因此比Google、百度、阿里巴巴等所有其他公司发布的模型（也都是预训练模型）更有通识性的知识和推理能力。普通用户用这种有通识知识、能推理的预训练模型就差不多够了，但对于企业客户来说这样不够。所以当OpenAI想要将GPT-3.5销售给各个行业的公司时—比如金融领域、法律领域、医疗领域的企业—还需要加入各领域的专业数据再次训练。

RLHF这个词很长，但意思很简单，就是人工智能公司会通过招募成千上万个人类训练师，对AI生成的答案做“品质”排序，保证那些高质量的、符合人类价值观的答案获得更高排名，有更大可能性被再次生成，而那些不符合人类价值观的答案会被排在后面，越来越不可能被再次生成。

执行这个过程的目的是“对齐”（Alignment）。这个排序过程被认为有利于提高模型智能水平，并防止AI毁灭人类。2023年11月发生在OpenAI的那场CEO罢免风波中，对CEO山姆·阿尔特曼（Sam Altman）投出反对票的公司首席科学家伊利亚·苏茨克维（Ilya Sutskever），就是AI对齐的信仰者，并且，他追求的是“超级对齐”。

在判定式AI时代，人工智能中的人工主要花在了数据标注上，到了生成式AI时代，数据不再需要标注，但人工并没有少，都花在了RLHF上，而且需要的是博士级别的高学历人工。

一种信息类型属于一种模态（Modal），语言、图像、语音、视频……分别是一种模态。一个模型（即一个神经网络）如果只能根据文字要求生成另一段文字，或者只能从文生图、从文生语音或视频，我们就说它是单模态的模型；如果一个模型既可以生成文字，也可以生成代码、图像、语音、视频……我们就说它是个多模态模型。

不过，Google发布多模态模型Gemini后，又提出了一个“原生”多模态的概念，意思是GPT-4那样的模型是一种拼凑出的多模态，即虽然在输出时是多模态的，在执行生成任务时，它实际将任务分配给了文生文模型GPT、文生图模型DALL·E、语音转文本模型Whisper等多个模型来完成……嗯，在一个行业的发展初期，争夺概念的定义权就是争夺话语权。

这个概念与前面的大语言模型（LLMs）相关。业内普遍认为，用大量自然语言的语料（比如人类写过的各类文章、聊天记录、发表过的论文）训练出来的语言模型具有对于世界的通识，同时也具有推理能力，并且模型越大，知识和推理能力都越好。

因此部分业内人士开始认为，就像一座房子的地基一样，要想实现通用人工智能（AGI），或者想让一个模型具有解决各种细分领域问题的专业能力，都需要首先训练出一个够好的语言模型，然后在这个基础上做加法。大语言模型应该被视为处理一切问题的基础模型。

随着技术发展，人们又发现当一个语言模型学习了图片，它会变得更加智能，就像GPT-4加入了图像训练后，其推理能力相较于只学习了语言的GPT-3.5更强了。因此，像GPT-4这样经过了多模态学习（不只是语言学习）的模型，也正在被视为一种基础模型。

与基础模型相对应的是行业模型，华为将这两个概念分别称为L0层模型和L1层模型，意思是后者基于前者，这种关系类似于预训练和精调的区别。

不过，有时候行业模型（L1）并不需要基于基础模型（L0）的预训练，就可以独立训练出来，比如DeepMind的蛋白质结构预测模型AlphaFold系列，其学习的所有数据都是与蛋白质分子和结构相关的数据，之前从来没有学习过人类的聊天、论文或者会议报告。

基于Transformer的文生图模型。由Stability和Runway两家公司的创始团队共同开发，最终被Stability AI在2021年10月开源。其能力是学习文本数据和图像数据之间的对应关系，然后在生成阶段根据用户提出的文本要求，将对应的图像还原出来。

图灵测试曾经是人工智能是否达到人类水平—即通用人工智能—的标准，但这一标准在ChatGPT诞生之后显然已过时。人类需要找到一个新的标准来定义什么样的人工智能才是通用。

目前尚未有统一标准。有人认为达到类人或超人水平的AGI需要有意识和自我，但迄今学界并未清晰定义过究竟什么才是意识，更不知道如何构建意识；也有人认为即使没有意识，AI也可以作出一些没有学习过的决策，就像AlphaGo下出人类棋手从未见过的“第37步棋”一样。让一些人开始担心AI或将失控的，正是这种不可预测性。

位于模型前端、可以与用户交互的界面，就叫Chatbot，Siri、天猫精灵、小爱同学、小度、ChatGPT、文心一言等都是这样的聊天机器人。

一种加载了AI大脑的数字形象。用你的声音和外形，再加上用你的日记、论文、聊天记录训练出来的AI，就可以创造一个代表你的数字人了。区别在于，有些数字人背后的模型是生成式的，有些不是，因此不同数字人的智能水平并不一样。

研究机器人与环境交互的学问。这一概念与AI的关系相当于身体与大脑的关系。当AI越来越聪明，让AI有个身体，让它可以在三维空间、真实世界中行走，它与人类协作并创造经济价值就会成为一种可能。在电脑中训练的AI本身并不具有与三维世界交互的能力，它不能感知周围环境，不知道什么是重力，什么是触觉，或者碰到障碍物要如何应对。因此，赋予AI一具身体后，更具挑战的训练和学习才刚开始。这一结合也被认为是实现AGI的必经之路。

如果你学过哲学，可能会知道这个概念。在哲学中，它指的是“能动者”，像人这样具有主观能动性的动物，就是一种能动者、智能体。在人工智能领域，不是所有的AI都可以被稱为智能体，就像不是所有AI都可以被称作AGI。在人工智能领域，这3个概念之间存在智能程度的差别，智能体的智能水平介于普通AI和AGI之间，其主要标志是能够拆解任务、做规划并根据规划执行行动。

比如一个会订机票的AI就可以被称为一个智能体，即它在获得用户需求后，能够将这个任务拆解为寻找订票网站或者航空公司、查找相应时段和价格、询问用户详细需求和是否选定某一航班、点击下单、填写信用卡信息等一系列步骤，并在完成这些子任务的过程中适时与人交互，保证结果的正确性。

目前市面上的大部分AI都不具备完成这种复杂任务所需的推理能力，就连GPT-4也只能尝试部分场景。

指智能体在大脑、神经网络中构建的外部世界的复制品。很多动物都能在大脑中构建世界模型，人类尤其擅长，而且还会形成更为抽象的“世界观”之类的东西。这种东西的好处对人和对AI是一样的，即它可以指导行动。世界观不同的人作出的决策水平不同，AI同样如此。

不过，和那些足够聪明的AI是否有意识的问题类似，AI是否有世界模型也是一个时髦问题。有人认为一些AI（比如GPT-4）已经有了这种能力。也有人认为需要建立一个独立模块来让AI获得这种能力，深度学习三巨头之一的杨立昆和文生视频公司Runway都在想方设法开发世界模型的算法。