无痛AI记典

2024-01-15 17:14
第一财经 2024年1期
关键词:模态神经网络人工智能

按字面意思,人工智能就是由人制造出来的机器所表现出来的智能,其最终目标是创造与人类差不多甚至高于人类智能的机器。

就像人有名字一样,创造这些人工智能机器(目前主要是软件形式的模型)的公司们也常常会给它们的模型起名字,比如OpenAI的人工智能机器(模型)叫GPT,它的最终产品叫ChatGPT,而Google的模型叫Gemini,最终与人聊天的产品叫Bard……这些不同维度的产物常常会被笼统地、拟人化地叫作一个个AI。

简单说,深度学习就是让计算机通过深度神经网络来学习—哈,这句话中又有两个新概念,神经网络和学习。

理解神经网络相对容易,你把它想象成人脑中的神经网络就可以了,它有很多个节点(就像人脑的神经细胞),节点的层与层之间相互连接(就像大脑神经细胞之间的连接)。所谓“深度”,是指这个网络有很多层。

在人工神经网络中,知识以权重的形式存在。而学习,就是根据训练数据来调整神经网络链接上的权重,最终,神经网络的学习成果就是权重。

这个词是最近两年才被创造出来的,与判定式AI相对,提出者不详。2022年之前,你在市面上见过的AI基本都是判定式的,比如人脸识别的主要工作就是判断镜头前的人是不是你、一封邮件是不是垃圾邮件,即当时AI只能以回答yes or no的方式来工作。

现在,ChatGPT能大段大段地回答问题,“生成”一连串的字,还有些AI可以“生成”一张一张的新图片。与判定式AI相比,生成式AI从无到有地创造了大量新内容。这种AI创造内容的状况被称为AIGC(Artificial Intelligence Generated Content),与用户创造内容(Users Generated Content,UGC)、平台创造内容(Platform Generated Content,PGC)相对—社交媒体是典型的UGC,而机构媒体是典型的PGC。

模型学习、生成、预测的最小数据单位,就像人类语言的最小单位是字母、单词。一个token的长度可能长于一个单词,也可能短于一个单词,整体而言,100个token大约相当于75个英文单词。

看英文翻譯你应该就知道了,大模型的全称是“大语言模型”,所以它原本指的只是语言模型。因为基于Transformer架构构建,随着训练数据增加,基于这种架构的语言模型会越来越大—具体表现就是参数越来越多,像GPT-3的参数量达到1750亿,GPT-4的参数量虽然没有公布,但据说有上万亿之多。而从结果上看,模型越大似乎就越智能。

不过在实际使用中,不少人在提到生成式AI的时候会用“大模型”代替,不管它生成的是图像、视频还是蛋白质结构,这种使用方式起初是种误用,但正逐渐被更多人接受。

历史常常就是这样,很多事物的命名一开始都是有点随意的。如果最初发现Transformer的人是研究视觉而不是研究语言的,那大模型一开始很可能指的就是大视觉模型(Large Vision Models,LVMs),而不是大语言模型了。

作为一种模型架构,Transformer会让模型越训越大,并且模型越大越智能。从功能上看,Transformer能处理一切可以表达为序列的东西,从自然语言到计算机代码、从图像像素到DNA,或者说,它可以生成带有重复图案或模式的所有东西。

在Transformer被发明之前,处理语言的模型、处理图像的模型和处理DNA的模型,会采用迥异的架构(即专用模型),而Transformer出现之后,图像也不过是另一种语言。

2017年12月,Google的人工智能团队Google Brain中的8位工程师共同发表论文提出这一架构,论文名称“Attention Is All You Need”(所有你需要的东西就是注意力)致敬了披头士乐队的《All You Need Is Love》(所有你需要的东西就是爱)。

预训练指一个模型的初始训练阶段,在这个阶段,模型会从大量数据中广泛学习,掌握“通识”知识。若要在特定场景中有更好表现,就要让模型学习更多特定领域的专门知识,这个阶段也被称为“微调”或“精调“(Fine-tuning)。这跟人的学习很像。在文理分科或从大学阶段进入研究生阶段之前,学生接受的都是通识性的预训练,而文理分科或者选择特定研究领域之后,学习就进入精调阶段,如果继续读博士或成为博士后,精调程度就更高。

以OpenAI为例,其面向大众发布的GPT-3.5(ChatGPT所基于的模型)就是一种只完成了预训练的模型,只不过它在预训练阶段接受了更好的通识教育,因此比Google、百度、阿里巴巴等所有其他公司发布的模型(也都是预训练模型)更有通识性的知识和推理能力。普通用户用这种有通识知识、能推理的预训练模型就差不多够了,但对于企业客户来说这样不够。所以当OpenAI想要将GPT-3.5销售给各个行业的公司时—比如金融领域、法律领域、医疗领域的企业—还需要加入各领域的专业数据再次训练。

RLHF这个词很长,但意思很简单,就是人工智能公司会通过招募成千上万个人类训练师,对AI生成的答案做“品质”排序,保证那些高质量的、符合人类价值观的答案获得更高排名,有更大可能性被再次生成,而那些不符合人类价值观的答案会被排在后面,越来越不可能被再次生成。

执行这个过程的目的是“对齐”(Alignment)。这个排序过程被认为有利于提高模型智能水平,并防止AI毁灭人类。2023年11月发生在OpenAI的那场CEO罢免风波中,对CEO山姆·阿尔特曼(Sam Altman)投出反对票的公司首席科学家伊利亚·苏茨克维(Ilya Sutskever),就是AI对齐的信仰者,并且,他追求的是“超级对齐”。

在判定式AI时代,人工智能中的人工主要花在了数据标注上,到了生成式AI时代,数据不再需要标注,但人工并没有少,都花在了RLHF上,而且需要的是博士级别的高学历人工。

一种信息类型属于一种模态(Modal),语言、图像、语音、视频……分别是一种模态。一个模型(即一个神经网络)如果只能根据文字要求生成另一段文字,或者只能从文生图、从文生语音或视频,我们就说它是单模态的模型;如果一个模型既可以生成文字,也可以生成代码、图像、语音、视频……我们就说它是个多模态模型。

不过,Google发布多模态模型Gemini后,又提出了一个“原生”多模态的概念,意思是GPT-4那样的模型是一种拼凑出的多模态,即虽然在输出时是多模态的,在执行生成任务时,它实际将任务分配给了文生文模型GPT、文生图模型DALL·E、语音转文本模型Whisper等多个模型来完成……嗯,在一个行业的发展初期,争夺概念的定义权就是争夺话语权。

这个概念与前面的大语言模型(LLMs)相关。业内普遍认为,用大量自然语言的语料(比如人类写过的各类文章、聊天记录、发表过的论文)训练出来的语言模型具有对于世界的通识,同时也具有推理能力,并且模型越大,知识和推理能力都越好。

因此部分业内人士开始认为,就像一座房子的地基一样,要想实现通用人工智能(AGI),或者想让一个模型具有解决各种细分领域问题的专业能力,都需要首先训练出一个够好的语言模型,然后在这个基础上做加法。大语言模型应该被视为处理一切问题的基础模型。

随着技术发展,人们又发现当一个语言模型学习了图片,它会变得更加智能,就像GPT-4加入了图像训练后,其推理能力相较于只学习了语言的GPT-3.5更强了。因此,像GPT-4这样经过了多模态学习(不只是语言学习)的模型,也正在被视为一种基础模 型。

与基础模型相对应的是行业模型,华为将这两个概念分别称为L0层模型和L1层模型,意思是后者基于前者,这种关系类似于预训练和精调的区别。

不过,有时候行业模型(L1)并不需要基于基础模型(L0)的预训练,就可以独立训练出来,比如DeepMind的蛋白质结构预测模型AlphaFold系列,其学习的所有数据都是与蛋白质分子和结构相关的数据,之前从来没有学习过人类的聊天、论文或者会议报告。

基于Transformer的文生图模型。由Stability和Runway两家公司的创始团队共同开发,最终被Stability AI在2021年10月开源。其能力是学习文本数据和图像数据之间的对应关系,然后在生成阶段根据用户提出的文本要求,将对应的图像还原出来。

图灵测试曾经是人工智能是否达到人类水平—即通用人工智能—的标准,但这一标准在ChatGPT诞生之后显然已过时。人类需要找到一个新的标准来定义什么样的人工智能才是通用。

目前尚未有统一标准。有人认为达到类人或超人水平的AGI需要有意识和自我,但迄今学界并未清晰定义过究竟什么才是意识,更不知道如何构建意识;也有人认为即使没有意识,AI也可以作出一些没有学习过的决策,就像AlphaGo下出人类棋手从未见过的“第37步棋”一样。让一些人开始担心AI或将失控的,正是这种不可预测性。

位于模型前端、可以与用户交互的界面,就叫Chatbot,Siri、天猫精灵、小爱同学、小度、ChatGPT、文心一言等都是这样的聊天机器人。

一种加载了AI大脑的数字形象。用你的声音和外形,再加上用你的日记、论文、聊天记录训练出来的AI,就可以创造一个代表你的数字人了。区别在于,有些数字人背后的模型是生成式的,有些不是,因此不同数字人的智能水平并不一样。

研究机器人与环境交互的学问。这一概念与AI的关系相当于身体与大脑的关系。当AI越来越聪明,让AI有个身体,让它可以在三维空间、真实世界中行走,它与人类协作并创造经济价值就会成为一种可能。在电脑中训练的AI本身并不具有与三维世界交互的能力,它不能感知周围环境,不知道什么是重力,什么是触觉,或者碰到障碍物要如何应对。因此,赋予AI一具身体后,更具挑战的训练和学习才刚开始。这一结合也被认为是实现AGI的必经之路。

如果你学过哲学,可能会知道这个概念。在哲学中,它指的是“能动者”,像人这样具有主观能动性的动物,就是一种能动者、智能体。在人工智能领域,不是所有的AI都可以被稱为智能体,就像不是所有AI都可以被称作AGI。在人工智能领域,这3个概念之间存在智能程度的差别,智能体的智能水平介于普通AI和AGI之间,其主要标志是能够拆解任务、做规划并根据规划执行行动。

比如一个会订机票的AI就可以被称为一个智能体,即它在获得用户需求后,能够将这个任务拆解为寻找订票网站或者航空公司、查找相应时段和价格、询问用户详细需求和是否选定某一航班、点击下单、填写信用卡信息等一系列步骤,并在完成这些子任务的过程中适时与人交互,保证结果的正确性。

目前市面上的大部分AI都不具备完成这种复杂任务所需的推理能力,就连GPT-4也只能尝试部分场景。

指智能体在大脑、神经网络中构建的外部世界的复制品。很多动物都能在大脑中构建世界模型,人类尤其擅长,而且还会形成更为抽象的“世界观”之类的东西。这种东西的好处对人和对AI是一样的,即它可以指导行动。世界观不同的人作出的决策水平不同,AI同样如此。

不过,和那些足够聪明的AI是否有意识的问题类似,AI是否有世界模型也是一个时髦问题。有人认为一些AI(比如GPT-4)已经有了这种能力。也有人认为需要建立一个独立模块来让AI获得这种能力,深度学习三巨头之一的杨立昆和文生视频公司Runway都在想方设法开发世界模型的算法。

猜你喜欢
模态神经网络人工智能
神经网络抑制无线通信干扰探究
人工智能与就业
基于神经网络的拉矫机控制模型建立
国内多模态教学研究回顾与展望
复数神经网络在基于WiFi的室内LBS应用
基于HHT和Prony算法的电力系统低频振荡模态识别
基于支持向量机回归和RBF神经网络的PID整定
由单个模态构造对称简支梁的抗弯刚度
多模态话语模态的协同及在外语教学中的体现