广布局、重应用:生成式大语言模型的新进展

2023-09-12 00:32郭全中朱燕
新闻爱好者 2023年8期

郭全中 朱燕

【摘要】ChatGPT的上线掀起了大语言模型的热潮,除了谷歌、微软、OpenAI、百度、阿里巴巴等科技巨头,创业公司和其他互联网企业也纷纷布局大模型。目前,生成式大语言模型在搜索引擎、办公软件和诸多垂直领域有了初步应用,加快了产业智能化发展的步伐,未来,大语言模型将探索更多垂类应用场景,产业结构将进一步分化。但大模型在落地应用过程中也面临着技术和社会层面的问题,需要各国在生成式人工智能的管理方面进行规范与治理。

【关键词】大语言模型;ChatGPT;生成式;广布局;重应用

2022年11月30日,基于生成式预训练模型GPT-3.5微调而来的新一代对话式自然语言识别模型ChatGPT上线,这是人工智能研究实验室Open AI历经四年迭代推出的生成式大语言模型。一般而言,大模型是指具有海量参数和复杂架构,用于深度学习任务的大容量模型,它采用的“预训练大模型■下游任务微调”模式极大地提高了模型的通用能力,呈现出“大模型”和“小模型”协进、通用性与专用性并进的发展趋势。2023年1月末,上线仅两个月,ChatGPT的月活用户便突破1亿,成为全球用户增长速度最快的消费级应用程序。面对用户的对话、翻译、分类、修改回答等指令,ChatGPT均呈现出极强的对用户意图的理解能力,其语言理解能力、逻辑推理能力与生成内容能力的大幅提升是在自然语言处理领域的重要突破,是生成式AI(AIGC)极为关键的发展节点。ChatGPT的成功标志着人工智能从以专用小模型训练为主的“手工作坊时代”迈入到以通用大模型预训练为主的“工业化时代”,成为人工智能发展的分水岭。[1]

一、广布局:多类主体大力布局大语言模型

无论是在训练研发的上游市场,还是落地应用的下游市场,以美国、中国为代表的国家均展开了广泛布局,除了互联网公司和AI公司,科研机构、各垂直行业巨头企业也纷纷加入大语言模型赛道。目前,大语言模型赛道主要分为两类:一类是聚焦基础层通用大模型训练的巨头公司和科研机构,另一类是聚焦在开源大模型的基础上训练垂类大模型或单纯专注垂直行业具体应用的中型公司和应用型厂商。

(一)国外大语言模型的发展现状

美国在大语言模型领域的布局方面处于领先地位。在上游市场,OpenAI、Anthropic、谷歌、Meta等行业巨头和斯坦福大学、麻省理工学院等科研机构均研发出了代表性大模型,在大模型的通用性方面实现了跨越式突破。以微软、Jasper为代表的下游市场则将语言生成能力与自身产品生态相结合,极大增强了自身产品生态的商业竞争力。相较之下,英国和俄罗斯虽然也分别推出了Gopher、YaLM等大模型,但在研发和应用上与美国还存在一定差距。

1.美国在大语言模型领域的发展处于领先地位

(1)上游市场:以OpenAI为首的“一超多强”局面。

作为传统科技强国,美国背倚雄厚的技术、资金与人才资源,在大语言模型方面的发展具有显著优势。在上游市场领域,美国市场以OpenAI为首,谷歌、Anthropic、Meta等科技巨头和创业公司竞相追赶,形成了“一超多强”的竞争局面。

OpenAI作为顶尖人工智能公司,其开发的ChatGPT是目前最具代表性的通用语言生成应用。从GPT-1的1.17亿、GPT-2的15亿到GPT-3和GPT-3.5的1750亿,再到GPT-4的万亿级以上的参数量,GPT系列模型的参数量不断攀升。ChatGPT作为对话式机器人,聚焦多轮对话与情感交互,在“人性化”层面有了进一步探索。除了可以完成连续对话、翻译、编程、算术等工作外,ChatGPT还会根据用户的质疑发表道歉语句,并根据用户需求修改、完善先前的回答。而OpenAI于2023年3月中旬发布的GPT-4又在GPT-3.5的模型上进行了全方位升级。作为一个多模态大模型,GPT-4具备对图片模态的分析推理能力,并能处理更长的文本。目前,OpenAI与微软、Duolingo、冰岛政府等均有合作,迅速建立并不断拓展产业应用生态。整体而言,无论是在文本理解与生成领域,还是在大模型的通用功能实现方面,Chat GPT的综合表现相对更为优异。

Anthropic创始团队多为前OpenAI研究员,其开发的AI聊天助手Claude是对标ChatGPT的大语言模型,主要用于理解用户的自然语言,并进行智能回答与交互。Claude的参数量相对较小,仅有520亿。相较ChatGPT,Claude更强调语言生成应用的安全性,为企业提供从数据到模型再到系统的人工智能应用安全服务,注重对类ChatGPT的逻辑错误、负面信息等问题的检测与回避,最大化地避免提供有害建议。

谷歌作为新一代科技巨头,它在语言生成应用领域并未抢占到先机,其對标ChatGPT的语言生成应用Bard还没有成型的商业模式,但其目标是将Bard接入Google产品体系中,提升其产品生态与微软产品生态竞争的能力。[2]Bard此前是基于LaMDA模型开发,但LaMDA的负责任AI实践模式导致其回答存在生硬、浅层等局限,因而将从基于轻量级LaMDA模型升级为更大规模的PaLM模型。PaLM模型的参数量达5400亿,几乎是LaMDA的四倍。在此基础上,升级后的Bard不仅将在常识推理和编程方面的回答上有所突破,在回答方式上也将更自然、更深入。目前,谷歌已开始尝试将Bard跟旗下和外部产品集成,朝着实用与通用的方向发展。例如,谷歌尝试在Chrome OS中整合Bard AI聊天机器人,引入“会话搜索”的实验性功能。

Facebook的母公司Meta也于2023年2月下旬推出了开源大语言模型LLaMA-13B。LLaMA-13B是Meta新语言模型家族“大型语言模型Meta AI”(简称LLaMA)的一部分,Meta将其LLaMA模型称为“基础模型”,这意味着其将如在GPT-3的基础上构建ChatGPT一样,用这些模型来帮助构建更精细的AI模型。尽管LLaMA模型集合的参数从70亿到650亿个不等,远不及GPT-3模型的1750亿个参数,但这种相对较小的AI模型反而可能催生能在PC端和移动端上运行类似ChatGPT的语音助手,是最有安卓像的开源生态。LLaMA-13B在单一GPU上运行的表现也超过了GPT-3,为不久的将来在消费级硬件上实现类似ChatGPT的功能打开了大门。[3]此外,作为完全开源的领先模型,LLaMA具有高度的可配置性与泛化能力,还具备成为垂类AI模型的通用基座的潜力,加速垂类模型的发展。

此外,还有部分高校研究机构也相继推出了大模型,如斯坦福大学基于Meta的LLaMA-7B模型微调出新模型Alpaca,该模型仅用52K数据指令即可达到良好效果;麻省理工学院提出大语言模型跨界视觉领域新范式LAMPP,用于视觉感知和推理任务等。

(2)下游市场:微软处于绝对领先地位。

微软在上游市场也有所布局,联合英伟达发布了具有5300亿参数量的自然语言生成模型MT-NLG,这是模型发布之时训练的最大、最强大的单片Transformer语言模型。但是,微软在下游市场的表现更为突出,且占有绝对的市场领先地位。微软打造了基于场景的语言生成应用,并通过与OpenAI的合作将大语言模型与产品生态相结合,不断探索语言生成的场景应用潜力。在搜索引擎方面,微软基于Edge浏览器的数据,接入GPT-4,推出了AI版搜索引擎New Bing;在办公软件方面,微软接入GPT-4与ChatGPT,推出365 Copilot;在代码生成方面,微软在其全球最大的代码托管平台GitHub上推出代码生成应用CopilotX。目前,微软在语言生成应用场景上实现了广泛布局,形成了强大的业务矩阵。

JasperAI是一家专注营销领域内容创作的公司,也是最早尝试将大语言模型进行商业化的公司之一。在ChatGPT发布前,JasperAI就基于GPT-3模型的API,通过模型微调打造了AI营销内容生成平台,提供广告文案、营销策划、产品描述等多种类型的商业性文字的生成服务。但随着ChatGPT面向公众开放、成为C端现象级应用后,JasperAI提供的部分基础功能面临被取代的风险,对JasperAI的语言生成应用市场造成了威胁。

2.英国、俄罗斯等发达国家也陆续布局,但较美国还有一定差距

在开发语言模型的过程中,谷歌旗下的英国的人工智能公司Deepmind探索了六类不同大小的Transformer模型,参数量从4400万到2800亿不等。Deepmind不仅提供了对包括模型规模与偏差在内的训练数据集和模型行为的整体分析,还讨论了语言模型在下游危害与AI安全等方面的问题,能进行有害语言识别与事实核查。但整体而言,Gopher的应用范围相对狭窄,离通用性的实现还有较远距离。

Yandex拥有俄罗斯最大的搜索引擎,是俄罗斯的互联网巨头公司之一。YaLM 100B是Yandex开发的具有1000亿参数的开源大模型,它可以生成和处理文本,在Yandex旗下的Alice语音助手和Yandex搜索中有了初步应用,并允许研究和商业免费使用。尽管Yandex已部分使用生成式神经网络,但在形成搜索结果时并不能直接生成文本答案,而是作为辅助判别工具用于搜索引擎中,其发展仅处于行业中下游。

总的来说,美国在大语言模型开发方面保持着领先地位。从文本生成的直观体验层面来看,目前ChatGPT的表现最为优异。但对于谷歌等大厂而言,目前暂时落后于Open AI的主要原因是技术路线与公司战略的差异,赶超GPT系列模型依然存在很大可能。在语言模型闭源趋势明显的环境下,Meta的开源语言模型则在促进大语言模型研究方面作出了重要贡献。相较传统互联网大厂,由顶尖技术人才初创的AI公司也成为大语言模型发展过程中的一股重要力量,并在不断实现新的突破。

(二)中国的大语言模型大干快上

中国在大语言模型领域大干快上,目前国内已经有30多家公司发布或宣布研发大模型,布局企业以互联网巨头、AI公司、初创科技团队、科研院所和教育行业公司为主,如百度、阿里巴巴、腾讯、华为、商汤科技、科大讯飞、百川智能、清华大学、复旦大学以及网易有道、学而思等。我国大语言模型尽管与国外还有一定差距,但在参数量、跨模态、泛化能力等方面表现优异,且在垂直领域有了广泛的落地应用。

在人工智能产业迎来热潮时,中国人工智能产业也抓住了这一难得的发展契机,迎来了“国产ChatGPT元年”,大语言模型密集上线。相较国外产业巨头致力于提升大语言模型的通用性,我国则聚焦垂类场景的应用落地。以百度、阿里巴巴、腾讯、华为等为代表的互联网巨头在深耕通用大模型研发的同时,积极根据自身产业生态布局进行垂直基础大模型打造;具备大模型自研能力的肩部公司则聚焦在开源模型和海量数据的基础上打造垂类大模型,建立垂直领域的平台生态。

在模型参数量方面,互联网大厂的参数量远大于科研院所,基本处于千亿级以上规模,如阿里巴巴的通义千问拥有10万亿级以上的参数量,腾讯混元大模型的参数量在万亿级以上,但科研院所的参数量多在千亿级以下。在模型应用方面,大部分公司和团队的大模型将以内部应用和面向B端的企业拓展服务为主,面向C端市场进行规模化应用的可能性较低。相较国外,我国在垂类大模型领域的发展更快。目前,我国已有不少中小型企业基于国内外大模型“底座”训练适配自身所处行业的垂类模型,而已发布通用大模型的公司也推出了针对特定行业的大模型。值得一提的是,我国在大模型领域的开源趋势明显,如智谱AI的ChatGLM已经开源,复旦大学邱锡彭教授团队的MOSS产品即将开源等,这些中文开源语言生成模型将极大地促进我国通用大模型及垂类模型的发展。

(三)中外大语言模型差距背后的原因

目前,我国与外国尤其是美国在大语言模型的研发上还存在较大差距,在数据、算力、工程化能力等关键因素上存在短板。大语言模型更多仅聚焦于垂直领域的应用,缺乏多技術融合创新带来的通用能力。

第一,创新意识不足。一方面,大模型的高额研发成本和高风险特点限制了试错空间,导致我国企业在风险技术上更倾向于追随与模仿。

第二,技术设施不完善。首先,我国在核心的人工智能算法上(算法透明度、鲁棒性等)存在痛点,关键技术缺乏进一步突破;[4]其次,国外对中国的“芯片制裁”持续升级,用于人工智能和高性能计算机的芯片获取困难,国产智能芯片在性能上与英伟达A100和H100芯片差距较大;再次,中文开源高质量数据相对匮乏,缺少用于大模型训练的经过加工、清洗和标注的数据集。

第三,制度环境有缺陷。美国的AIGC产业得以蓬勃发展的一个重要原因在于建立了保护和激励创新的制度环境,在知识产权、风险投资、高等教育、人才集聚等方面不断实现制度创新,而我国的强监管环境则在一定程度上限制了人工智能产业能动性的发挥。此外,随着地缘政治紧张局势的加剧,科技产业的中外合作也受到了较大限制。

第四,研发力量分散。大语言模型的研发具有高投入、高风险、长周期的特征,这也决定了其对顶尖人才和核心团队的极高要求。目前,我国不仅研发领域分散,企业和高校在大数据、大模型等方面各有侧重,顶尖人才也分散在不同机构中,难以形成对标Open AI的兼具核心技术与丰富经验的领军人物和团队。

二、重应用:大语言模型积极探索落地场景

由于大语言模型的泛化能力极强,通用性和实用性明显,越来越多的企业在聚焦基础层的通用大模型训练时,也将目光放在了垂类大模型的研发上,重视并积极探索模型的落地场景应用。目前,大语言模型已在搜索引擎、办公软件和金融、医疗、传媒、教育等多个垂直行业落地应用,并取得了良好效果。

(一)AI搜索引擎:个性化交互

随着全球第二大搜索引擎微软Bing在今年3月接入ChatGPT,搜索引擎这样一个传统行业迎来了新发展时代。New Bing在提供文本生成服务的同时还具有网页信息总结功能,并能在互联网上实时搜索信息。此外,Bing Chat也会在每个回复的底部注明其引用来源,以供用户参考验证生成文本的准确性。据微软公布的消息,Bing接入ChatGPT一个月后的日活量破亿,New Bing凭借优秀的性能在短时间内吸引了大量用户,并在商业上直接威胁到了谷歌的搜索业务。目前,谷歌、百度等国内外搜索引擎龙头和360、知乎等公司纷纷开始加速在大模型嵌入搜索引擎应用方面的布局,如谷歌的AI版搜索引擎Magi即将面世,360集团推出360智脑服务,知乎将“知海图AI”中文大模型应用于知乎的“热榜摘要”等。

嵌入大模型后的搜索引擎将为用户带来诸多便利。第一,搜索形式和搜索结果呈现方式将不断升级,即关键词式搜索转变为对话式搜索,线性排列式结果转变为规范的篇章阅读式结果,用户无需根据结果梳理即可得到具有清晰逻辑的篇章和规范的参考源。第二,交互性与针对性得以增强。以New Bing的搜索功能为例,用户在搜索栏中最长可输入长达1000字符的问题,并可进行追问与反驳,以获取具有高准确度的搜索结果。

但大语言模型与搜索引擎的结合也会滋生出新的问题。首先,传统广告模式的商业逻辑受到冲击。搜索引擎广告是搜索引擎公司的主要收入来源,但大语言模型的生成结果注重功能性与准确性,这将大大降低用户对广告链接的点击率。因此,如何在创新升级的基础上保持稳定收入,探索与该文本生成逻辑相匹配的盈利模式尤为重要。其次,大语言模型的运营成本高昂,企业将面临着是否面向C端用户收费的难题,施行收费制度后用户数量的扩张与留存也将面临风险。

(二)智能化办公:淘汰重复性劳动

大语言模型目前已尝试嵌入协同办公平台、AI办公工具、AI编程工具等办公软件,智能化办公将成为大模型的另一重要应用场景。首先,在协同办公平台领域,微软是最早接入大语言模型的公司,2023年3月16日,微软正式将GPT-4接入Office工具,推出AI版Office“全家桶”——Microsoft 365 Copilot,在Word中AI能秒出文稿和配圖,根据用户需求修改文风和排版;在Excel中对数据进行清洗和分析后可总结关键信息,并进行可视化呈现;在Outlook中则可自动总结邮件要点,并生成邮件初稿。在国内,钉钉于4月11日接入阿里巴巴的通义千问大模型,同日,字节跳动旗下的办公软件飞书对其智能助手“My AI”进行了预告;4月17日,百度宣布文心一言大模型在百度内部全面应用在智能工作平台“如流”上,助力员工的代码编写、思路搭建等日常工作。其次,在AI办公工具领域,Notion于2月推出了基于ChatGPT的企业服务工具Notion AI,以及热门类GPT应用ChatPDF的推出等,这类AI办公工具的功能极为广泛,包括但不限于总结会议、回复邮件、整理PDF文档。最后,在AI编程工具领域,微软旗下的代码托管平台GitHub接入GPT-4推出辅助编程工具CopilotX,AWS的实时AI编程伴侣Amazon CodeWhisperer也免费向开发者开放等,这些AI编程软件不仅可以根据开发者的语言指令生成代码建议,还能提供实时的错误代码修复建议。

目前看来,大语言模型接入协同办公平台并未完全取代相关脑力工作,它提供的大多是简单琐碎的工作内容,其目的在于淘汰重复性劳动。具体而言,这类应用主要面向三类场景:一是面向工作群体,承担简单的重复性工作,快速提取员工所需信息;二是面向学生群体,提炼文档要点,承担如演示文稿般的形式上的工作;三是面向有创意想法的人,AI可从史料、文学等作品中提取信息供用户参考,拓宽用户的想象维度。

(三)垂直领域应用:迭代行业场景

建立垂直行业的平台生态、迭代行业场景是触达应用场景落地的重要方向。目前,大语言模型已在金融、医疗、电商、营销、传媒、教育等多个垂直领域展开应用,并不断展望新的应用场景。国外主要通过在垂直领域嵌入大语言模型的方式进行应用,如摩根士丹利利用GPT-4搜索研报内容,协助资管顾问工作;海外生鲜电商平台Intacart的食物搜索工具基于ChatGPT推出了食物推荐应用,为客户购物提供参考;客户关系管理领域SaaS巨头Salesforce基于ChatGPT推出了相关AI产品,帮助销售人员、客服专员等完成基础性工作。国内企业则根据自身产业生态布局,致力打造垂直基础大模型。以百度为例,百度和多行业的头部企业联合研发融合了行业数据和专家经验的NLP大模型,如与国家电网联合打造的NLP大模型“国网—百度·文心”,通过设计电力领域实体判别和文档判别等作为预训练任务让文心模型深度学习电力行业知识,实现了对数据、算力与技术等资源的统筹优化;与人民网舆情数据中心合作研发了“人民网—百度·文心”大模型,在人民网舆情数据中心积淀的行业知识和任务样本数据的基础上进行训练,并已应用于舆情分析、新闻内容审核分类、新闻摘要生成等领域,相较从前的基线模型,大模型在人民网各应用的自然语言处理任务效果方面有了显著提升。

探索大模型在各垂直领域场景中的应用,触达多个细分场景与业务场景的应用落地,有利于推动相关产业实现从人力密集型向智能密集型转变,实现产业的智能化升级,进一步解放重复性脑力工作劳动力。总的来说,大语言模型的落地应用仍处于初级发展状态,性能和配套服务不足、产业模式不成熟、存在隐私漏洞、监管体系尚未建立等是亟待解决的阻碍其落地进程的问题。随着产业模式发展日趋成熟,大语言模型的产业结构将进一步分化,形成囊括“上游—中游—下游”全流域的产业链格局,加快产业智能化发展的步伐。

三、大语言模型的应用风险及治理策略的最新进展

由于大语言模型自身存在的技术问题,加上相关法律法规不完善,导致大语言模型在落地应用过程中存在诸多亟待治理的问题,美国、中国也相继在生成式人工智能的治理领域开展布局。

(一)大语言模型落地应用存在的风险

从技术层面来看,一方面,由于大语言模型的生成机制难以解释,其回答也难以追溯其逻辑与理由,缺乏可解释性,容易生成错误信息,影响用户判断。在法律、医学等严谨、敏感的领域,错误的法律和医学知识可能会导致用户违法或使用错误急救方式,对自身健康和社会安全造成伤害。加上大语言模型存在算法偏见,可能会无意中放大社会文化歧视,误导用户的价值观。另一方面,人工智能是基于收录了他人享有版权作品的数据库生成内容,因此生成内容很可能面临侵权风险。

从社会层面来看,第一,大语言模型可能会侵犯用户隐私、泄露一些组织乃至国家的机密信息,对个人身心健康、企业安全和国家安全造成威胁。第二,大语言模型易被多行业、多领域滥用,例如,内容生成技术使得以低廉价格生成有效虚假信息等成为可能,有可能诱发信息欺诈、线上诈骗等犯罪行为;在现有教育体系缺乏应对准备的情况下,学生可能会在开卷测试中用其作弊或出现利用AI生成文本生成论文的学术不端行为。第三,大模型在内容生成与数据预测方面的能力较高,对重复性工作的可替代性强,有可能对传统的低创造性与低情感性脑力劳动岗位的严重威胁。第四,大语言模型的普及应用可能会加大科技发达地区与其他地区之间的数字鸿沟。

(二)大语言模型落地应用的治理策略进展

由于这类生成式人工智能的应用相对较新,它们在很大程度上仍处于无监管状态。目前,为促进生成式人工智能技术健康发展和规范应用,各国都在就如何对生成类人工智能进行有效治理与监管这一问题进行积极探索,并有了初步进展。

美国率先对生成式人工智能的监管领域展开探索。2023年1月26日,美国国家标准与技术研究院发布了《AI风险管理框架1.0》,从治理、映射、测量和管理四部分对AI风险管控与问责制度等进行了规定。5月5日,美国国家科学基金会宣布将拨款1.4亿美元成立7个国家级人工智能研究机构,确保美国在AI领域保持领先的同时遏制AI引发的社会问题和道德问题。5月16日,OpenAI的CEO Sam

Altman出席了美国参议院听证会,参与关于AI监管话题的讨论。在听证会上,Sam Altman建议通过成立监管AI的新的政府机构,为AI模型创建安全標准,要求独立专家对模型在各指标上的表现进行独立审核,对AI模型进行严格监管,并认为生成式人工智能工具需要一套新的责任框架。纽约大学心理学和神经科学名誉教授Gary Marcus在会上也指出,此前热议的“暂停大规模人工智能模型研发”联名信的目的并非要求暂停研发AI,而是希望在具备足够规范、安全的AI管理措施出台之前,暂停部署比GPT-4更大的AI模型。

2023年4月11日,我国国家互联网信息办公室起草了《生成式人工智能服务管理办法(征求意见稿)》,明确了生成式人工智能的定义、相关产品和服务提供者的合规义务。这意味着我国将逐步完善人工智能法律体系,对生成式人工智能进行严格、科学监管。

四、结语

大语言模型的多模态发展趋势特征进一步拓宽了语言生成的场景应用维度和商业化维度,如何实现内容安全、数据安全和保护个人隐私,如何处理竞争关系,如何高效赋能行业,将成为生成式大模型应用规模化必须要考虑和解决的技术问题与社会问题,在生成式人工智能的治理问题上,政府、企业、用户等应进一步合力探索。

参考文献:

[1]赵朝阳,朱贵波,王金桥.Chat GPT给语言大模型带来的启示和多模态大模型新的发展思路[J].数据分析与知识发现,2023,7(3):26-35.

[2]易观分析.AIGC产业研究报告2023:语言生成篇[EB/OL].(202

3-05-16)[2023-05-19].https://mp.weixin.qq.com/s/MMZE08EVc3jItWc

BJyIpjg.

[3]腾讯科技.Meta推出大语言模型LLaMA参加AI大战:比GPT-3小10倍,表现更好[EB/OL].(2023-02-25)[2023-05-19].https://new.qq.com/rain/a/20230225A021BI00.

[4]华东政法大学政治学研究院和人工智能与大数据指数研究院.人工智能通用大模型(Chat GPT)的进展、风险与应对[EB/OL].(2023

-02-23)[2023-05-19].http://fxcxw.org.cn/dyna/content.php?id=25211.

作者简介:郭全中,中央民族大学新闻与传播学院教授(北京 100081),互联网平台企业发展与治理研究中心主任(北京 100081),江苏紫金传媒智库高级研究员(南京 211199);朱燕,中央民族大学新闻与传播学院硕士生(北京 100081)。

编校:王 谦