新起点·再出发

2024-02-18 14:25勒川

中关村 2024年1期

关键词：智能模型

勒川

2023年，生成式AI的发展让所有科技公司都仿佛站在“新起點”上，围绕大模型展开了新应用、新终端、新模式等变革。以李开复博士、李培根院士领衔二十位产学研行业专家探讨分享自身进展和独特观察，为大模型元年奉献出精彩的年终总结。

2023年12月14日，由量子位主办的MEET2024智能未来大会举行。作为国内最具影响力的智能商业峰会，MEET大会继续对智能科技的最新进展进行总结和展望。

2023年，生成式AI的发展让所有科技公司都仿佛站在“新起点”上，围绕大模型展开了新应用、新终端、新模式等变革。与此同时，与原有技术积累、行业Know-how如何结合，把握住“再出发”的机遇，也成为全产业数字化转型挑战。

基于这样的行业洞察，“新起点·再出发”成为本次大会主题词，以李开复博士、李培根院士领衔二十位产学研行业专家在现场探讨分享自身进展和独特观察，为大模型元年奉献出精彩的年终总结。

ChatGPT给予了高度的评价：“看到AI技术在不同领域的应用，真是让人激动不已！”

新思考，新趋势

李开复做真正有野心的开发者

创新工场董事长、零一万物CEO李开复博士被《时代》杂志评选为2023年度全球25位“AI领袖”。创新工场塔尖孵化了AI 2.0公司零一万物，其Yi系列大模型已经交出了业界领先的成绩。

李开复认为，AI 2.0是有史以来最伟大的技术革命和平台革命，不仅改写所有的用户界面和APP，更会穿透各行各业创造巨大的价值。“AI 2.0带来的平台型的机会比PC、移动互联网时代大十倍。”当前，中国大模型赛道已经进入到了“百模大战”阶段，竞争白热化。从创业机会看，虽然大型预训练模型的创业窗口正在逐渐关闭，但在其他方面，如AI 2.0基础设施和应用方面，仍有很多机遇。

AI 2.0时代的APP将被注入超级智能，带来全新的界面和用户体验，成长速度将会洗刷新的纪录，会比移动互联网来得更凶猛，创造更多的价值，带来更多的用户。“真正有梦想、有野心的开发者应该去做AI-First、AI-Native这类应用，这些应用将能充分利用AI技术，从而成为最伟大和最具商业价值的公司。”

其次，面对现在开闭源模型的激烈战况，在李开复看来，二者的成长是一个延续的、你追我赶的事情，但是，“最终不会只有一家闭源的、伟大的GPT或大模型公司”。他预判，不包含大厂在内，中美相加最后将有五、六家大模型公司笑到最后。

李开复表示，并不是擅长所有人类做的事情才叫AGI（人工通用智能），只要在某些领域能比人类聪明100倍，这就是一个有价值的AGI。虽然无法评判AI什么时候能够具有真正的情感比如爱和同理心等，但它在一些领域已经比人类聪明100倍。面对AI 带来的风险和挑战，他认为，技术带来的问题可以用技术来解决，同时辅以合理完善的法律法规来进行AI治理，让AI造福更多的人类。

李培根意识流使人类不被AI所役

“制造业需要站在AI巨人的肩上实现突破”，这一点在李培根院士的演讲中得以充分阐述。他认为AI是一个既知道已知知识又可能生成新知识的“知识巨人”，而制造业要考虑的问题是如何充分利用AI进行创新设计，站在AI的肩上去洞察复杂的关联。比如传统的工业自动化主要处理固定模式、确定性、有因果关系的问题。

然而，工程中实际上也存在大量不确定性、没有固定模式、并非基于因果关系但存在复杂关联的问题：知识可以看作是数据在时空中的关系。人类通常只能理解和认知一些简单的、线性的、低阶关系，而高阶关联往往认识不到，这就会掉入所谓“暗知识”的大海。但现在，有大数据、AI技术加持，我们可以站在AI巨人的肩上洞察复杂的关联。

需要特别注意的是，李培根表示虽然机器在很多方面可以超越人类思维，但很难具有像人类那样不可名状的意识流。“意识流”这一概念由美国心理学家威廉·詹姆斯提出：意识流像一条绵延不断、不可分割的河流，人的意识由两方面组成，一些是理性的、自觉的意识，有一些是无逻辑的、非理性的无意识。“正是意识流使人类不至于被AI所役使，反而能够利用AI增强自己的创造能力。”

欧阳万里 “多快好省”地端出美味佳肴

上海人工智能实验室领军科学家欧阳万里分享了他们实验室在AI For Science的科研探索。他将AI For Science形容为美食烹饪，需要AI学者同自然科学家一起合作。如果把科学研究比作美食烹饪，实验数据相当于优质食材，而AI for Science则让科学家们能够“多快好省”地端出美味佳肴。

为何从计算机视觉转型做AI For Science？他表示有两方面原因：一是问题本身很重要，二是问题本身很有趣。关于问题重要性上，在欧阳万里看来，自然科学领域面临着AI领域同样的问题，甚至还更为严峻。

一方面是少标注、少样本的问题。例如获得一个蛋白质结构所需的投入时间和资源巨大，可能一位学者投入一年时间才能获取一个蛋白质的结构，即一个样本标注。另一方面还会面临数据表现形式多样。自然科学从物理到生物到地球科学，有不同的表现形式，从非常底层的原子表示、分子表示，有基因蛋白表示方式，如果来到地球科学又有大气的表示。

表现形式本身多样的形式下，怎么把数据处理好就是一个问题。既然如此那应该如何解决呢？欧阳万里结合自己研究团队成果做了进一步解释：在气象方面，他们推出的全球中期天气预报大模型风乌，首次实现了在高分辨率上对核心大气变量进行超过10天的有效预报。风乌突破了传统预报方法瓶颈并获得对气象数据关系的强大拟合能力，仅需30秒即可生成未来10天全球高精度预报结果，在效率上大幅优于传统模型。

新应用，新场景

方汉造就真正的杀手级应用

昆仑万维董事长兼CEO方汉分享了昆仑万维关于AGI的探索历程。目前昆仑万维已经构建出自己的六大AI业务矩阵，包括AI大模型、AI搜索、AI音乐、AI游戏、AI动漫、AI社交。他认为，拥有自己的模型生成能力和专有模型对于企业在AI领域的发展至关重要。目前公司已经在国内推出了面向C端的AI搜索产品，此外还计划面向海外市场推出游戏、音乐、动漫和社交方向的AI产品。

随后他详细谈到了AI搜索、Agent以及端侧推理这三大机遇。比如AI搜索，他认为能大幅缩短用户搜索时间并提高信息获取质量。“AGI的真正表现形式是Agent，但目前像不少大模型API还是需要一定的门槛。这时候需要Agent，这种低代码的、大模型的二次开发接口，让所有用户都能够通过Agent让大模型替自己做实际的工作以及更好地落地。”

方汉还提到了降低AI训练和推断成本的途径，包括技术迭代、内容革命和端侧推理。谈及端侧推理，他认为这是个面向所有企业的机遇。只有“端侧推理”才是最终的解决方案，才会造就真正杀手级应用的产生。

目前大模型付费模式只是过渡阶段，随着技术迭代、内容革命和端侧推理的实现，AI大模型最终会真正实现免费模式，也只有实现了免费模式，C端应用才会迎来真正的大爆发。“这一波AI一定是大潮将起，落地为王。”

王晓刚智能汽车处在关键时间点

商汤联合创始人、首席科学家王晓刚认为，ChatGPT改变了人工智能新范式，给AI规模化产业应用打开新道路。这过程最明显感知到的是算力需求激增，2018年商汤花50亿建AI大装置，很多人不理解。但今天所有谈到的大模型，都建立在强大软硬件基础设施系统能力基础之上。

那么在大模型时代，又有什么样的趋势值得关注？王晓刚主要从智能座舱和智能驾驶两个方面举例。在智能座舱方面，他谈到了未来可基于大语言模型能力构建座舱大脑，控制舱内各种软硬件，并借助舱内外传感器去全方位感知环境和乘客，包括驾驶员的需求。从应用层面来说，目前已经可以看到的趋势，比如内容生成、AI说明书、健康问诊、旅游规划等，这些都将座舱内的智能化体验提升到新层次。

在智能驾驶方面，他主要谈到了纯视觉方向的发展趋势。目前智能驾驶系统只有感知这部分用的是AI，其他很多都是基于手写规则。但要想真正解决各种Corner Case更多还是需要依赖数据驱动，通过大模型去做感知、融合、定位、决策、规控，将所有模块串联起来，然后覆盖尽可能多的场景。

王晓刚对智能汽车未来进行展望：未来一到两年，智能汽车其实处在一个关键突破的时间点。“实际上有三件事，一是端到端数据驱动的自动驾驶，二是以大模型为核心、为基础的座舱大脑的出现，三是驾舱融合，所有座舱和驾驶的体验在同一颗芯片，同一个用户上实现，大幅降低成本和算力，在产品级实现更好的融合，实现更好的智能驾驶和座舱的智能化的体验，所有这些都是以大模型为基础的。”

马艳军 AI原生应用发展迎来最好的时代

百度AI技术生态总经理马艳军以文心一言为例，全面介绍了知识增强大语言模型，还介绍了围绕大模型建设的生态以及未来发展趋势。

马艳军指出，要提升大模型的效果，数据和对齐技术尤为重要：如何使用数据，如何挖掘分析、合成、标注、评估数据，整个闭环非常关键。此外，他还从三个方面总结了大模型和此前AI领域其他技术突破的不同之处。首先是交互方式，“这次真正有了一个颠覆式变化”，未来的应用是通过自然语言的提示词来调动原生AI应用实现的。交互效果行不行，直接影响了技术的普及；第二是大幅降低了AI开发门槛，在这之前“要开发一个AI应用要写非常多的代码”，基于大模型的应用开发几乎可以零代码；最后大模型不仅对产业应用有影响，也推动了科研的AI for Science新趋势。

在这几点突破的驱动下，马艳军表示AI原生应用发展正迎来最好的时代，以大模型插件接入为基础进一步衍生出更强大的Agent智能体，基于这些能力将会催生更多的AI原生应用，数字技术和实体世界加速连接与融合。

“训练大模型的挑战很大，其中包括模型体积大，训练难度高；算力规模大，性能要求高；数据规模大，质量参差不齐等。这些问题的存在，目前也对基础软硬件提出了更高的要求。”

李大海大模型让人和机器更加平等

面壁智能联合创始人、CEO李大海认为大模型要用在真实生产环境里，最关键的能力是逻辑推理，而面壁智能也着重在模型的逻辑推理能力方面进行了攻关和提升。

李大海认为，大模型是第四次技术革命，可以和工业革命、信息革命相提并论，这场革命将至少持续20—30年。“大模型像是汽车引擎，但还需要转向系统、汽车底盘、内饰等各种配件组装起来，才能真正提供一个完整的汽車产品。所以智能体需要在大模型基础上叠加更多能力才能实现更多应用和想象空间。”

另外，当更多单体智能开始协作之后，它们将能发挥出更大的生产力。这时候就形成了更高级的智能——群体智能。自然界中就有很多类似案例，比如蚁群、蜂群、鱼群等，它们带来比个体更高的智能表现。

基于这种思考，过去几个月，面壁智能共发布了三个智能体框架：AgentVerse，内部包含非常多专家的智能体通用平台；ChatDev，多智能体智协作开发平台；XAgent，综合能力全面超越AutoGPT的超强单体智能应用框架。目前，面壁智能的“大模型+Agent”技术已在金融、法律等场景都有落地。

未来是否会存在基于大模型的超级应用呢？李大海认为大模型技术带来的最根本变化，是人与机器之间关系的变化：机器变得更像人，人和机器会更加平等。

李笛 AI下一阶段更像“扫雷”游戏

小冰公司首席执行官李笛的分享，从人们热议的“人工智能著作权第一案”开始说起。乙某在文章中使用了一张图片，而图片由甲某用开源AI绘画软件生成。最后，法院判定乙某侵犯了甲某的知识产权，支付了500元赔偿费用。

“500元的赔偿费，可能是这张图片目前为止在商业世界中，所能够获得最大的一笔回报了。”这就引出一个话题点——AI在创造巨大的价值，但并不会收获同等高的价值回报。李笛表示，其实这就是今天AI领域商业模式的困局之一。

过去一年，AI技术取得了巨大进展，针对AI产品的偏见在迅速消融，李笛眼中，过去的一年是这个行业的黄金一年。具体来看：生成式AI模型效率提升巨大。几年前，想要创造能够一个能评价文章的AI-being时，需要针对82类知识图谱构建它的三观，要花费约6个月时间，现在只需极短时间就可实现。

社会对AI的偏见正在消解，给予AI更大容错空间，有利于技术快速发展。但是，李笛观察到，目前AI应用普遍面临商业化难题：一方面，现有API调用付费模式难以体现AI系统的创造力价值。以文章写作为例，AI完全取代撰稿员后获得的市场规模非常有限；另一方面，多数垂直领域AI系统替代人工作后获得的收入，与替代的商业价值严重不匹配。李笛认为需要找到新的商业模式，让AI系统能够直接从内容创造中获得收益份额。

李笛强调，AI仍处于技术创新高速迭代的阶段，未来在他眼中不像是枪响后赛道确定的赛跑，更像是不知AI能力上限的“扫雷”游戏。这一阶段，需要多样化探索和宽容心态，才能抓住近两年巨大机遇，真正实现技术向应用场景的转化，改变人类生活。

杨铭从业务和应用纬度拥抱多模态大模型

科技是创造未来的核心动力——蚂蚁集团研究员、百灵多模态大模型研发负责人杨铭一上台，就抛出了这句话。他表示，这是蚂蚁集团一直所坚信的。在这句话的引领下，在过去一年，蚂蚁集团集中力量技术攻坚交出了答卷：百灵语言大模型和多模态大模型。

蚂蚁为什么需要多模态大模型？杨铭介绍，蚂蚁具备丰富的多模态理解应用场景，可以分为两个维度来看。从业务纬度来看，有数字支付和数字金融；从应用纬度来看，有图文理解、视频分析、图像视频内容生成。为此，蚂蚁集团从无到有，收集了数十亿张中英文图文对，通过无监督学习，训练出一个百亿参数级别的图文理解基础大模型。

杨铭介绍，在图文模型的基础上，蚂蚁衍生出了很多下游的垂类模型，包括将图文理解模型应用到图文对话、视频理解，以及文生图、图生图等。有了图文对话的能力，从应用角度，蚂蚁开始逐渐落地到业务领域。譬如，广告内容审核就是业务领域的典型场景。在图文理解的基础上，蚂蚁引入了时序的建模，分析帧与帧之间的关系，理解运动，从而能将图文模型扩展成视频任务模型，支持视频到文本的检索、文本到视频的检索以及视频内容生成跟理解。

梁志辉大模型时代让所有人可被增强

360集团副总裁、360大模型应用负责人梁志辉认为，大模型时代模型跟人的关系不是取代而是增强。所有人无论在日常办公、企业营销上，大模型能将人的阅读、写作、查找的速度大幅提升起来。

生成式AI或生成式大模型并非万能，很多大模型现在还存在幻觉、缺乏行业知识、需要提示词工程等挑战。以提示词工程这一点为例，首先，提示词模板非常复杂，只有AI发烧友才有可能精通，这样不利于大模型的推广。其次，高质量内容很难靠大模型生成，要想推广大模型就要扬长避短。基于这种思考，他们选择以一种全新的人机协同方式落地——让大模型变成每个人的助手。

大模型的长处在于内容生成和内容理解。过去很长一段时间，看到很多聊天机器人的诞生。但这种机器人就像是小学生对大模型进行催眠，告诉大模型现在是某个角色，并按套路提供答案；但它并不了解产品、公司以及协作方式。

梁志辉表示，我们希望让大模型能够像一个掌握多种技能、具备行业知识，会使用多种工具的自主智能体Agent。这个Agent以整个互联网做它的知识背景，能够被训练，可以帮你查汇率、查天气，甚至订机票。基于千亿大模型和Agent架构，梁志辉分享了他们现在关注的三大场景的应用：智能营销、智能办公以及智能客服。

新终端，新交互

祝铭明 2024年XR技术热度可能超过AI

“未来5年，希望把所有人的眼镜换成智能眼镜。”这就是Rokid创始人&CEO Misa对不久的未来的坚定展望。在演讲中，Misa分享了他对AI与AR技术融合的看法，以及Rokid如何将这两项技术结合在一起，打造新一代人机交互平台。

2014年，Misa离开阿里巴巴，创立了Rokid。在他看来，AI和AR技术分别代表了对物理世界和数字世界的理解和交互能力，而他本人背负的使命，就是把AI和AR融合在一起，“融合成一件事情”。大家更容易被硬件抓住眼球，但实际上，Rokid不仅仅是一家眼镜公司，而是一家致力于AI和AR人机交互的公司。

行業目前有两条路线——一条是以Apple为代表的VST（Video See Through），是把用户包裹在一个纯粹的数字世界里，通过传感器把物理世界数字化、在虚拟世界里重建；一条则是Rokid选择的OST，更轻量化，在数字世界叠加真实世界，让用户用肉眼去感知。

Misa给出了自己的判断：短期内，两条路线没有对错，并将长期共存。“谁是更好，谁不好，还是交给时间去解决。”Misa最后表示，他相信2024年XR技术将取得更大的突破，热度甚至可能超过AI。

周围携手迈向智能体时代

2023年下半年开始，全球手机厂商纷纷加速，把大模型“塞”进手机。以vivo为例，该公司的大模型战略可总结为5点：大而全、算法强、真安全、自进化、广开源。具体做法围绕两步走，一是大模型开发，一是大模型落地。

vivo副总裁、OS产品副总裁、vivo AI全球研究院院长周围分享，蓝心大模型包含十亿/百亿/千亿三个参数量级，共5款大模型。如今70亿参数版本对外开源，130亿版本在端侧跑通。

大模型如此神奇，是因为它将人类数千年的文明知识进行了高维度的抽象，并压缩成每个人都可以获取的知识和信息。再来看大模型落地应用方面，vivo的软硬结合路线。硬件方面，和芯片厂商深度合作，加速大模型上手机；软件方面，推出多种应用形式、并和底层系统深度融合，让消费者能更快上手体验。

但脚步不应该在这里停滞。周围透露道手机厂商更加关注大模型应用给人带来的实际体验如何，因此他认为，大模型还要有像人类一样的逻辑思维、情感和价值观。在这一点上，最能完成体验闭环和商业闭环的场景就是落地在手机上，打造智能体。

栾剑入口在硬件，粘性靠生态

在小米看来，大模型有三要素：大数据、大参数、大任务。这里面哪个才是大模型产生泛化能力的关键？小米集团技术委员会AI实验室大模型团队负责人栾剑给出了他的观点：“我们觉得参数量并不是一个最关键的因素，小一点的模型也能产生泛化能力。”这一观点，也体现在了小米对大模型研发的全过程中。

小米大模型的突破點不是“大”，而是轻量化和本地部署。栾剑表示，这和小米的特色有关，小米有各种各样的硬件设备，是全球最大的消费级IoT平台，截至去年第三季度，联网设备总量近7亿，拥有5台以上小米IoT设备的用户数达到1370万。小米的想法是把大模型当作大脑，搭载到硬件设备中。

“小米特别关注的，并不是行业所说的通用大模型，也不是垂类大模型，而是场景大模型。从技术参数上来秀肌肉我觉得没有什么意义了，接下来我们回归到怎么把大模型用好。”小米还要探索同场景多设备协同、跨场景设备。栾剑表示云边端结合是将来发展很重要的一条路径。

栾剑认为大模型本身是一个入口，而跟操作系统深度融合，操作系统就是入口，归根结底操作系统需要一个硬件。至于用户粘性，要探索如何让大模型无处不在地融入日常生活。

新模式，新机遇

颜辰巍 AI要落地在端侧，才能实现真正大爆发

高通技术公司产品管理高级副总裁颜辰巍带来的思考是：AI最终要落地在端侧，才能实现真正大爆发。

为什么要在端侧支持生成式AI，高通有三点考量。一是云端AI模型推理成本高昂，当数十亿用户都在使用越加复杂的模型时，云计算推理综合成本会急剧增加，云经济难以支持生成式AI规模化扩展；二是大量数据本身就发生在端侧，在终端侧处理AI是最经济的，也能够更好地保护用户隐私；三是有些应用场景可能没有5G数据连接，比如在野外，车座舱里的司机与车交互的应用。这时候就必须有本地计算能力。所以只有当终端就能运行基于AI大模型的用例时，端侧与云侧能很好地结合，生成式AI才能大规模普及，发挥出所有的潜力。

为实现端侧AI算力突破，颜辰巍介绍到高通近期发布的两款专为生成式AI而打造的全新平台，面向PC的骁龙X Elite和面向智能手机的第三代骁龙8。颜辰巍指出，第三代骁龙8能够支持在终端侧运行高达100亿参数的生成式AI模型，并以20 token/秒的速度运行大语言模型，而骁龙X Elite是高通公司迄今为止面向PC打造的最强计算处理器，支持在终端侧运行超过130亿参数的生成式AI模型，凭借快达竞品4.5倍的AI处理速度，将继续扩大高通在AI领域的领先优势。

卞正达 AI大模型的挑战与系统优化

潞晨科技联合创始人兼CTO卞正达介绍了大模型的时代背景，AI模型训练成本日益增长的趋势。由此引入Colossal-AI框架，通过分布式算法来降低大模型的部署门槛和训练成本。

卞正达具体介绍整个框架的设计思路，主要包括三大核心技术。一是N维并行系统。卞正达团队发现此前市面上已有众多并行技术，但更多普通用户拿到实际需求以后，很难选择真正合适的并行方案，来转化成实际落地的解决方案。由此，Colossal-AI框架的核心思路是把目前最高效的并行技术整合到一套系统里，根据不同用户的需求选择合适的并行方案，同时提供最高效的落地实现。

第二点是高效的内存管理系统。卞正达表示，在深度学习训练中，计算较重的板块集中于存储开销比较少的部分，反而存储开销比较大的部分都集中在优化器的参数更新上。所以他们的思路是把冗余的存储开销放在比较便宜的存储设备上，反映到Colossal-AI框架中，他们通过自适应的管理系统实现更高效的管理参数的存放。

除此以外，Colossal-AI还实现了Chunk的管理系统，为异构的存储也提供灵活管理。通过上述系统优化，Colossal-AI框架大幅降低了部署AI大型模型的门槛，模型训练和推理速度都得到了提升。

吴韶华算法与数据需要同步改进

浪潮信息AI软件研发总监吴韶华，回顾了GPT-3到GPT-4/ChatGPT发生的重要变化。GPT-3是一种预训练大模型，直接通过提示词来使用；而GPT-4则在预训练之外，引入了微调和强化学习等技术，极大提升了模型的能力。

吴韶华分析认为，从GPT-3到GPT-4训练模式的变化需要算法与数据的同步改进。他拿实践经验来证明浪潮信息在这方面的思考：2021年9月，2457亿参数的经典Transformer结构大模型源1.0发布，2023年9月，浪潮信息又新发布了源2.0。两个版本的迭代的最主要改进，体现在三个方面——第一是算法的改进，第二是数据的改进，第三是计算的改进。针对多元异构芯片间P2P带宽的极大差异，浪潮信息提出了一种非均匀流水并行的分布式训练方法，大幅减少对芯片间互联带宽的需求。

源2.0发布后，浪潮信息发布了“源2.0大模型共训计划”。开发者可以将模型在应用场景中的能力缺陷进行反馈，浪潮信息研发团队将收集、清洗相关数据进行模型增强训练，训练后的模型将持续开源。