汤道生对话姚顺雨：腾讯AI，慢了吗？

发布时间：06-11

腾讯AI慢了吗？

在大模型浪潮中，腾讯似乎大多处于一个微妙的位置。它拥有国内最完整的互联网生态之一，也拥有混元大模型、元宝等产品。但与行业里那些不断制造话题和声量的AI大公司相比，腾讯似乎总给人一种「不够快」的印象——它很少站在聚光灯最亮的位置，却又始终没有缺席任何一场关键竞争。

而过去一年，AI行业最流行的词之一，则是「下半场」。

几乎所有人都在谈论AI下半场。但当越来越多人把这个词挂在嘴边时，它反而开始变得模糊——到底什么是下半场？是Agent？是Coding？是具身智能？还是下一轮模型竞赛？

在腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生，与腾讯首席AI科学家姚顺雨的这场对谈里，姚顺雨在开场就抛出了一句：AI下半场这个词，正在被滥用。

过去几年，大模型的发展路径似乎异常清晰：预训练、后训练、强化学习、Agent、Coding Agent，所有人都在沿着同一条主线前进。与此同时，中国AI圈也形成了一种熟悉的竞争文化——热衷刷榜、追逐指标、争夺排名。

但在姚顺雨看来，当方法论已经逐渐成熟之后，真正困难的事情已经不再是寻找技术路径，而是寻找值得解决的问题。相比benchmark上几个百分点的领先，模型如何进入真实产品、获得真实反馈、解决真实需求，正在变得更加重要。

当「AI下半场」被滥用

汤道生：顺雨，你加入腾讯之前，我曾问过你两个问题：为什么选择来到腾讯？以及你认为AI下半场最重要的是什么？

姚顺雨：首先我想先解释一下「下半场」这个概念——我发现这个词最近被用得有些泛滥，它其实是我在去年的一篇博客中提出的。具体来说，在去年之前，AI已经发展了数十年，行业的核心是寻找解决问题的有效方法；但如今，方法论已经趋于成熟，找到真正有价值的问题反而变得更加困难。

我举个例子，过去我们为了下围棋研发出AlphaGo，但这套方法仅适用于棋类领域；为了机器翻译开发专属模型，也只能完成翻译任务，无法拓展到其他场景。而预训练与后训练技术出现后，我们相当于拥有了一把「万能锤子」，形成了一套通用方法论，能够解决各类不同的问题。因此，找到真正值得解决的优质问题，成为了当前行业的核心挑战。我选择加入腾讯，很重要的一个原因就是这里拥有海量的产品和丰富的真实问题场景，这一点在AI下半场会愈发重要。

一方面，优质产品能够回答「预训练和后训练技术究竟要应用在何处才能产生价值」这个核心问题；另一方面，产品构建的生态环境至关重要——如果没有点外卖的工具接口，智能体就无法完成点外卖的操作，很多任务都无法落地。

但我认为更核心的是上下文（Context），无论是企业还是个人场景都是如此。上下文的重要性会与日俱增：模型越来越擅长将复杂输入转化为输出，企业的竞争壁垒将越来越多地来源于是否掌握最原始的输入数据，是否了解用户的真实行为与企业的核心信息，而腾讯在这方面拥有极强的优势。

但这只是我选择腾讯的第二大原因，最重要的其实是企业文化。我第一次和你以及总办其他高管交流时，最深刻的印象就是大家都非常坦诚：哪里做得好、哪里有不足，都会直白表达，不会刻意掩盖。这种实事求是的态度，是我最看重的一点。

其次，腾讯整体是一家基于信任而非单纯依靠指标运转的公司，这一点对于做AI而言至关重要。同时，腾讯文化中低调务实、谦逊踏实的特质，以及对长期主义的坚持，都是构建一个长期AI组织不可或缺的基础。

回到「AI下半场最重要的是什么」这个问题，我个人的目标是在中国建立一个长期的、基于通用人工智能（AGI）的组织。今天的AI主要由三个部分构成：第一是基础层，如何把预训练、后训练这些最核心的技术做得足够扎实；第二是产品层，如何将技术真正落地，为个人和社会创造价值；第三是前沿探索层，如何探索新的研究范式与产业机会。我们需要构建一个这三者均衡发展的三角形组织架构。

Co-Design：模型与产品的双向奔赴

汤道生：你刚才提到，产品为模型提供了运行环境和上下文数据。我想问一个我们内部经常讨论的问题：协同设计（Co-Design），也就是如何让产品与模型实现深度融合？目前我们有很多依赖模型能力的产品，比如元宝聊天机器人、AI搜索，企业端的智能客服、智能营销，还有近期热度很高的类Lobster产品，比如CodeBuddy、Workbuddy。你是如何思考协同设计这种模式的？

姚顺雨：我认为主要有三点。首先，协同设计的前提是模型本身要足够扎实，需要做好大量的基础工作。预训练是一个相对产品无关的环节，把它做扎实，就能为所有下游任务提供强大的通用基础，而且预训练的进步能够持续为各类下游任务带来价值提升。

其次，后训练阶段最重要的是建立正确的评测（Eval）体系。国内现在有一个不好的倾向，就是过度追求刷榜。我们应该实事求是，基于真实的产品和应用场景，构建更贴近实际的评测标准。

第三点，也是大语言模型（LLM）时代与过去AI最本质的区别，就是泛化性。在大语言模型出现之前，做翻译产品只需要打磨好翻译数据，做围棋程序只需要打磨好围棋数据；但现在，哪怕只想做一个代码智能体（Coding Agent），也需要模型具备优秀的聊天能力、搜索能力、指令遵循能力和推理能力，这是一个非常复合的能力体系。

这就带来一个推论：拥有体系化产品矩阵的企业会具备显著优势。比如我们和元宝的协同设计，让模型打磨出了强大的聊天和搜索能力，而这些能力又可以迁移到ima、Workbuddy等其他产品中。不同产品能够提供不同维度的数据，这些数据之间又可以相互泛化，形成一个网络状的价值体系，这种价值会越来越凸显。

汤道生：没错，其实外部刷榜也是评测的一种形式。那我们内部的评测和外部榜单的评测，核心区别在哪里？

姚顺雨：首先，各类基准测试（Benchmark）也不是没有价值，只是现在这些榜单很容易达到饱和。基于真实世界数据的评测有三个核心优势：

第一，能够发现模型的很多底线问题。我们发布预览版模型的核心目的之一，就是获取真实世界的用户反馈，修复各类榜单中无法发现的底线问题，这会让正式版模型的表现有质的提升。

第二，能够让我们对真实的用户提问分布有更深刻的理解。基准测试中的题目往往表述非常精确，有很长的上下文描述，且大多是单轮问题；但在现实场景中，用户的提问通常比较模糊，可能只有一两句话，还会不断追问。

第三，能够从产品中获得灵感，推动现有榜单未覆盖领域的技术进步。比如我们近期做的很多上下文学习相关工作，就很大程度上受到了元宝产品的启发。

汤道生：我记得早期做元宝的时候，我们还遇到过多轮指令遵循的问题，用户在产品中实际使用的提问方式，和基准测试中的差异确实非常大。真正的产品场景对模型能力的要求，和榜单评测的侧重点完全不同。

大模型没有秘密

汤道生：再一个问题，大家都说混元Hy3 preview是你在腾讯的首秀，Hy3具体做了哪些核心改变？

姚顺雨：其实做大模型的核心流程并没有太多秘密，关键是把基础设施、数据这些基础工作做扎实，算法部分反而相对简单。Hy3的核心改进主要有三点：第一，我们重建了整套基础设施，包括预训练和强化学习的基础设施；第二，我们在数据和Eval层面做了大量优化，包括如何定义更真实的问题、如何丰富数据的分类体系、如何持续提升数据质量——这是一个永无止境的过程；第三，很多决策其实没有清晰的公式可循，比如如何招人、如何设定模型的迭代节奏、如何在各种权衡中做出选择，这更多是一个依赖行业判断和品味的事情。

汤道生：我认为协同设计的内涵在过去两年一直在变化。给我最深的感受是「对齐」的重要性。在联合做产品、开展对齐工作时，会涉及很多不同的角色：产品团队要明确要解决的问题和方向，模型团队要思考如何通过技术满足需求；同时还要回到数据层面，明确数据应该如何标注、标注到什么颗粒度、什么是好的标注、什么是不好的标注，以及哪些行为需要奖励、哪些需要惩罚。

还有评测环节，如果产品团队认为好的产品体验，和评测体系的标准不一致，最终做出来的产品就会出现偏差。所以在我看来，协同设计更多是指项目组内不同角色共同参与产品设计，共同制定产品目标和方向，让大家对各类开放式问题达成共识。

姚顺雨：非常认同。协同设计最难的一点就是建立信任，同时同理心也非常重要。说到底，模型团队和产品团队的目标有一致的部分，也有不一致的部分：模型团队希望模型的通用能力越强越好，而产品团队希望用户的需求能被最好地满足，这中间天然存在分歧。所以换位思考的能力至关重要。

有一个很重要的细节：当时我们自己的预训练模型还没有准备好，但我们知道，维护好元宝这款产品及其日活跃用户（DAU），对我们后续做模型、建立长期合作关系都至关重要。所以我们派出了后训练团队最强的骨干力量，先帮助元宝把后训练工作做好。当时很多算法同学不理解这个决策，但现在看来，这些努力都得到了回报。这个动作让产品团队真切感受到，模型团队是真正在为产品着想，这为我们后续的合作，以及Hy3在元宝上的成功上线，奠定了非常重要的基础。

汤道生：你是ReAct架构的提出者，博士研究也一直围绕语言智能体展开。你几年前的一些观点，到今天有哪些兑现了？

姚顺雨：前几天我重读了自己的博士论文，感慨万千。我的博士论文题目是《Language Agents: From Next-Token Prediction to Digital Automation》，写于2019年，也就是7年前。那时候还是GPT-2的时代，模型只能生成下一个token，输出的一段话往往不连贯，还有很多错误。当时大家很难想象，这项技术有一天会成为改变世界的力量。

我博士期间的工作主要分为两部分：第一部分是建立智能体的方法论，研究如何把一个只能生成下一个token的机器，变成一个能够完成自动化任务的智能体。其中最重要的一项工作就是ReAct架构。我还记得2022年7月的一个晚上，我第一次把PaLM 2的API和我手写的维基百科API连接起来，它第一次能够基于网页内容回答问题，并进行多轮交互。那一刻的感觉，就像微弱的电灯丝突然被点亮了。据我所知，这是人类第一次把大语言模型和真正的互联网连接起来，实现多轮交互。

第二部分工作是定义数字自动化的任务，比如Webshop是第一个基于互联网的网页智能体任务，Intercode和SWE-bench是最早的代码智能体任务。现在看来，智能体技术最重要的两个方向，确实就是网页智能体和代码智能体。

混元下一代模型重点是什么？

汤道生：现在大家都说智能体的运行会消耗大量的Token，这对于混元下一代模型的研发来说，你的侧重点会放在哪里？

姚顺雨：毫无疑问，智能体尤其是代码智能体，就像当年的预训练一样，是所有模型厂商都必须攻克的基础能力。我认为代码智能体非常本质，一个很重要的原因是它具备图灵完备性——当模型能够控制文件系统、拥有运行容器时，它就成为了一个完整的系统。

智能体是当下所有模型厂商的发力重点，我们的做法主要有三个不同之处：第一，即便代码智能体是当前的核心，我们依然强调能力体系的全面性。我始终认为，要做好代码智能体，需要的远不止代码数据，还需要聊天、指令遵循、推理等各类通用能力，因为泛化性是大模型最核心的优势。

第二，产品的作用越来越重要，如何利用好线上产品的数据回流，是每个模型厂商都在思考和应对的问题。而我们之前积累的大量协同设计经验，会在这方面发挥关键作用。

第三，我们需要保持更多的想象力。无论是技术演进、产品演进，还是下一个范式的演进，都需要我们去做一些探索性的、存在不确定性的工作。

汤道生：从产品侧来看，现在行业内普遍存在「Token焦虑」，Token成本呈爆发式增长。如何让模型在解决问题、完成任务时，实现最高的Token效率？

姚顺雨：现在国内讨论性价比，更多是聚焦在模型架构上，但性价比其实是一个复杂的体系问题。我认为最重要的首先是模型性能。很多人跟我说，最后发现用Claude Opus这类高性能模型，反而比用性能较差的模型更省钱——因为它能一次把事情做对，既节省了Token，也节省了人力成本。所以性能才是性价比的核心，尤其是今年，提升简单任务的鲁棒性，让模型一次就能把相对简单的任务做对，比单纯优化模型架构更能提升性价比。

第二才是成本控制。在成本优化方面，中国其实是领先于世界的，我们已经做了大量工作来降低模型运行成本。但成本优化的核心，是如何用更小的模型完成高价值任务。

我个人认为，在当前的中国市场，打造一个性能比肩大模型、且在大部分任务上具备强鲁棒性的小模型，比在少数复杂的长程任务上实现一两个点的性能提升，更有实际价值。

智能体时代的产品研发和组织管理

汤道生：前阵子我帮Workbuddy团队写组织方案时，注意到他们采用了非常扁平化的组织架构，和我们过去其他产品的组织形式有很大差异。他们更多是3到5人组成一个小分队，围绕某一个具体领域攻坚，同时需要支撑好AI基础设施，保障各类实验顺利开展。

智能体产品的研发需要大量的实验，而大部分实验可能都不会得到正向反馈，这就需要组织能够包容试错，通过大量实验提炼出对用户留存、产品目标有正向帮助的方向。这是智能体时代、原生AI产品对组织形态的核心要求。

另外，过去工程师会花大量时间写代码，但现在这项工作基本可以交给AI完成。这带来了角色的融合：每个人都要像产品经理一样，深入理解用户需求，设计产品形态；每个工程师更像是有想法的负责人，驱动多个代码智能体完成研发工作。同时，测试、评测、对齐工作都要大幅前置，并且要充分利用AI能力来保障产品质量。

腾讯AI慢了吗？

姚顺雨：我觉得首先要明确两个核心判断：第一，AI是一场短期游戏还是长期游戏？我们的判断非常明确：AI是一场长期游戏。从某种程度上来说，AI才刚刚开始，下半场也才刚刚拉开序幕。我不认为ChatGPT和Claude Code会是唯一的超级应用，未来一定会有源源不断的新机会诞生，现在的AI行业，就像上世纪70年代个人电脑刚刚诞生的阶段，还有无数的事情等着我们去做。

第二，未来的AI行业会是更单一还是更多元？过去几年，行业确实有一条非常清晰的主线：预训练、后训练、强化学习、智能体、代码智能体，所有人都在沿着这条主线复制。但我个人认为，未来的AI行业一定会走向多元化。代码智能体带来的生产力变革会越来越重要，这个市场还有数万亿美元的空间等待挖掘。同时，多模态、具身智能等很多新的方向也在快速发展。从这个角度来说，如果我们认为下半场才刚开始，那就不存在「晚了」的说法。

当然，过去我们在模型和产品上做了很多探索，也走了一些弯路，这是很正常的——第一次做一件事情，必然会有曲折。但更重要的是，能否诚实地面对自己，能否正视反馈并及时调整，能否保持耐心。这些品质，在AI下半场会更加重要。

汤道生：大家总是喜欢挑腾讯的某一个点来批评，当然我们也欢迎大家对我们提出更高的要求。腾讯是一个拥有多业态、多产品的公司，很多团队在不同赛道同时推进不同的项目。在这样一个复杂的组织里，必然有些地方做得快，有些地方做得慢，也有些探索会失败。这些提醒对我们来说都非常宝贵，我们也确实有很多地方可以做得更好。

但正如你所说，这是一场长跑，一场马拉松。腾讯拥有极其丰富的场景，就像你一开始提到的，AI需要上下文，模型需要大量的真实数据。腾讯过去多年在不同产品、不同赛道的积累，都能为模型提供各个场景下的有效上下文，让技术真正发挥价值。