探讨RAG技术、AI代理及AI伦理挑战
腾讯AI慢了吗?
在大模型浪潮中,腾讯似乎大多处于一个微妙的位置。它拥有国内最完整的互联网生态之一,也拥有混元大模型、元宝等产品。但与行业里那些不断制造话题和声量的AI大公司相比,腾讯似乎总给人一种「不够快」的印象——它很少站在聚光灯最亮的位置,却又始终没有缺席任何一场关键竞争。
而过去一年,AI行业最流行的词之一,则是「下半场」。
几乎所有人都在谈论AI下半场。但当越来越多人把这个词挂在嘴边时,它反而开始变得模糊——到底什么是下半场?是Agent?是Coding?是具身智能?还是下一轮模型竞赛?
在腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生,与腾讯首席AI科学家姚顺雨的这场对谈里,姚顺雨在开场就抛出了一句:AI下半场这个词,正在被滥用。
过去几年,大模型的发展路径似乎异常清晰:预训练、后训练、强化学习、Agent、Coding Agent,所有人都在沿着同一条主线前进。与此同时,中国AI圈也形成了一种熟悉的竞争文化——热衷刷榜、追逐指标、争夺排名。
但在姚顺雨看来,当方法论已经逐渐成熟之后,真正困难的事情已经不再是寻找技术路径,而是寻找值得解决的问题。相比benchmark上几个百分点的领先,模型如何进入真实产品、获得真实反馈、解决真实需求,正在变得更加重要。

汤道生:顺雨,你加入腾讯之前,我曾问过你两个问题:为什么选择来到腾讯?以及你认为AI下半场最重要的是什么?
姚顺雨:首先我想先解释一下「下半场」这个概念——我发现这个词最近被用得有些泛滥,它其实是我在去年的一篇博客中提出的。具体来说,在去年之前,AI已经发展了数十年,行业的核心是寻找解决问题的有效方法;但如今,方法论已经趋于成熟,找到真正有价值的问题反而变得更加困难。
我举个例子,过去我们为了下围棋研发出AlphaGo,但这套方法仅适用于棋类领域;为了机器翻译开发专属模型,也只能完成翻译任务,无法拓展到其他场景。而预训练与后训练技术出现后,我们相当于拥有了一把「万能锤子」,形成了一套通用方法论,能够解决各类不同的问题。因此,找到真正值得解决的优质问题,成为了当前行业的核心挑战。我选择加入腾讯,很重要的一个原因就是这里拥有海量的产品和丰富的真实问题场景,这一点在AI下半场会愈发重要。
一方面,优质产品能够回答「预训练和后训练技术究竟要应用在何处才能产生价值」这个核心问题;另一方面,产品构建的生态环境至关重要——如果没有点外卖的工具接口,智能体就无法完成点外卖的操作,很多任务都无法落地。
但我认为更核心的是上下文(Context),无论是企业还是个人场景都是如此。上下文的重要性会与日俱增:模型越来越擅长将复杂输入转化为输出,企业的竞争壁垒将越来越多地来源于是否掌握最原始的输入数据,是否了解用户的真实行为与企业的核心信息,而腾讯在这方面拥有极强的优势。
但这只是我选择腾讯的第二大原因,最重要的其实是企业文化。我第一次和你以及总办其他高管交流时,最深刻的印象就是大家都非常坦诚:哪里做得好、哪里有不足,都会直白表达,不会刻意掩盖。这种实事求是的态度,是我最看重的一点。
其次,腾讯整体是一家基于信任而非单纯依靠指标运转的公司,这一点对于做AI而言至关重要。同时,腾讯文化中低调务实、谦逊踏实的特质,以及对长期主义的坚持,都是构建一个长期AI组织不可或缺的基础。
回到「AI下半场最重要的是什么」这个问题,我个人的目标是在中国建立一个长期的、基于通用人工智能(AGI)的组织。今天的AI主要由三个部分构成:第一是基础层,如何把预训练、后训练这些最核心的技术做得足够扎实;第二是产品层,如何将技术真正落地,为个人和社会创造价值;第三是前沿探索层,如何探索新的研究范式与产业机会。我们需要构建一个这三者均衡发展的三角形组织架构。
汤道生:你刚才提到,产品为模型提供了运行环境和上下文数据。我想问一个我们内部经常讨论的问题:协同设计(Co-Design),也就是如何让产品与模型实现深度融合?目前我们有很多依赖模型能力的产品,比如元宝聊天机器人、AI搜索,企业端的智能客服、智能营销,还有近期热度很高的类Lobster产品,比如CodeBuddy、Workbuddy。你是如何思考协同设计这种模式的?
姚顺雨:我认为主要有三点。首先,协同设计的前提是模型本身要足够扎实,需要做好大量的基础工作。预训练是一个相对产品无关的环节,把它做扎实,就能为所有下游任务提供强大的通用基础,而且预训练的进步能够持续为各类下游任务带来价值提升。
其次,后训练阶段最重要的是建立正确的评测(Eval)体系。国内现在有一个不好的倾向,就是过度追求刷榜。我们应该实事求是,基于真实的产品和应用场景,构建更贴近实际的评测标准。
第三点,也是大语言模型(LLM)时代与过去AI最本质的区别,就是泛化性。在大语言模型出现之前,做翻译产品只需要打磨好翻译数据,做围棋程序只需要打磨好围棋数据;但现在,哪怕只想做一个代码智能体(Coding Agent),也需要模型具备优秀的聊天能力、搜索能力、指令遵循能力和推理能力,这是一个非常复合的能力体系。
这就带来一个推论:拥有体系化产品矩阵的企业会具备显著优势。比如我们和元宝的协同设计,让模型打磨出了强大的聊天和搜索能力,而这些能力又可以迁移到ima、Workbuddy等其他产品中。不同产品能够提供不同维度的数据,这些数据之间又可以相互泛化,形成一个网络状的价值体系,这种价值会越来越凸显。
汤道生:没错,其实外部刷榜也是评测的一种形式。那我们内部的评测和外部榜单的评测,核心区别在哪里?
姚顺雨:首先,各类基准测试(Benchmark)也不是没有价值,只是现在这些榜单很容易达到饱和。基于真实世界数据的评测有三个核心优势:
第一,能够发现模型的很多底线问题。我们发布预览版模型的核心目的之一,就是获取真实世界的用户反馈,修复各类榜单中无法发现的底线问题,这会让正式版模型的表现有质的提升。
第二,能够让我们对真实的用户提问分布有更深刻的理解。基准测试中的题目往往表述非常精确,有很长的上下文描述,且大多是单轮问题;但在现实场景中,用户的提问通常比较模糊,可能只有一两句话,还会不断追问。
第三,能够从产品中获得灵感,推动现有榜单未覆盖领域的技术进步。比如我们近期做的很多上下文学习相关工作,就很大程度上受到了元宝产品的启发。
汤道生:我记得早期做元宝的时候,我们还遇到过多轮指令遵循的问题,用户在产品中实际使用的提问方式,和基准测试中的差异确实非常大。真正的产品场景对模型能力的要求,和榜单评测的侧重点完全不同。
汤道生:再一个问题,大家都说混元Hy3 preview是你在腾讯的首秀,Hy3具体做了哪些核心改变?
姚顺雨:其实做大模型的核心流程并没有太多秘密,关键是把基础设施、数据这些基础工作做扎实,算法部分反而相对简单。Hy3的核心改进主要有三点:第一,我们重建了整套基础设施,包括预训练和强化学习的基础设施;第二,我们在数据和Eval层面做了大量优化,包括如何定义更真实的问题、如何丰富数据的分类体系、如何持续提升数据质量——这是一个永无止境的过程;第三,很多决策其实没有清晰的公式可循,比如如何招人、如何设定模型的迭代节奏、如何在各种权衡中做出选择,这更多是一个依赖行业判断和品味的事情。
汤道生:我认为协同设计的内涵在过去两年一直在变化。给我最深的感受是「对齐」的重要性。在联合做产品、开展对齐工作时,会涉及很多不同的角色:产品团队要明确要解决的问题和方向,模型团队要思考如何通过技术满足需求;同时还要回到数据层面,明确数据应该如何标注、标注到什么颗粒度、什么是好的标注、什么是不好的标注,以及哪些行为需要奖励、哪些需要惩罚。
还有评测环节,如果产品团队认为好的产品体验,和评测体系的标准不一致,最终做出来的产品就会出现偏差。所以在我看来,协同设计更多是指项目组内不同角色共同参与产品设计,共同制定产品目标和方向,让大家对各类开放式问题达成共识。
姚顺雨:非常认同。协同设计最难的一点就是建立信任,同时同理心也非常重要。说到底,模型团队和产品团队的目标有一致的部分,也有不一致的部分:模型团队希望模型的通用能力越强越好,而产品团队希望用户的需求能被最好地满足,这中间天然存在分歧。所以换位思考的能力至关重要。
有一个很重要的细节:当时我们自己的预训练模型还没有准备好,但我们知道,维护好元宝这款产品及其日活跃用户(DAU),对我们后续做模型、建立长期合作关系都至关重要。所以我们派出了后训练团队最强的骨干力量,先帮助元宝把后训练工作做好。当时很多算法同学不理解这个决策,但现在看来,这些努力都得到了回报。这个动作让产品团队真切感受到,模型团队是真正在为产品着想,这为我们后续的合作,以及Hy3在元宝上的成功上线,奠定了非常重要的基础。
汤道生:你是ReAct架构的提出者,博士研究也一直围绕语言智能体展开。你几年前的一些观点,到今天有哪些兑现了?
姚顺雨:前几天我重读了自己的博士论文,感慨万千。我的博士论文题目是《Language Agents: From Next-Token Prediction to Digital Automation》,写于2019年,也就是7年前。那时候还是GPT-2的时代,模型只能生成下一个token,输出的一段话往往不连贯,还有很多错误。当时大家很难想象,这项技术有一天会成为改变世界的力量。
我博士期间的工作主要分为两部分:第一部分是建立智能体的方法论,研究如何把一个只能生成下一个token的机器,变成一个能够完成自动化任务的智能体。其中最重要的一项工作就是ReAct架构。我还记得2022年7月的一个晚上,我第一次把PaLM 2的API和我手写的维基百科API连接起来,它第一次能够基于网页内容回答问题,并进行多轮交互。那一刻的感觉,就像微弱的电灯丝突然被点亮了。据我所知,这是人类第一次把大语言模型和真正的互联网连接起来,实现多轮交互。
第二部分工作是定义数字自动化的任务,比如Webshop是第一个基于互联网的网页智能体任务,Intercode和SWE-bench是最早的代码智能体任务。现在看来,智能体技术最重要的两个方向,确实就是网页智能体和代码智能体。
汤道生:现在大家都说智能体的运行会消耗大量的Token,这对于混元下一代模型的研发来说,你的侧重点会放在哪里?
姚顺雨:毫无疑问,智能体尤其是代码智能体,就像当年的预训练一样,是所有模型厂商都必须攻克的基础能力。我认为代码智能体非常本质,一个很重要的原因是它具备图灵完备性——当模型能够控制文件系统、拥有运行容器时,它就成为了一个完整的系统。
智能体是当下所有模型厂商的发力重点,我们的做法主要有三个不同之处:第一,即便代码智能体是当前的核心,我们依然强调能力体系的全面性。我始终认为,要做好代码智能体,需要的远不止代码数据,还需要聊天、指令遵循、推理等各类通用能力,因为泛化性是大模型最核心的优势。
第二,产品的作用越来越重要,如何利用好线上产品的数据回流,是每个模型厂商都在思考和应对的问题。而我们之前积累的大量协同设计经验,会在这方面发挥关键作用。
第三,我们需要保持更多的想象力。无论是技术演进、产品演进,还是下一个范式的演进,都需要我们去做一些探索性的、存在不确定性的工作。
汤道生:从产品侧来看,现在行业内普遍存在「Token焦虑」,Token成本呈爆发式增长。如何让模型在解决问题、完成任务时,实现最高的Token效率?
姚顺雨:现在国内讨论性价比,更多是聚焦在模型架构上,但性价比其实是一个复杂的体系问题。我认为最重要的首先是模型性能。很多人跟我说,最后发现用Claude Opus这类高性能模型,反而比用性能较差的模型更省钱——因为它能一次把事情做对,既节省了Token,也节省了人力成本。所以性能才是性价比的核心,尤其是今年,提升简单任务的鲁棒性,让模型一次就能把相对简单的任务做对,比单纯优化模型架构更能提升性价比。
第二才是成本控制。在成本优化方面,中国其实是领先于世界的,我们已经做了大量工作来降低模型运行成本。但成本优化的核心,是如何用更小的模型完成高价值任务。
我个人认为,在当前的中国市场,打造一个性能比肩大模型、且在大部分任务上具备强鲁棒性的小模型,比在少数复杂的长程任务上实现一两个点的性能提升,更有实际价值。
汤道生:前阵子我帮Workbuddy团队写组织方案时,注意到他们采用了非常扁平化的组织架构,和我们过去其他产品的组织形式有很大差异。他们更多是3到5人组成一个小分队,围绕某一个具体领域攻坚,同时需要支撑好AI基础设施,保障各类实验顺利开展。
智能体产品的研发需要大量的实验,而大部分实验可能都不会得到正向反馈,这就需要组织能够包容试错,通过大量实验提炼出对用户留存、产品目标有正向帮助的方向。这是智能体时代、原生AI产品对组织形态的核心要求。
另外,过去工程师会花大量时间写代码,但现在这项工作基本可以交给AI完成。这带来了角色的融合:每个人都要像产品经理一样,深入理解用户需求,设计产品形态;每个工程师更像是有想法的负责人,驱动多个代码智能体完成研发工作。同时,测试、评测、对齐工作都要大幅前置,并且要充分利用AI能力来保障产品质量。
姚顺雨:我觉得首先要明确两个核心判断:第一,AI是一场短期游戏还是长期游戏?我们的判断非常明确:AI是一场长期游戏。从某种程度上来说,AI才刚刚开始,下半场也才刚刚拉开序幕。我不认为ChatGPT和Claude Code会是唯一的超级应用,未来一定会有源源不断的新机会诞生,现在的AI行业,就像上世纪70年代个人电脑刚刚诞生的阶段,还有无数的事情等着我们去做。
第二,未来的AI行业会是更单一还是更多元?过去几年,行业确实有一条非常清晰的主线:预训练、后训练、强化学习、智能体、代码智能体,所有人都在沿着这条主线复制。但我个人认为,未来的AI行业一定会走向多元化。代码智能体带来的生产力变革会越来越重要,这个市场还有数万亿美元的空间等待挖掘。同时,多模态、具身智能等很多新的方向也在快速发展。从这个角度来说,如果我们认为下半场才刚开始,那就不存在「晚了」的说法。
当然,过去我们在模型和产品上做了很多探索,也走了一些弯路,这是很正常的——第一次做一件事情,必然会有曲折。但更重要的是,能否诚实地面对自己,能否正视反馈并及时调整,能否保持耐心。这些品质,在AI下半场会更加重要。
汤道生:大家总是喜欢挑腾讯的某一个点来批评,当然我们也欢迎大家对我们提出更高的要求。腾讯是一个拥有多业态、多产品的公司,很多团队在不同赛道同时推进不同的项目。在这样一个复杂的组织里,必然有些地方做得快,有些地方做得慢,也有些探索会失败。这些提醒对我们来说都非常宝贵,我们也确实有很多地方可以做得更好。
但正如你所说,这是一场长跑,一场马拉松。腾讯拥有极其丰富的场景,就像你一开始提到的,AI需要上下文,模型需要大量的真实数据。腾讯过去多年在不同产品、不同赛道的积累,都能为模型提供各个场景下的有效上下文,让技术真正发挥价值。

为此,腾讯正式发布腾讯效率智能体工具集,帮助企业更安心、更高效地部署和应用智能体。这套工具集依托腾讯的三大核心能力:
第一是场景连接能力,通过微信、企业微信、元宝等高频场景触点,将大模型融入真实业务流,实现与用户、数据、生态的深度连接;
第二是工程驾驭能力,基于完整的混元研发体系,保障智能体稳定、可信、可持续运行,同时依托强大的AI基础设施,包括高速网络、高吞吐存储和高性能智能体运行时,实现GPU的高利用率;
第三是模型驱动能力,以混元大模型为核心,通过模型与产品的深度协同设计,兼顾实用性、性价比和投资回报率。
同时,腾讯将启动AI共创营第二期,携手独立软件开发商(ISV)、管理服务提供商(MSP)等合作伙伴,共同打造行业解决方案,树立更多标杆案例。
关注公众号
立刻获取最新消息及人工咨询