姚顺雨在腾讯的第一篇论文,吹响了冲进AI下半场的号角

来自:腾讯科技
发布时间:02-17

在所有国内的AI大厂里,腾讯在2025年底前都是最低调的那个。

直到2025年12月,原OpenAI的研究员姚顺雨被官宣加入腾讯,27岁就成为首席 AI 科学家,不到一个月后,前Sea AI Lab高级研究科学家庞天宇也官宣加入腾讯,担任混元首席科学家。

腾讯AI变阵,一时成为了行业最热门的话题。

据悉,姚顺雨主要主导的参与推动 AI 基础设施等组织调整。姚在OpenAI长期研究「推理—行动」范式、在去年,以一句「AI下半场更重要的是定义问题与评估」出圈。在《晚点》的报道中,「姚顺雨在一场内部会上发言,希望团队以后不要打榜,也不要盯着榜单做事。这和他过去的认知完全一致:真正决定模型能否走出 demo 的,不是再刷几个榜,而是你到底有没有把系统放进真实世界的约束里,并用真实世界的方式去评估它。

但他打算先从哪里下手做调整,他的理念确实会在腾讯中贯彻,并成为腾讯AI下一步的关键调整吗?

这些问题,随着姚顺雨在腾讯的第一篇带领混元团队的论文《CL-BENCH: A BENCHMARK FOR CONTEXT LEARNING》中得到了一些解答。 

这篇论文直指目前Agent和模型领域房间里的大象——上下文问题。

在去年年末,斯坦福的团队曾发现「上下文税」的问题。当模型在使用工具、执行推理时,token的消耗如同流水,上下文窗口还未填满时,模型就开始遗忘重要信息,要么干脆做不下去。因此Agent系统必须要拆到最细,走严格的SOP才走的通。

这说明,其实模型在长上下文的处理方面,并不如现有Benchmark所显示的那么优异。在长上下文中,它会混乱、遗忘、难以遵守规则。

而这是一个被所有人忽视的、制约AI真正走向实用的最大卡点。

CL-BENCH,正是去测试到底这个卡点有多大的一个新的评估标准。

01

上下文能检索,但并没有真的学进去

过往的著名的上下文Benchmark包括大海捞针(NIAH)、它的升级版本Ruler,主要考的是在上下文中准确检索一个或多个点。另一派 LongBench、ZeroScrolls 则主要是考察模型的上下文理解能力,比如是否可以做摘要、根据长上下文信息进行推理。在这些Benchmark中,当下的模型似乎都做的不错。标准 NIAH 测试,前沿模型已普遍达到近乎饱和,而LongBench v2之类的理解模型,模型得分也能以两倍的水平远超人类。

那为什么一进入Agent干活儿模式,模型就从上下文里学的这么差了?

因为真实场景任务所对应的上下文并不是简单的大海捞针类型,而且更加复杂,信息密度更大的复杂上下文。人类能从这些复杂上下文快速学习,并立即用学到的知识解决问题

比如一个律师拿到一份新的监管文件,需要立即理解其中的条款并为客户提供建议;一个工程师阅读一份刚发布的产品手册,需要快速掌握操作流程来排除故障。

这时候,你需要的知识就在手头的材料里,但你必须真正学会它,才能正确的用起来。

CL-bench测试的就是这样一种能力,混元团队称之为上下文学习(context learning)。这和我们更熟悉的 In Context Learning (ICL上下文学习)不太一样,ICL是指模型通过提示词里的少量示例或指令,学会怎么解决问题。它学的是映射关系/模式/格式。比如给 3 个输入输出例子,让模型照着把第 4 个也按同样格式分类、翻译、抽取字段。

在过往的研究中,很多学者认为ICL只是唤起模型在预训练中已经见过的模式。

而context learning则正相反,是指模型在一个任务里必须从给定上下文中吸收此前预训练没学过的知识(领域知识、规则系统、复杂流程、从数据归纳的规律),然后用这些新知识去完成任务,学的是内容本身,不是题型套路。

这在混元团队看来,才是真正的从上下文中学习的能力。也是我们人类日常工作中最常应用的一种能力。

按照论文里的表述「上下文学习代表了一种基础能力,它架起了静态参数化知识与真实世界应用动态需求之间的桥梁。」

为了测试模型是否有这样的能力,他们利用专家,构建了500个复杂上下文,平均每个包含10.4k token,最长可达65k token。

任务设计

这些上下文任务,覆盖了四个主要类型,19个子类。模拟了人类从「新手入职」「专家决策」的所有上下文学习任务。

1. 领域知识推理(模拟资深顾问):给模型一部虚构的《火星商业法》。它不能只检索条款,而要像律师一样,在全新的逻辑大厦里建立因果,进行权衡与决策。

2. 规则系统应用(模拟硬核玩家):给模型一套反直觉的新数学定义或游戏规则。模型必须「洗脑」自己,抑制预训练的肌肉记忆,在一个封闭的逻辑闭环里严丝合缝地推导。

3. 流程任务执行(模拟操作员):给模型一份复杂的 SOP 手册。考验的是长链条的执行纪律,错一步,满盘皆输。

4. 经验发现(模拟科学家):这是最高阶的挑战。给模型一堆杂乱的实验数据,让它自己归纳出背后隐藏的物理定律。这是从应用知识到「发现知识」的跨越。

为了保证模型不能依靠预训练知识来作弊,必须真正从提供的上下文中学习。这些上下文中包含的知识要么是完全虚构的,要么是对现有知识的修改,要么是极其小众的长尾内容。

为了验证这一点,研究团队让最强的GPT-5.1在不提供上下文的情况下尝试解答1000个随机抽样的任务,结果任务解决率只有0.9%。这说明没有上下文学习,这些任务确实对模型来讲几乎无解。

检验模式

怎么去检验其合理性呢?混元团队为每个上下文任务配备了平均16.6个验证规则(Rubics)。这些规则覆盖了事实正确性、计算准确性、程序完整性、格式遵循等多个维度。

每道题,必须满足全部规则,才算这题做对。哪怕你算出了正确数值,只要漏了单位、漏了关键假设、漏了要求的输出结构,就判 0 分。

(评分采用的是LLM as Judge的方法,这是对评分模型的Prompt)

 比如论文里有个电磁学的例子,模型算出了正确答案 27.0°,但它没有解释为什么假设磁场沿z轴,也没有说明坐标的单位,结果就是 0 分。

之所以设计这么严格的规则系统,是因为它要保证模型做对,是靠的学会了上下文。每个规则,都是对上下文关键分岔步骤的检验,在这几个岔口上,如果你没学到规则,就做不对

实验结果

他们评测了 10 个前沿模型,平均解题率只有 17.2%;最好的是 GPT-5.1(High),也只有 23.7%。在最难的经验与仿真任务类别上,整体平均只有 11.8%,尤其是观测数据与模拟环境子类,掉得更狠。


CL-bench 最有价值的地方之一,是它把大家心里那种对模型上下文能力不足的模糊概念,翻译成了结构化的失败类型。

他们的错误分析(Table 3)里,失败主要来自三类:

● 忽略上下文:该用的时候不用;

● 误用上下文:用是用了,但用错了适用范围、漏了例外、拼错了约束关系;

● 格式/约束不遵守:输出结构、流程顺序、硬性格式没满足。

而且这些错误的比例都相当高。以最强的 GPT-5.1 为例,忽略上下文足有 55.3%,误用上下文有 61.5%,而格式不遵守 则有35.3%

比如其中的一个例子,Gemini 3 Pro被要求为一个无人机物流系统生成操作伪代码。系统文档提供了详细的API说明,包括导航控制、载荷控制和安全控制三个模块。用户的请求故意违反了安全协议,要求使用一个不存在的函数来绕过检查。Gemini正确地拒绝了这个非法请求,识别出该函数不在文档中。但它未能生成完整的合规替代方案:它忽略了文档中明确要求的替代方案函数,也没有绑定任务中明确给出的具体参数。

另一个重要的发现就是,模型最差的上下文能力是归纳。在所有类型的题目中,第四类经验发现类题目的得分最低。模型很擅长之前benchmark里考的总结,它是一种复述和组织,而并不擅长归纳。因为归纳需要建模与泛化。

而且无论推理设置如何,所有模型的表现都随着上下文长度的增加而持续下降。Claude Opus 4.5的下降最为陡峭,在0-4K和32K+之间下降超过20个百分点。

这种能力缺失在实际应用中会带来什么后果?就是Agent无法完整的交付任务。真实的任务往往意味着大量的全新上下文和背景资料。所以你让AI当律师,它会漏法条。你让它当运营,它会把SOP的步骤理解错。你让它当客服,告诉它最低打8折,它给客户打到3折。

就算是23.7%的成功率,也是根本不能用。所以人们把Agent写的这么死,步骤拆得这么细。因为一次性上下文给完,它学不会。

02

长上下文的悖论

这个结果让人困惑,因为上下文能力一直是模型厂商竞争的焦点。

早在2023年,Kimi就凭借200K的上下文窗口在中国市场一炮而红,而现在百万token级别的上下文窗口已经成为旗舰模型的标配。各种大海捞针测试显示,前沿模型在超长文本中检索特定信息的准确率可以达到98%以上。GPT-5.2和Gemini 3的另一大卖点是指令遵循能力的提升,在IFEval等benchmark上表现优异。

那为什么它在CL Bench这个更符合真正工作逻辑的上下文学习评测上都栽了跟头?

这是因为近些年来的上下文机制背后的技术路线,目的都是把模型训练成了更能读、更能跑的机器。

于是第一波进展几乎都与让长上下文算得起有关,因为Transformer 的原生自注意力在计算复杂度上非常高,这就限制了模型的上下文长度。所以得压缩注意力。

比如FlashAttention,它不改模型在数学上怎么注意,而是改它在 GPU 上怎么计算,把中间张量和显存读写压下去。这样,同样硬件上能喂更长、跑更稳。

或者是MQA/GQA(分组注意力),通过分组,把推理时最贵的 KV 存储压缩掉,换取吞吐和长度空间。

后面的MLA、Kimi Liner等等,都是在做这样的处理。让模型尽量减少注意力的计算复杂度,在固定的算力和缓存下,能吃下更多的上下文。

第二波进展处理的准确性问题。因为注意力机制本身缺乏位置标记,在超过训练长度后位置感错乱、长距离依赖发散。 

于是大家做了两类事。一是位置编码外推(比如 RoPE),这让模型在更长的位置范围内还记住上下文的位置关系。二是用长上下文继续预训练,通过把更长文档结构喂给模型,让它更擅长读长材料。

这样它读长文更像回事了,更连贯、更能跨段引用。但这仍然偏阅读能力。读得懂,不等于做得到。 

第三波则是把长上下文问题改写成检索问题。比如做切块、向量检索、rerank,把最相关的几段针拿出来塞回模型;再加上引用约束,让答案看起来更可追溯。

这就是为什么大海捞针会越来越好。模型的训练,让它把找针变成了强项。

但注意力再快、窗口再长、检索再准,解决的主要是带宽与定位。它确实有用。在CL Bench中,我们能看到,上下文忽视率与模型整体能力呈负相关。这说明更强的模型确实能更好地关注相关信息。

而我们要模型能够按上下文行动,则要的是硬约束、流程化、可验证,并且全程正确。你得把那条信息转化为约束,并在后续每一步都不走样。但上下文误用率则在所有模型中都保持高位,即使是最强的模型也难以正确理解和应用这些信息。

这种能力,不靠更会读、更智能自动长出来。

比如论文里 GPT-5.1 高推理强度相对低推理强度,平均只涨 2.5%。推理有用,但不是灵丹妙药。因为很多失败不是想不出来,而是约束没执行到最后一公里。

这也解释了另一个反直觉现象:论文里 GPT-5.2(High)反而整体比 GPT-5.1(High)低 5.6%。具体来看,GPT-5.2在长上下文推理时难以维持连贯的因果链,频繁违反上下文中明确说明的约束。

这说明,目前的上下文进化,基本没有考虑到实用中的这些真正需求,并以此为目的训练模型。

03

绕道还是正面突破?

面对上下文学习的困境,学术界最近的努力方向主要是绕道。

Google的EvoMemory、Cornell的Clawedbot等工作都在探索如何通过反思、压缩、记忆系统来缓解上下文过长带来的问题。

基本思路是:既然模型处理不了这么长的上下文,那就想办法压缩它;既然模型会遗忘,那就建立外部记忆系统;既然一次性学习效果差,那就让模型反复迭代。

这些方法在特定场景下确实有效,但本质上都是在回避核心问题。更关键的是,这些方法引入了额外的系统复杂性、增加了延迟、提高了成本。在生产环境中,每增加一层抽象都意味着新的失败点和维护负担。

大家普遍认为这是架构层面的根本限制,Transformer的注意力机制可能天生不适合深度学习上下文。因此解决方案自然是绕道而行。

虽然本篇论文主要是构筑CL Bench这个新的评价标准,但混元团队还是在 Discussion 章节中给了四条工程上直接面对这个问题的方向。核心就在于,把上下文学习这个缺了的课,在训练中给补上。

第一,训练数据要强上下文依赖。要去构造那些预训练里几乎不可能学到的新知识,让模型不得不靠上下文完成任务,而不是靠常识和模板混过去。

第二,用课程学习把难度分级。先练基础的上下文理解与简单约束,再逐步上多规则、多例外、多步骤的复杂任务。因为模型在 CL-bench 的失败说明,把模型直接丢进 60k 的复杂材料里,很多时候它不是不会,而是直接失稳。

第三,是让 rubrics 规则从评测工具变成训练信号。他们强调 rubrics 规则提供了细粒度反馈,但人工写太贵(每个上下文都花了20个小时),所以他们提出了合成 rubrics的方向,最终能用迭代生成,把「你到底漏了哪条约束」变成模型能收到的强化信号。

第四,架构需要面向上下文利用的创新:他们很克制,没有在这篇里给出具体结构,但方向指向很清楚,就是比如DeepSeek最近的那种显式记忆结构、多轮处理、多通路处理不同类型上下文等。这里的关键词不是更长,而是更能把上下文变成内部可调用的知识。

这些方向的共同点是:不回避问题,直接训练模型获得上下文学习能力。这才是唯一能真正解决问题的路径。

绕道终归是绕道,真正的突破需要正面攻坚。

04

混元的新起点

回到开头的那几个问题。这篇论文多少能回答一些。

从逻辑上看,它完全就是姚顺雨「AI下半场」宣言的,第一个落地的方向。

在姚顺雨的视野中,AI的下半场是从拼参数量、拼训练数据、拼benchmark分数,转向解决真实世界的实际问题。

第一个要解决的就是卡着Agent脖子的上下文。

在论文的最后,作者写到「只有当模型能够快速内化完全陌生的上下文,并精确地应用那些知识来解决问题时,人工智能才能超越知识库的限制,演变成真正的推理agent。」

目标很明确。

所以,这篇论文至少代表了他的这一理念当下确实会在腾讯中贯彻。因为这个平均分只有17.1%的Benchmark,肯定不是用来刷分的,而是用来标记路径和能力边界的。

而这会是对混元团队研究价值观的一种重塑,同时也是对腾讯AI态度的一个很好的诠释。

这项研究本身就在叙述着,有时候,最重要的进步不是跑得更快,而是知道该往哪里跑。

好文章,赞一下
8197
人工导购
咨询服务