探讨RAG技术、AI代理及AI伦理挑战
今天大部分企业看待 Token 经济的心情十分复杂——一方面,Token 的价格已经打到了地板;另一方面,Agent 燃烧积分/Token,生产账单的速度仍然很快。尤其是当这些企业把 AI 从偶尔试用转向业务系统集成时,ROI 完全无法取得平衡,有的只是足够茂盛的焦虑。
参与 SWE-bench 编程评测基准的主流 Agent 系统技术报告显示(2025 年),完成一个标准编程任务,最先进的 Agent 系统平均需要调用 API 30 到 60 次,一次任务的成本在 0.07 到 0.75 美元之间。切换到实际开销,以当前最流行的 Agent 框架 Claude Code 为例,来自 Artificial Analysis 的数据显示,如果使用 GLM-5.1 模型,单次任务的 Token 成本高达 2 美元以上。
层层叠加,导致 Token 单价虽然降了 99%,但消耗量涨了 30 到 100 倍。诚如李彦宏在 2026 年 5 月 13 日举办的百度 Create 大会上所说:Token 只是代表成本,并不代表收益;它衡量的是投入,而不是产出。关注有多少 Agent 在给人类干活,并交付结果。这比无谓的 Token 消耗,更接近价值,也更接近本质。

仔细数数,所谓的旧供给,其实也只有 1-2 年的服役历史。
沙利文在 2025 年曾发布中国全栈 AI 云服务市场报告,但核心主语是 AI。今天百度的升级可以总结为新需求,新全栈,新供给,核心主语是 Agent。
主语的变化,背后意味着背后的技术工作,最具代表性的领域即是 KV Cache(键值缓存)的命中率提升。
大模型推理过程中,每处理一个 token,都需要对整个上下文历史进行大量矩阵运算。KV Cache 把这些中间运算结果保存下来,避免每次都重新计算。在 Agent 时代,这个机制变成了系统性能的命脉——Agent 的多轮调用之间上下文高度重叠,如果 KV Cache 命中,就不需要重新推理整个上下文,速度和成本都会大幅改善。
大模型的定价机制从侧面印证了 KV Cache 的真实价值:Anthropic 对命中缓存的 token 提供 90% 折扣,OpenAI 提供 50% 折扣,Google 提供 90% 折扣。
百度智能云的发布新全栈 AI 云,架构更新包含两个主要层次:Agent Infra(Agent 基础设施层)和 AI Infra(AI 算力基础设施层)。在 Agent Infra 上,追求把单位 Token 的智能水平做到最好。在 AI Infra 上,追求提供每瓦性能更强、性价比更高的 AI 算力,把 Token 效能做到极致。
百度官方表示,原有的MaaS 模型服务已升级为Token Factory 词元工厂。以 Agent-first 理念重构产品架构,推理生成速度较市场水平提升约 25%。支持文心、DeepSeek、GLM、MiniMax 等国产主流模型的调用。
百度在 Agent Infra 层引入了三个关键升级:Agent Harness、模型服务、Agent Runtime。
AI Infra 层的核心是 KV Cache 的系统性处理。百度采用了三级存储池化设计:HBM(显卡高速内存)→ 内存(CPU Memory)→ SSD(固态硬盘)。百度公开称,这套方案在生产环境中实现了超过 90% 的 KV Cache 命中率,是业界最高水平。
此外,百度还宣布在 Agentic 强化学习场景下的训练效率和强化学习效率提升达到 100% 以上。
在基础设施层面,百度智能云也公布了吉瓦级 AIDC 升级,通过网络向心布局设计理念,让计算与网络距离最短,最大限度提升计算效率,规模化落地风液兼容架构,让数据中心的整体建设周期缩短约 30%。
百度这次提出的全栈架构,多数能力已经在生产环境中跑了相当时间。这套架构的重点是进化升级,以及彼此协同。
招商银行已上线 800 余个 AI 应用,活跃在风控、营销、研发和日常办公等核心场景,其中超过 50% 跑在百度昆仑芯 P800 国产算力上。
汽车行业里,百度与长安共建的智算中心算力规模达到每秒 142 亿亿次,持续支撑自动驾驶模型的训练和迭代,长安也因此成为工信部批准 L3 自动驾驶量产产品的两家车企之一。
能源侧,国家电网通过百度智能云已覆盖 800 余座变电站,AI 开始进入过去最依赖人工巡检的基础设施场景。
有一个在产业史上反复出现的规律是:在范式转型期,第一个建好新供给体系的,获得的往往不只是市场份额,而是代际的架构优势。
AI Agent 时代,类似的逻辑正在展开。对企业用户而言,新全栈供给体系的直接意义是:把 AI 落地失败的可能性从技术层面降低了。
同时,AI 基础设施也正从模型竞争阶段进入架构竞争阶段。前几年的核心命题是谁的模型能力更强、Benchmark 更高;接下来的核心命题是谁的系统能在真实企业场景里稳定跑起来、成本可控、性能可期。
关注公众号
立刻获取最新消息及人工咨询