国家队出手!北京人形推出全球首个统一具身智能模型

来自:智东西
发布时间:05-17

2026年5月16日,北京人形机器人创新中心推出全球首个按"大一统"思想训练的具身智能模型——Pelican-Unify 1.0。

作为通用具身智能平台"慧思开物"的核心组件,它试图回答一个关键问题:一个真正面向物理世界的智能体,究竟应该如何构建?北京人形给出的答案是,具身智能要走向"理解-推理-想象-行动"闭环智能

这一思路的威力,在第三方权威评测中得到了验证:Pelican-Unify 1.0在由清华、普林斯顿、北大等八所顶尖机构联合发起的World Arena全球评测中,以66.03的EWM综合得分登顶世界第一。

继旗下WoW具身世界模型登顶World Arena Data Engine(数据引擎)赛道后,北京人形由此成为全球唯一在World Arena两大核心赛道同时夺冠的企业,加冕具身智能领域首个"双冠王"。

一、拿下两榜SOTA,机器人真的会先预演再行动

具身智能模型的难点,在于多种能力能否在同一个物理闭环中相互支撑。

北京人形把Pelican-Unify 1.0放进三个体系中检验:作为视觉语言模型,看它是否真正理解场景和指令;作为视觉运动策略,看它是否能稳定完成机器人动作;作为行动条件世界模型,看它是否能在动作发生前想象未来状态。

结果显示,统一模型并没有因为"大一统"而牺牲单项能力。Pelican-Unify 1.0综合能力大幅超越基座Qwen3-VL-4B-Instruct,理解能力测评分数从58.2分升至64.7分,在空间接地、物理理解类具身基准中提升幅度尤为显著。

该模型视觉运动策略表现出众,通过RoboTwin五十项双臂任务测试,整体成功率达93.5%,多数高难度实操任务完成度极高。

该模型还登顶世界模型测评World Arena榜单,EWM得分66.03位居榜首,3D空间精度与物理运动质量两项核心指标同样领先,充分彰显其出色的空间构建、物理逻辑与行动约束把控能力。

在真实机器人验证中,Pelican-Unify 1.0被部署到UR5e机械臂与天宫人形机器人上,重点测试组合泛化和零样本迁移。

第一个考验是组合泛化。在UR5e上,团队仅用"插入RJ45接头"和"做防水处理"这两个原子任务的训练数据,从未让模型见过两者串联的完整演示。测试时,机器人收到一条自然语言指令:"将RJ45线缆插入3号端口并做防水处理"。它必须连续完成A再完成B。传统的VLA基线在此失败,因为它们缺少"A完成后应该发生什么"的表征。而Pelican-Unify 1.0在完成插线后,其想象模块基于当前场景和任务意图,自主"渲染"出下一步防水操作前的未来状态,行动模块随即接续执行。在没有见过任何完整串联示范的情况下,它成功了。这是"先想象,再行动"最直接的证据。

第二个考验是零样本迁移。在天宫人形机器人上,模型仅用5个见过任务加上3个未见任务极少量(每任务50段)的视频序列进行训练。面对全新的场景和任务,它依然能够在人类盲测评估中获得最高分。这充分证明了,一个通过"理解-推理-想象-行动"闭环训练出来的基础模型,其内化的物理常识与任务逻辑,能够支撑其在陌生环境中做出合理行为。

二、首个统一训练具身基础模型:理解、推理、想象、行动本是一个闭环

Pelican-Unify 1.0背后,是北京人形对"物理智能"本质的一次深刻反思。

行业碎片化的开发模式,其深层假设是智能可以像积木一样,先分别造出"看懂世界"、"规划路径"、"想象未来"和"执行动作"的模块,最后再拼起来。

但北京人形认为,对于一个必须在物理世界中持续进化的智能体而言,理解、推理、想象与行动从来就不是孤立的心理过程,而是同一智能闭环中不可分割的侧面。

基于这一主张,Pelican-Unify 1.0实现了三种真正的"统一":

第一,统一理解。模型不再将视觉、语言、历史信息分别编码再拼接,而是通过一个共享的语义空间,将当前场景、语言指令、过去的动作历史、以及世界的实时状态,一次性映射为一个整体的、面向行动的任务状态。

第二,统一推理。Pelican-Unify 1.0把任务意图、动作选择和未来后果转化为语言化、可监督的思维链,并进一步压缩为稠密潜变量z。这个z不是普通模块接口,而是理解、推理、想象和行动共享的闭环状态。

第三,统一生成。这是最核心的技术突破。基于共享潜变量z,模型在同一个扩散解码过程中,联合生成未来的视频帧和未来的底层动作序列。视频token和动作token在同一个共享的扩散Transformer中交互、相互约束。

三、模型架构与技术实现:不拼接、不流水线,一个模型包圆

Pelican-Unify 1.0之所以能实现上述的"大一统",其背后的架构设计是一场从零开始的紧耦合设计。整个模型由两大组件构成:

1、统一编码器——相当于大脑的"理解与推理"区域。基于Qwen3-VL视觉语言模型初始化,将多模态输入"吃"进去,自回归地生成思维链推理轨迹。

2、统一未来生成器——相当于大脑的"想象与行动"区域。基于Wan2.2扩散Transformer初始化,在统一的去噪过程中,同时"绘制"出未来的视频隐变量和未来的行动轨迹。

训练目标则是驱动这个大脑运转的"三股合力":语言损失、视频损失、行动损失。这三项损失通过同一个共享表征反向传播,意味着"看、想、动"在梯度的层面上相互塑造。

结语:Agent热潮进入机器人身体,具身智能迈入统一范式时代

过去一年,Agent成为AI产业最热的关键词。但当Agent走出屏幕、进入机器人身体,它面对的难度会骤然上升。一个真正有用的机器人Agent,它必须知道自己身处什么环境,推理任务如何完成,想象动作会带来什么变化,并在行动后用新结果更新下一轮判断。

Pelican-Unify 1.0的意义在于向整个行业清晰地揭示了一个方向:通用具身智能的下一阶段,关键词是"更统一"。把智能作为一个能够将"看见、思考、想象、行动"融为一体、并在与物理世界的持续交互中协同进化的自适应系统。

当机器人开始学会"预演未来",Agent的智能,终于有了物理的落脚点。迈向通用具身智能的赛道上,一个全新的统一范式时代,已然开启。

好文章,赞一下
6753
人工导购
咨询服务