千寻Spirit v1.5是由千寻智能研发的视觉-语言-动作(VLA)统一架构的具身智能基础模型。该模型采用端到端的统一建模框架,将视觉感知、语言理解与动作生成整合在同一决策流程中,减少多模块串联带来的信息损耗,提升长程任务中的整体稳定性。
模型的核心创新在于预训练数据范式的根本性重构,摆脱传统"干净数据"的诅咒,转向开放式、目标驱动的数据采集策略。通过海量互联网视频数据进行预训练,建立物理常识,再用真实遥操作数据微调,使模型习得类似人类的物理常识和纠错恢复能力。
在技术架构上,Spirit v1.5采用多样化、弱控制的数据采集范式,构建连续的技能流形,内化纠错与恢复能力,展现出卓越的跨场景泛化能力和系统层面的稳定性。