多模态模型
推理模型
| 版本名称: | 千寻Spirit v1.5 |
| 所属模型: | Spirit |
| 所属公司: | 千寻智能 |
| 发布时间: | 2026年1月12日 |
| 最新版本: | v1.5 |
| 参数规模: | 未披露 |
| 上下文长度: | 未知 |
| 支持语言: | 中文,英文 |
| 授权协议: | 开源协议 |
| 体验方式: | https://huggingface.co/Spirit-AI-robotics/Spirit-v1.5 |
千寻Spirit v1.5是由千寻智能研发的视觉-语言-动作(VLA)统一架构的具身智能基础模型。该模型采用端到端的统一建模框架,将视觉感知、语言理解与动作生成整合在同一决策流程中,减少多模块串联带来的信息损耗,提升长程任务中的整体稳定性。
模型的核心创新在于预训练数据范式的根本性重构,摆脱传统"干净数据"的诅咒,转向开放式、目标驱动的数据采集策略。通过海量互联网视频数据进行预训练,建立物理常识,再用真实遥操作数据微调,使模型习得类似人类的物理常识和纠错恢复能力。
在技术架构上,Spirit v1.5采用多样化、弱控制的数据采集范式,构建连续的技能流形,内化纠错与恢复能力,展现出卓越的跨场景泛化能力和系统层面的稳定性。
工业制造:在宁德时代电池PACK产线中,负责高压测试插头插接、线束检测等关键工序,插接成功率稳定超过99%,作业效率比人工提升3倍。
家庭服务:适用于桌面环境中的多样化操作任务,包括插花、整理物品、制作三明治、挂牙刷杯、清扫垃圾等日常家务场景。
医疗辅助:可用于手术辅助机器人,通过触觉反馈帮助医生精准操作,提升手术精度和安全性。
老年陪护:能够监测老人健康状况,感知异常情况并及时报警,提供情感陪伴和日常协助。
关注公众号
立刻获取最新消息及人工咨询