Step-R1-V-Mini是阶跃星辰于2025年4月推出的新一代多模态推理模型,代表了国产多模态AI技术的重大突破。该模型采用多模态联合强化学习框架,基于PPO(近端策略优化)强化学习算法,引入可验证奖励机制提升模型鲁棒性。通过合成数据训练解决了传统方法中的模态能力不平衡问题,在保持通用能力的同时,特别擅长处理需要跨模态理解的复杂推理任务。
模型在技术架构上实现了视觉、文本和推理能力的深度融合,能够构建分步推理链并进行自我验证,显著提升了多模态任务的准确性和可靠性。其创新性的训练方法结合了冷启动数据微调与强化学习,逐步提升模型在不同模态任务中的表现。