探讨RAG技术、AI代理及AI伦理挑战
6月27日,DeepSeek联合北京大学正式发布DSpark推理加速框架,并开源全栈训练库DeepSpec,由DeepSeek创始人梁文锋署名论文。这是DeepSeek完成500亿元融资后首个重大开源成果。
DSpark并非全新大模型,而是一套基于推测解码(Speculative Decoding)路线的推理加速框架,旨在解决大模型在高并发生产环境中的"响应慢、算力贵"瓶颈。已部署于DeepSeek-V4-Flash和DeepSeek-V4-Pro预览版引擎中。
核心技术创新: 1. 半自回归生成架构:并行主干网络一次性产出全部候选token,轻量级顺序模块注入前缀依赖信息,缓解了并行草稿模型后续位置接受率快速衰减的问题。两层Transformer深度的DSpark即可在测试中超过五层DFlash的接受长度。 2. 置信度调度验证:模型在每个候选位置输出置信度分数预测存活概率,硬件感知前缀调度器动态为每个请求决定验证长度,优先将算力分配给存活概率最高的token。 3. 异步调度器与动态变长验证:通过历史置信度确定截断长度隐藏调度延迟,解耦物理执行与逻辑序列跟踪支持动态调度。
实测表现: - V4-Flash:同等吞吐量下单用户生成速度提升60%-85%,SLA收紧至120 token/s时吞吐量提升661% - V4-Pro:生成速度提升57%-78%,50 token/s SLA下吞吐量提升406% - 离线测试中:在Qwen3系列上的平均接受长度比Eagle3提升约30.9%,比DFlash提升约16.3% - 整个提速过程无损输出质量,不改变模型原始生成分布
开源生态:DeepSeek已在GitHub以MIT协议开源DeepSpec全栈训练库,包含DSpark、DFlash、Eagle3三种草稿模型的训练代码、评估脚本及模型检查点,支持开发者基于Qwen、Gemma等模型训练定制草稿模型。
关注公众号
立刻获取最新消息及人工咨询