DeepSeek联合北大发布DSpark推理加速框架，高并发下生成速度提升超60%

发布时间：4小时前

6月27日，DeepSeek联合北京大学正式发布DSpark推理加速框架，并开源全栈训练库DeepSpec，由DeepSeek创始人梁文锋署名论文。这是DeepSeek完成500亿元融资后首个重大开源成果。

DSpark并非全新大模型，而是一套基于推测解码（Speculative Decoding）路线的推理加速框架，旨在解决大模型在高并发生产环境中的"响应慢、算力贵"瓶颈。已部署于DeepSeek-V4-Flash和DeepSeek-V4-Pro预览版引擎中。

核心技术创新： 1. 半自回归生成架构：并行主干网络一次性产出全部候选token，轻量级顺序模块注入前缀依赖信息，缓解了并行草稿模型后续位置接受率快速衰减的问题。两层Transformer深度的DSpark即可在测试中超过五层DFlash的接受长度。 2. 置信度调度验证：模型在每个候选位置输出置信度分数预测存活概率，硬件感知前缀调度器动态为每个请求决定验证长度，优先将算力分配给存活概率最高的token。 3. 异步调度器与动态变长验证：通过历史置信度确定截断长度隐藏调度延迟，解耦物理执行与逻辑序列跟踪支持动态调度。

实测表现： - V4-Flash：同等吞吐量下单用户生成速度提升60%-85%，SLA收紧至120 token/s时吞吐量提升661% - V4-Pro：生成速度提升57%-78%，50 token/s SLA下吞吐量提升406% - 离线测试中：在Qwen3系列上的平均接受长度比Eagle3提升约30.9%，比DFlash提升约16.3% - 整个提速过程无损输出质量，不改变模型原始生成分布

开源生态：DeepSeek已在GitHub以MIT协议开源DeepSpec全栈训练库，包含DSpark、DFlash、Eagle3三种草稿模型的训练代码、评估脚本及模型检查点，支持开发者基于Qwen、Gemma等模型训练定制草稿模型。

收藏微博微信

好文章，赞一下

2030

探讨RAG技术、AI代理及AI伦理挑战

CIO如何驱动业务增长

鸿蒙生态：基于开源鸿蒙共建共享的生态

五部门联合启动2026新能源汽车下乡：以旧换新不限名额，155款车型入选五部门印发2026新能源汽车下乡活动通知，155款车型目录公布数字经济专业有哪些核心课程？一文详解20门重点课程数字经济专业遍地开花：百余所高校布局，985/211院校各有侧重什么是循环工程（Loop Engineering）：AI编程的第四次范式跃迁微信开启原生AI助手“小微”小范围测试：深度整合生态，支持一句话操控全功能交换机四种光互联技术：OIO、OBO、NPO与CPO 本地向量数据库选型：阿里开源 Zvec 如何用pip install解决AI应用的RAG痛点 DeepSeek识图模式全量上线App和网页端补齐多模态能力短板从 Vibe 到 Harness：AI 编程范式的三层演进与落地指南

企业数智化服务平台

www.QiShuZhi.com

关于我们

内容服务

产品服务

联系我们

微信

小红书

企数智，企业数智化服务平台

Copyright QiShuZhi.com, All Rights Reserved.

津ICP备14003781号-9

回顶部