DeepSeek V4正式发布,昇腾超节点系列产品全面支持

来自:华为
发布时间:04-24

2026年4月24日,DeepSeek V4-Pro和DeepSeek V4-Flash正式发布并开源,模型上下文处理长度由原有的128K显著扩展至1M,实现近10倍的容量提升,首次增加了KV Cache滑窗和压缩算法,大幅减少Attention计算和访存开销。

昇腾一直同步支持DeepSeek系列模型,本次通过双方芯模技术紧密协同,实现昇腾超节点全系列产品支持DeepSeek V4系列模型。

昇腾950超节点性能

基于DeepSeek V4-Pro模型,在8K输入场景,昇腾950超节点可实现TPOT约20ms时单卡Decode 吞吐4700TPS。DeepSeek V4-Flash模型,8K长序列输入场景下可实现TPOT约10ms时单卡Decode 吞吐1600TPS。

极低时延源于昇腾950三大架构升级:原生精度加速(FP8、MXFP8、MXFP4),稀疏访存优化,Vector与Cube共享Memory。

昇腾A3超节点性能

Atlas 900 A3 SuperPood液冷超节点及Atlas 800 A3风冷超节点采用平等架构、全局内存统一编址。基于昇腾A3 64卡超节点,DeepSeek V4-Flash模型可实现2000+TPS单卡Decode吞吐。

开源工具发布

昇腾CANN推出PyPTO编程范式,提供Python API进行算子开发,使DeepSeek V4新一代模型算子开发周期可缩短至天级。TileLang-Ascend社区生态同步开源。

昇腾A2、A3及950全系列产品适配DeepSeek V4-Flash、DeepSeek V4-Pro。

好文章,赞一下
2223
人工导购
咨询服务