倪光南 院士
探讨RAG技术、AI代理及AI伦理挑战
2026年4月24日,DeepSeek V4-Pro和DeepSeek V4-Flash正式发布并开源,模型上下文处理长度由原有的128K显著扩展至1M,实现近10倍的容量提升,首次增加了KV Cache滑窗和压缩算法,大幅减少Attention计算和访存开销。
昇腾一直同步支持DeepSeek系列模型,本次通过双方芯模技术紧密协同,实现昇腾超节点全系列产品支持DeepSeek V4系列模型。
基于DeepSeek V4-Pro模型,在8K输入场景,昇腾950超节点可实现TPOT约20ms时单卡Decode 吞吐4700TPS。DeepSeek V4-Flash模型,8K长序列输入场景下可实现TPOT约10ms时单卡Decode 吞吐1600TPS。
极低时延源于昇腾950三大架构升级:原生精度加速(FP8、MXFP8、MXFP4),稀疏访存优化,Vector与Cube共享Memory。
Atlas 900 A3 SuperPood液冷超节点及Atlas 800 A3风冷超节点采用平等架构、全局内存统一编址。基于昇腾A3 64卡超节点,DeepSeek V4-Flash模型可实现2000+TPS单卡Decode吞吐。
昇腾CANN推出PyPTO编程范式,提供Python API进行算子开发,使DeepSeek V4新一代模型算子开发周期可缩短至天级。TileLang-Ascend社区生态同步开源。
昇腾A2、A3及950全系列产品适配DeepSeek V4-Flash、DeepSeek V4-Pro。
关注公众号
立刻获取最新消息及人工咨询