倪光南 院士
探讨RAG技术、AI代理及AI伦理挑战
今天上午,DeepSeek API 文档上线,正式发布了 DeepSeek V4 新版本。此次提供两个版本:DeepSeek-V4-Flash(284B参数,13B激活)和 DeepSeek-V4-Pro(1.6T参数,49B激活)。
两个版本均支持100万Tokens上下文长度,最大输出为384K tokens。同时支持"非思考模式"与"思考模式",思考模式支持 reasoning_effort 参数设置思考强度(high/max)。
采用混合注意力架构,结合压缩稀疏注意力(CSA)和高度压缩注意力(HCA);引入流形约束超连接(mHC)增强传统残差连接;使用 Muon 优化器加速收敛和提高训练稳定性。DeepSeek-V4-Flash 使用32T Tokens训练数据,DeepSeek-V4-Pro 使用33T Tokens。
DeepSeek-V4-Pro 相比 DeepSeek-V3 降低73% FLOPs,减少90% KV缓存在推理、编程和世界知识任务中表现优异。
华为昇腾采用 CAN N 芯片,昇腾平台首发直播于当天下午4点进行。寒武纪已完成基于 vLLM 推理框架的 Day 0 适配,适配代码已开源到 GitHub。
开源链接:https://huggingface.co/collections/deepseek-ai/deepseek-v4
关注公众号
立刻获取最新消息及人工咨询