探讨RAG技术、AI代理及AI伦理挑战
DeepSeek创始人梁文锋近日在内部沟通中透露,DeepSeek新一代旗舰大模型DeepSeek V4将于4月下旬正式发布。据多位知情人士确认,该模型将在参数规模、上下文窗口和国产芯片适配等方面实现重大突破。
据内部消息透露,DeepSeek V4将采用1万亿参数的MoE(混合专家)架构,推理时仅激活370亿参数,在保持高性能的同时实现效率最大化。相比DeepSeek V3,推理速度提升35倍,能耗降低40%。上下文窗口达到百万级,可处理更长文本和更复杂的专业任务。
此次V4版本最重要的技术突破,在于推理阶段首次全面适配华为昇腾等国产AI芯片,成为国内首个在全链路算力上彻底摆脱英伟达CUDA依赖的万亿级大模型。这一步被业内视为中国大模型产业"去CUDA化"的里程碑,标志着国产大模型与国产算力完成底层协同。
近期DeepSeek网页端及App端已上线"快速模式"与"专家模式"两种对话选项。快速模式主打日常对话和即时响应;专家模式擅长处理复杂推理、代码和学术难题,上下文窗口可达100万Tokens。面对用户关于"专家模式是否基于V4"的提问,DeepSeek官方明确回应"专家模式是V4版本更新的核心功能",相当于间接证实了这一猜测。
此外,灰度测试界面中还出现了"视觉模式"(Vision)选项,尽管尚未向全体用户开放,暗示V4将具备更强大的原生多模态融合能力。
消息显示,DeepSeek V4预计将以Apache 2.0协议开源,支持企业自主部署。阿里、腾讯、字节跳动等科技巨头已大规模预订新一代国产AI算力芯片,总量达数十万片级别,计划以云服务形式开放DeepSeek V4能力,并接入自身产品体系。受需求拉动,相关国产算力芯片价格近期上涨约20%。
今年1月左右,DeepSeek V4的一个小参数版本已给到部分开源框架社区做适配。3月底DeepSeek经历了一次服务中断,恢复后开发者实测模型逻辑严谨性、代码生成能力均显著提升,被认为疑似DeepSeek V4灰度测试。
截至目前,DeepSeek方面尚未对V4发布消息进行官方回应。
关注公众号
立刻获取最新消息及人工咨询