DeepSeek识图模式全量上线App和网页端补齐多模态能力短板

发布时间：06-24

DeepSeek识图模式在网页端与App端正式面向全量用户开放该模式与原有的快速模式、专家模式并列成为独立的一级对话入口DeepSeek多模态团队负责人陈小康通过社交平台官宣上线邀请用户体验这双新眼睛这也标志着这款以长文本推理和高性价比著称的大模型正式补齐了视觉能力短板。

此次上线的识图模式并非传统的OCR文字提取工具而是基于DeepSeek自研的以视觉原语思考为核心技术框架搭建将坐标点、边界框等空间标记作为模型推理的基础思维单元构建了完整的视觉理解闭环用户直接上传图片并搭配文字提问系统即可同步完成物体识别、场景解析、图表数据拆解、精细文字提取以及基于图像内容的深度逻辑推理。

从媒体实测与用户反馈来看该功能在通用场景下表现稳定识别日常物品、地标建筑、学科题目等内容准确率较高解析数学题图时可自主完成步骤验算针对手绘草图、产品实拍图也能给出细节描述与优化建议在人物识别场景仍有提升空间对于公开影像资料较少的人物识别准确率存在波动同时模型设置了严格的内容安全审核机制对敏感人物与违规内容会进行拦截。

技术核心为视觉原语推理框架不采用图像转文本token的传统路径以紧凑视觉中间表示直接推理基于284B MoE架构+MLA稀疏注意力单图仅耗约90个token推理效率显著优于主流闭源模型成本极。

识图功能的全量落地是DeepSeek全模态布局的关键一步就在此前不久DeepSeek刚完成510亿元A轮融资投后估值接近4000亿元据官方产品规划团队将于近期推出DeepSeek-V4.1版本届时将完整覆盖文本、图像、音频全模态交互能力并同步配套企业级开发工具链进一步向通用人工智能方向演进。

收藏微博微信

好文章，赞一下

2466