大模型列表 - 企数智|企业级大模型服务平台

多模态模型

编码模型

语言模型

图像理解

200K

GLM-5V-Turbo是智谱于2026年4月2日发布的全球首个原生多模态Coding基座模型，标志着AI编程正式进入“视觉原生”时代。

该模型从预训练阶段就深度融合视觉与文本能力，打破了传统纯文本Coding模型的输入限制，在引入视觉理解能力的同时，纯文本编程与推理能力保持了同等水准，在多模态Coding、Agent任务、纯文本Coding等核心评测基准上均取得领先表现。

作为多模态编程领域的突破性产品，GLM-5V-Turbo为AI Agent的实用化落地提供了关键能力支撑，未来将推动视觉编程、多模态智能体等领域的快速发展。

2026年4月2日智谱

图像生成

图像处理

3K

Wan2.7-Image是阿里巴巴于2026年4月1日正式发布的图像生成与编辑统一模型，针对AI生图领域普遍存在的审美疲劳、色彩失控、文本渲染效果差等痛点进行了针对性优化。

技术层面，该模型采用领先的生成与理解统一架构，在共享隐空间实现语义映射，搭配超大规模异构数据底座和多维精细标注体系，无需猜测文字对应画面即可实现精准的语义认知，在文生图人类偏好盲测中表现超过GPT-Image1.5和国内主流模型，在文本渲染、照片级成像和世界知识指标上接近Nano Banana Pro。同时同步推出了Wan2.7-Image-Pro版本，具备更稳定的构图能力与更精准的语义理解能力。

未来该模型将持续迭代能力边界，进一步覆盖更多视觉创作场景，降低专业内容生产的门槛。

2026年4月1日阿里巴巴

视频生成

多模态模型

Veo 3.1 Lite是谷歌DeepMind于2026年3月31日推出的轻量化AI视频生成模型，属于Veo 3.1系列的入门级版本，定位为高性价比视频生成工具。

该模型在保持与Veo 3.1 Fast版本相同生成速度的前提下，生成成本不到Fast版本的一半，是谷歌目前最实惠的视频生成工具。模型支持原生音频生成，输出采用电影行业标准24fps帧率，画面自带电影感，在风格还原与镜头语法理解上具备较好的表现。

谷歌推出该模型是在OpenAI关停Sora视频应用的行业背景下的重要布局，旨在降低开发者使用视频生成能力的门槛，后续谷歌还将持续迭代相关产品，推动视频生成技术在开发者生态的普及落地。

2026年3月31日谷歌

全模态模型

多模态模型

DeepSeek-Omni是深度求索推出的全模态大模型，其相关技术理念启发了行业内全模态模型与RLVR（可验证奖励强化学习）技术的结合探索。RLVR是区别于传统RLHF的新型训练范式，核心是利用验证函数直接评估模型输出，无需单独的奖励模型，能让模型输出与任务内在正确性标准保持一致，同时结合GRPO强化学习方法，可简化训练流程，提升模型对高质量输出的区分能力。

该类技术路径推动了全模态模型在推理能力、理解能力、泛化能力上的提升，不仅在分布内数据任务上表现优异，在分布外场景也具备更强鲁棒性，还能清晰解释不同模态在任务处理中发挥的作用，为可解释性多模态AI的发展提供了重要的技术参考，是下一代AI技术发展的重要探索方向。

杭州深度求索人工智能基础技术研究有限公司

语言模型

推理模型

编码模型

行业模型

205K

MiniMax-M2.7是MiniMax于2026年3月正式推出的新一代Agent原生大模型，也是MiniMax首个深度参与自我迭代的模型，主打「开启AI的自我进化」和「最强的Cowork Agent模型」定位。

技术层面，该模型优化了Transformer结构与动态批处理技术，在不增加算力消耗的前提下推理速度提升30%，同时统一支持204.8K上下文窗口，普通版推理速度约60tps、高速版约100tps；核心围绕编码能力、工具调用、交错思维与Agent工作流进行专项优化，具备任务拆解、工具调用、代码编写、自主校验、迭代优化的全链路执行能力，在SWE-Pro测试得分达56.2%，接近Claude Opus 4.6水平，MM-Claw Agent专项测试得分62.7%，40个复杂技能环境下指令遵循率达97%，多Agent协作场景下的长流程任务稳定性表现突出。

该模型首次实现了模型自迭代闭环，可零人工干预完成超100轮的Agent Harness脚手架迭代优化，在Kaggle MLE Lite测试集得牌率达66.6%，与Gemini-3.1持平。未来随着Agent能力的持续进化，该模型将进一步深度融入各类工作流，成为可自主完成复杂任务的AI协作搭档，推动AI研发向自动化、自进化方向发展。

2026年3月20日 MiniMax

编码模型

语言模型

推理模型

200K

GLM-5.1是智谱AI于2026年3月27日推出的编程优化大模型，是GLM-5.0的迭代升级版本，发布间隔仅1个多月，属于GLM系列模型的编程场景定向强化版本。

该模型在官方编程基准测试中得分达到45.3分，相比上一代GLM-5.0的35.4分提升了28%，性能距离全球顶尖编程模型Claude Opus 4.6仅差2.6分，已跻身世界一流编程大模型梯队。

技术层面，GLM-5.1延续了200K tokens的上下文窗口配置，针对代码生成场景做了深度优化，在功能实现精准度、代码质量、错误处理完善度等方面均有大幅提升，同时支持reasoning模式，兼容OpenAI标准接口，可低门槛接入各类开发工作流。

当前模型仍处于快速迭代阶段，未来将在稳定性、响应速度、超长上下文处理能力等方向持续优化，有望进一步缩小与海外顶尖模型的差距，成为国产编程大模型的核心代表产品。

2026年3月31日智谱AI

全模态模型

视频理解

音频理解

语音识别

语音合成

编码模型

256K

Qwen3.5-Omni是阿里云于2026年3月30日发布的新一代全模态大模型，是千问系列全模态模型的升级迭代产品。

该模型采用混合注意力MoE架构，在海量文本、视觉以及超过1亿小时的音视频数据上进行原生多模态预训练，可实现图片、视频、语音、文字等全模态内容的输入与输出。模型在音视频理解、跨模态推理、Agent方面实现了性能飞跃，在215项第三方性能测试任务中取得SOTA，性能超越Gemini-3.1 Pro，是目前全球最强的全模态大模型之一。

Qwen3.5-Omni支持113种语言及方言的语音识别、36种语言及方言的语音生成，还自然涌现出音视频Vibe Coding能力，同时具备语义打断、音色克隆、语音控制、自主工具调用等特性，后续将在更多实体场景落地，为多行业生产力升级提供技术支撑。

2026年3月30日阿里巴巴

语言模型

推理模型

编码模型

文档模型

1024K

MiMo-V2-Pro是小米面向Agent时代推出的旗舰基座大模型，于2026年3月19日正式发布，其前身为OpenRouter平台上调用量登顶的神秘模型Hunter Alpha。

该模型总参数量超过1T，激活参数为42B，采用创新的混合注意力架构，混合比例提升至7:1，搭配轻量级MTP多Token预测层，兼顾超大规模参数与极高推理效率，支持1M超长上下文长度。小米AI团队与北京大学联合研发的统一资源管理系统ARL-Tangram为模型训练与运行提供支撑，大幅降低算力成本与资源消耗。

在性能表现上，MiMo-V2-Pro在Artificial Analysis排行榜位列全球第八、国内第二，在PinchBench、ClawEval等智能体评测基准中处于全球顶尖水平，代码能力超越Claude Sonnet 4.6，逼近Claude Opus 4.6，整体使用体验优异且API定价仅为同级别产品的1/5，有效降低前沿智能的使用门槛。未来该模型将持续迭代优化，进一步拓展智能动作空间，覆盖更多高价值Agent工作场景。

2026年3月19日小米

语言模型

推理模型

文本生成

489K

GLM-5-Turbo 是智谱AI推出的第五代通用大模型，定位为面向OpenClaw（“龙虾”）场景深度优化的企业级基座模型。这是智谱自2025年以来的首个闭源模型。

该模型具有以下核心特点：

架构创新： 基于自研第五代预训练架构，采用创新的“动态稀疏注意力机制”，在保持万亿参数级别知识储备的同时，将长文本推理的计算量降低了60%。
场景原生优化： 针对Agent场景的工程痛点，从训练阶段即植入特定Agent框架基因，大幅提升了工具调用、复杂指令遵循及长链路任务执行的稳定性。
卓越中文能力： 在C-Eval、CMMLU等权威中文评测榜单上刷新纪录，尤其在古文理解、成语运用和中文逻辑推理上表现优异。
超长上下文： 支持一次性输入50万汉字，相当于3本《红楼梦》的体量，轻松驾驭财报分析、法律合同审查等任务。

2026年3月16日智谱AI

推理模型

多模态模型

编码模型

391K

GPT-5.4 mini是OpenAI于2026年3月推出的新一代小型大语言模型，旨在以更低延迟和更高性价比解决高频工作负载问题。

核心优势：该模型主打“快、强、便宜”，通过知识蒸馏和架构压缩技术，运行速度比前代GPT-5 mini提升超过两倍。它专门针对编程、计算机操作、多模态理解以及子代理（Subagent）任务进行了深度优化。

性能表现：在SWE-Bench Pro（代码修复）和OSWorld-Verified（计算机操作）等核心基准测试中，GPT-5.4 mini的表现已非常接近旗舰版GPT-5.4，同时成本显著降低。它支持400K的超大上下文窗口，能够处理复杂的文本和图像输入。

应用定位：在AI智能体架构中，GPT-5.4 mini充当“四肢”与“前哨”的角色，负责执行具体、快速的任务，而将复杂的战略规划留给大模型。

2026年3月18日 OpenAI

语言模型

编码模型

多模态模型

MiniMax M2.7 是 MiniMax 发布的新一代 Agent 旗舰大模型，于 2026 年 3 月 18 日正式发布。该模型的核心突破在于展示了“模型自我进化”的路径，通过构建 Agent Harness 体系，让模型深度参与自身的训练、优化与迭代流程。

自我进化能力： 模型能作为研究型 Agent，参与数据流水线、实验设计、代码修复等研发环节，在部分场景承担 30%-50% 的工作量。
顶尖工程能力： 在 SWE-Pro 基准测试中正确率达 56.22%，在 VIBE-Pro 和 Terminal Bench 2 等测试中表现接近国际顶级模型，具备端到端项目交付和线上故障快速排查能力。
多智能体协作： 原生支持 Agent Teams，能稳定锚定身份并进行复杂协同决策。
专业办公与交互： 显著提升对 Word、Excel、PPT 的复杂编辑能力，并支持高情商的互动娱乐场景。

2026年3月18日 MiniMax

推理模型

文本生成

编码模型

1954K

Grok 4.20 是 xAI 推出的一款大语言模型，主打高可靠性与低幻觉率。该版本采用了创新的多智能体协作架构（Multi-agent system），内置了 Grok（协调者）、Harper（研究专家）、Benjamin（逻辑/编程专家）和 Lucas（创意达人）四个智能体。在处理复杂查询时，这些智能体会在内部进行讨论和验证，从而大幅降低错误率，提升回答质量。

技术上，Grok 4.20 支持高达200万 token的超长上下文窗口，并具备强大的实时搜索能力。根据第三方评测，其“非幻觉率”达到了 78%，在 Search Arena 中排名第一。该模型不仅继承了 Grok 系列标志性的机智风格，更在事实准确性和逻辑推理上实现了显著提升。

2026年3月13日 xAI

资讯

关于我们

内容服务

产品服务

联系我们

人工导购

咨询服务