大模型列表 - 企数智|企业级大模型服务平台

热门搜索：数字员工数字孪生数字化转型

关注公众号

分类

全部

文本

语言

图像

视频

语音

音频

编码

多模态

推理

排序

向量

行业

其他

上下文

全部

<=8k

<=32k

<=64k

<=128k

>128k

热门

全部

DeepSeek

GPT

Claude

通义千问

GLM

Doubao

元宝

排序

默认

发布时间

热度

语言模型

编码模型

推理模型

196K

GLM-4.7-Flash是智谱AI于2026年1月推出的轻量级开源大语言模型，采用30B总参数、3B激活参数的混合专家（MoE）架构，首次引入MLA（Multi-head Latent Attention）注意力机制。该模型在保持高性能的同时大幅降低计算开销，支持200K上下文长度，在SWE-bench Verified等基准测试中超越同规模模型，为开发者提供了兼顾性能与效率的轻量化部署选择。

2026年1月20日智谱AI

视频生成

多模态模型

12K

Seedance 1.5 Pro是字节跳动豆包大模型团队推出的新一代音视频联合生成模型，基于统一的MMDiT架构构建，原生支持音视频同步生成。该模型在2025年12月发布，代表了视频生成技术从单一视觉维度向多模态融合的重要突破。

技术层面，模型采用联合预训练+SFT+RLHF的三阶段训练策略，通过大规模音视频数据集训练，实现了跨模态深度交互。在推理阶段通过多阶段蒸馏框架和量化优化，实现了10倍以上的端到端推理加速。

模型核心创新包括：统一的多模态联合生成架构、全面的音视频数据框架、精细化的后训练优化策略和高效的推理加速方案，为专业级音视频内容创作提供了技术基础。

2025年12月18日字节跳动

视频生成

多模态模型

1024K

Veo 3.1是谷歌于2025年10月推出的新一代AI视频生成模型，在Veo 3的基础上进行了多项功能升级。该模型采用了先进的视频生成架构，支持多种输入方式和精细化的编辑控制，能够生成具有电影级质感的视频内容。

Veo 3.1最大的突破在于集成了原生音频生成功能，实现了音画同步输出，支持自然对话、环境音效和氛围配乐。模型通过多模态输入架构，支持文本、图像和视频片段的组合输入，并引入了首尾帧插值、多图参考等精细化控制功能。

该模型代表了谷歌在AI视频生成领域的最新成果，专注于提升视频的叙事能力和专业制作水平，为影视制作、广告创意等专业领域提供了强大的AI辅助工具。

2025年10月16日谷歌

多模态模型

推理模型

千寻Spirit v1.5是由千寻智能研发的视觉-语言-动作（VLA）统一架构的具身智能基础模型。该模型采用端到端的统一建模框架，将视觉感知、语言理解与动作生成整合在同一决策流程中，减少多模块串联带来的信息损耗，提升长程任务中的整体稳定性。

模型的核心创新在于预训练数据范式的根本性重构，摆脱传统"干净数据"的诅咒，转向开放式、目标驱动的数据采集策略。通过海量互联网视频数据进行预训练，建立物理常识，再用真实遥操作数据微调，使模型习得类似人类的物理常识和纠错恢复能力。

在技术架构上，Spirit v1.5采用多样化、弱控制的数据采集范式，构建连续的技能流形，内化纠错与恢复能力，展现出卓越的跨场景泛化能力和系统层面的稳定性。

2026年1月12日千寻智能

语言模型

行业模型

多模态模型

32K

Med-PaLM 2是由Google Research开发的医疗领域大语言模型，基于PaLM 2架构构建。该模型通过医学领域特定的微调和指令微调技术，在多项医学问答基准测试中展现出卓越性能。模型采用集成精炼(Ensemble Refinement)和检索链(Chain of Retrieval)等创新技术，显著提升了医学推理能力和事实准确性。在MedQA数据集上达到86.5%的准确率，超越了人类专家平均水平，并在多个临床评估维度上获得医生高度评价。

2025年1月30日 Google

语言模型

文本生成

推理模型

多模态模型

128K

Llama 4.1是Meta公司开发的大型语言模型，属于Llama系列的重要升级版本。该模型基于Transformer架构，采用了先进的深度学习技术，在自然语言处理能力方面有显著提升。虽然具体技术细节尚未完全公开，但根据Meta的AI战略布局，Llama 4.1在模型规模、训练数据和推理能力等方面都有重要改进。

Meta组建了专门的Meta SuperIntelligence Labs团队来推进Llama系列的发展，旨在开发下一代前沿AI模型。Llama 4.1的开发体现了Meta在人工智能领域的长期投入和战略决心，尽管面临着来自OpenAI和Anthropic等公司的激烈竞争。

2025年8月29日 Meta

文本生成

语言模型

推理模型

128K

Grok 4.1是马斯克旗下xAI公司于2025年11月发布的最新一代大语言模型，代表了Grok系列迄今为止最大幅度的一次升级。该模型在对话智能、情绪理解和现实世界任务能力等方面实现了全面突破，采用了大规模强化学习基础设施进行优化，并开发了新的训练方法利用前沿智能体推理模型作为奖励模型。

Grok 4.1在技术架构上延续了Grok 4的基础，但在风格、个性、实用性和一致性方面进行了深度优化，显著减少了事实性幻觉，提升了模型的可靠性和实用性。

2025年11月18日 xAI

推理模型

文本生成

语言模型

多模态模型

编码模型

250K

GPT-5.2是OpenAI在2025年12月11日发布的旗舰AI模型，作为对谷歌Gemini 3的紧急应对版本。该模型在GPT-5.1基础上仅用30天快速迭代，专注于提升专业工作场景的实用能力，特别是在办公自动化、代码生成和长文档处理方面表现突出。模型采用深度推理架构，在GDPval测试中74.1%的任务达到或超过人类专家水平，处理速度比人类快11倍，成本不到1%。

2025年12月12日 OpenAI

多模态模型

推理模型

文本生成

图像理解

视频理解

编码模型

977K

Gemini 3.0 Pro是谷歌于2025年11月发布的旗舰级多模态大语言模型，代表了谷歌在AI领域的重大技术突破。该模型基于稀疏混合专家（sparse MoE）transformer架构，在谷歌自研TPU芯片上从零开始训练而成，原生支持文本、图像、音频和视频多模态输入。

在技术特性上，Gemini 3.0 Pro支持高达100万token的上下文窗口，输出能力达64K token，在MMLU基准测试中得分从2.5 Pro的86.5%提升至91.2%，视觉问答准确率提高17个百分点。模型在AIME 2025等高难度数学榜单的有代码执行场景下达到满分，显示出卓越的工具调用与数学推理组合能力。

2025年11月26日 Google

编码模型

语言模型

256K

Qwen3-Coder-Flash是阿里巴巴通义千问团队于2025年8月推出的开源编程大模型，属于Qwen3-Coder系列的高效版本。该模型采用Mixture of Experts（MoE）架构，总参数量30.5B，激活参数3.3B，通过128个专家中动态调用8个协同工作，实现了计算效率与性能的平衡。

模型基于因果语言模型（CLM）架构，专注于编程领域的预训练和后训练，具备卓越的代理式编程能力。其核心技术亮点包括：支持最长100万tokens的上下文长度（原生262K），采用YaRN扩展技术；在Agentic Coding、浏览器智能操作和工具调用等场景刷新SOTA记录；通过强化学习实现多轮交互与自主决策，显著提升代码执行成功率。

2025年8月4日阿里巴巴

多模态模型

推理模型

图像理解

32K

Step-R1-V-Mini是阶跃星辰于2025年4月推出的新一代多模态推理模型，代表了国产多模态AI技术的重大突破。该模型采用多模态联合强化学习框架，基于PPO（近端策略优化）强化学习算法，引入可验证奖励机制提升模型鲁棒性。通过合成数据训练解决了传统方法中的模态能力不平衡问题，在保持通用能力的同时，特别擅长处理需要跨模态理解的复杂推理任务。

模型在技术架构上实现了视觉、文本和推理能力的深度融合，能够构建分步推理链并进行自我验证，显著提升了多模态任务的准确性和可靠性。其创新性的训练方法结合了冷启动数据微调与强化学习，逐步提升模型在不同模态任务中的表现。

2025年4月9日阶跃星辰

多模态模型

推理模型

阶跃星辰Step 3是上海AI独角兽阶跃星辰于2025年发布的新一代基础大模型，作为公司首个全尺寸、原生多模态推理模型，具备强大的视觉感知和复杂推理能力。该模型在解码效率上达到同类顶尖产品的三倍，显著降低推理成本。Step 3能够准确完成跨领域的复杂知识理解、数学与视觉信息的交叉分析，以及日常生活中的各类视觉分析问题。

技术原理上，Step 3延续了阶跃星辰"多模态卷王"的基因，支持多模态推理能力，不仅能理解图片和视频，还能理解图片背后的逻辑。未来应用趋势将聚焦于强智能、低成本、可开源和多模态四个特征，推动大模型技术迈向推理时代。

2025年7月25日阶跃星辰