大模型列表 - 企数智|企业级大模型服务平台

热门搜索：数字员工数字孪生数字化转型

关注公众号

分类

全部

文本

语言

图像

视频

语音

音频

编码

多模态

推理

排序

向量

行业

其他

上下文

全部

<=8k

<=32k

<=64k

<=128k

>128k

热门

全部

DeepSeek

GPT

Claude

通义千问

GLM

Doubao

元宝

排序

默认

发布时间

热度

视频生成

多模态模型

MiniMax Hailuo 2.3是上海AI独角兽MiniMax稀宇极智于2025年10月发布的新一代视频生成模型，基于Hailuo 02模型进行了全面技术升级。该模型在动态表现力、风格化呈现和人物表演细腻度方面实现显著突破，支持720-1080P分辨率输出，能够精准呈现复杂的人体动作序列和细微肢体变化，在大动态运镜下保持光线方向、明暗过渡和色调变化的高度逼真效果。

技术上，Hailuo 2.3强化了物理模拟与指令遵循能力，对动漫、插画、水墨、游戏CG等特殊画风的支持效果显著优化，真人面部表演和微表情控制更加自然细腻。模型在提升性能的同时保持了原有定价水平，并推出了生成速度更快的Fast版本，为批量创作最高可降低50%的成本。

2025年10月29日 MiniMax稀宇极智

语音合成

音频理解

MiniMax Speech 2.6是MiniMax稀宇科技于2025年10月推出的新一代语音生成模型，代表了AI语音技术的重要突破。该模型采用先进的Fluent LoRA技术，实现了音频生成端到端延迟低于250毫秒的卓越性能，解决了传统AI语音交互"慢半拍"的问题。

模型支持40多种语言的音色复刻与流利表达，能够智能解析网址、邮箱、电话号码等复杂文本格式，无需额外预处理即可正确朗读。通过仅需30秒参考音频即可高精度复刻音色，同时保持语音的流畅度和自然度。

2025年10月30日 MiniMax稀宇科技

语言模型

编码模型

推理模型

196K

GLM-4.7-Flash是智谱AI于2026年1月推出的轻量级开源大语言模型，采用30B总参数、3B激活参数的混合专家（MoE）架构，首次引入MLA（Multi-head Latent Attention）注意力机制。该模型在保持高性能的同时大幅降低计算开销，支持200K上下文长度，在SWE-bench Verified等基准测试中超越同规模模型，为开发者提供了兼顾性能与效率的轻量化部署选择。

2026年1月20日智谱AI

视频生成

多模态模型

12K

Seedance 1.5 Pro是字节跳动豆包大模型团队推出的新一代音视频联合生成模型，基于统一的MMDiT架构构建，原生支持音视频同步生成。该模型在2025年12月发布，代表了视频生成技术从单一视觉维度向多模态融合的重要突破。

技术层面，模型采用联合预训练+SFT+RLHF的三阶段训练策略，通过大规模音视频数据集训练，实现了跨模态深度交互。在推理阶段通过多阶段蒸馏框架和量化优化，实现了10倍以上的端到端推理加速。

模型核心创新包括：统一的多模态联合生成架构、全面的音视频数据框架、精细化的后训练优化策略和高效的推理加速方案，为专业级音视频内容创作提供了技术基础。

2025年12月18日字节跳动

视频生成

多模态模型

1024K

Veo 3.1是谷歌于2025年10月推出的新一代AI视频生成模型，在Veo 3的基础上进行了多项功能升级。该模型采用了先进的视频生成架构，支持多种输入方式和精细化的编辑控制，能够生成具有电影级质感的视频内容。

Veo 3.1最大的突破在于集成了原生音频生成功能，实现了音画同步输出，支持自然对话、环境音效和氛围配乐。模型通过多模态输入架构，支持文本、图像和视频片段的组合输入，并引入了首尾帧插值、多图参考等精细化控制功能。

该模型代表了谷歌在AI视频生成领域的最新成果，专注于提升视频的叙事能力和专业制作水平，为影视制作、广告创意等专业领域提供了强大的AI辅助工具。

2025年10月16日谷歌

多模态模型

推理模型

千寻Spirit v1.5是由千寻智能研发的视觉-语言-动作（VLA）统一架构的具身智能基础模型。该模型采用端到端的统一建模框架，将视觉感知、语言理解与动作生成整合在同一决策流程中，减少多模块串联带来的信息损耗，提升长程任务中的整体稳定性。

模型的核心创新在于预训练数据范式的根本性重构，摆脱传统"干净数据"的诅咒，转向开放式、目标驱动的数据采集策略。通过海量互联网视频数据进行预训练，建立物理常识，再用真实遥操作数据微调，使模型习得类似人类的物理常识和纠错恢复能力。

在技术架构上，Spirit v1.5采用多样化、弱控制的数据采集范式，构建连续的技能流形，内化纠错与恢复能力，展现出卓越的跨场景泛化能力和系统层面的稳定性。

2026年1月12日千寻智能

语言模型

行业模型

多模态模型

32K

Med-PaLM 2是由Google Research开发的医疗领域大语言模型，基于PaLM 2架构构建。该模型通过医学领域特定的微调和指令微调技术，在多项医学问答基准测试中展现出卓越性能。模型采用集成精炼(Ensemble Refinement)和检索链(Chain of Retrieval)等创新技术，显著提升了医学推理能力和事实准确性。在MedQA数据集上达到86.5%的准确率，超越了人类专家平均水平，并在多个临床评估维度上获得医生高度评价。

2025年1月30日 Google

语言模型

文本生成

推理模型

多模态模型

128K

Llama 4.1是Meta公司开发的大型语言模型，属于Llama系列的重要升级版本。该模型基于Transformer架构，采用了先进的深度学习技术，在自然语言处理能力方面有显著提升。虽然具体技术细节尚未完全公开，但根据Meta的AI战略布局，Llama 4.1在模型规模、训练数据和推理能力等方面都有重要改进。

Meta组建了专门的Meta SuperIntelligence Labs团队来推进Llama系列的发展，旨在开发下一代前沿AI模型。Llama 4.1的开发体现了Meta在人工智能领域的长期投入和战略决心，尽管面临着来自OpenAI和Anthropic等公司的激烈竞争。

2025年8月29日 Meta

文本生成

语言模型

推理模型

128K

Grok 4.1是马斯克旗下xAI公司于2025年11月发布的最新一代大语言模型，代表了Grok系列迄今为止最大幅度的一次升级。该模型在对话智能、情绪理解和现实世界任务能力等方面实现了全面突破，采用了大规模强化学习基础设施进行优化，并开发了新的训练方法利用前沿智能体推理模型作为奖励模型。

Grok 4.1在技术架构上延续了Grok 4的基础，但在风格、个性、实用性和一致性方面进行了深度优化，显著减少了事实性幻觉，提升了模型的可靠性和实用性。

2025年11月18日 xAI

推理模型

文本生成

语言模型

多模态模型

编码模型

250K

GPT-5.2是OpenAI在2025年12月11日发布的旗舰AI模型，作为对谷歌Gemini 3的紧急应对版本。该模型在GPT-5.1基础上仅用30天快速迭代，专注于提升专业工作场景的实用能力，特别是在办公自动化、代码生成和长文档处理方面表现突出。模型采用深度推理架构，在GDPval测试中74.1%的任务达到或超过人类专家水平，处理速度比人类快11倍，成本不到1%。

2025年12月12日 OpenAI

多模态模型

推理模型

文本生成

图像理解

视频理解

编码模型

977K

Gemini 3.0 Pro是谷歌于2025年11月发布的旗舰级多模态大语言模型，代表了谷歌在AI领域的重大技术突破。该模型基于稀疏混合专家（sparse MoE）transformer架构，在谷歌自研TPU芯片上从零开始训练而成，原生支持文本、图像、音频和视频多模态输入。

在技术特性上，Gemini 3.0 Pro支持高达100万token的上下文窗口，输出能力达64K token，在MMLU基准测试中得分从2.5 Pro的86.5%提升至91.2%，视觉问答准确率提高17个百分点。模型在AIME 2025等高难度数学榜单的有代码执行场景下达到满分，显示出卓越的工具调用与数学推理组合能力。

2025年11月26日 Google

编码模型

语言模型

256K

Qwen3-Coder-Flash是阿里巴巴通义千问团队于2025年8月推出的开源编程大模型，属于Qwen3-Coder系列的高效版本。该模型采用Mixture of Experts（MoE）架构，总参数量30.5B，激活参数3.3B，通过128个专家中动态调用8个协同工作，实现了计算效率与性能的平衡。

模型基于因果语言模型（CLM）架构，专注于编程领域的预训练和后训练，具备卓越的代理式编程能力。其核心技术亮点包括：支持最长100万tokens的上下文长度（原生262K），采用YaRN扩展技术；在Agentic Coding、浏览器智能操作和工具调用等场景刷新SOTA记录；通过强化学习实现多轮交互与自主决策，显著提升代码执行成功率。

2025年8月4日阿里巴巴