大模型列表 - 企数智|企业级大模型服务平台

视频生成

多模态模型

HappyOyster 1.0（快乐生蚝）是阿里巴巴ATH创新事业部于2026年6月17日发布的可实时构建和交互的开放式世界模型产品。该产品深度学习物理世界状态转移规律，能主动推演从动作到反馈的因果链，并保持人物和环境的长程一致性。

技术原理

HappyOyster基于原生多模态架构，支持文本、图像、音视频多模态输入与音视频联合生成。区别于传统文生视频"写prompt→等渲染→收成片"的一次性流程，HappyOyster在生成过程中持续接收用户指令，画面实时响应、持续演绎。核心技术包括闭环世界状态建模（通过隐状态摘要递归传递世界信息）、内生一致性保障（为每个角色分配身份卡维持全程一致）、开放因果动作空间（动作指令与自然语言共享统一语义接口）以及长时序音视频协同生成。

发展历程

2026年4月16日开放内测，2026年6月17日正式发布1.0版本。团队联合南京大学正在打造首个覆盖过程交互、跨模态对齐、长程一致与物理仿真验证的行业基准，旨在填补世界模型测评标准的空白。

2026年6月17日阿里云

视频生成

视频理解

Seedance 2.5是字节跳动Seed团队于2026年6月23日在火山引擎FORCE原动力大会上正式发布的AI视频生成大模型，当前处于全球企业内测阶段，预计2026年7月初正式上线。该模型在视频时长、多模态参考、可控编辑和音视频同步等方面实现了关键突破。

核心能力

原生30秒视频直出：单次原生推理直接输出完整30秒连贯视频，镜头运动、角色位置、光影变化全程连贯，无需分段拼接。

50个全模态参考素材：支持同时导入最多50个图片、音频、视频参考资产，为上一代12个输入限制的四倍扩容。

原生4K分辨率：采用优化时空注意力机制的稀疏DiT架构，可在原生4K分辨率下稳定渲染。

语义视频编辑：可替换或修改场景中的特定元素，原始动作、镜头角度、光照和构图完全不变。

3D白模预可视化：业界首次实现，输入低精度3D区块模型加风格参考，自动渲染为视频序列。

音视频同步生成：采用统一音视频联合生成机制，视觉和听觉信号在同一潜在空间内共同处理。

商业化

Seedance平台年经常性收入达20亿美元。字节跳动同步预览了AI版权商业化平台，周星驰为首批合作对象。模型将集成到剪映、即梦、豆包和火山引擎等平台。

2026年6月23日字节跳动

语言模型

推理模型

编码模型

多模态模型

256K

Doubao-Seed-2.1-Turbo是字节跳动Seed团队于2026年6月23日同步推出的轻量化量产版大模型，与旗舰版Pro共享核心能力，以更低成本适配高并发生产场景。

核心能力

Turbo版功能齐备，效果比肩Pro版，在Agent通用能力、代码生成、多模态理解等方面均保持业界领先水平。专为需要承接大量线上调用的企业级部署而设计，在保持高质量输出的同时大幅降低推理延迟和成本。

定价

输入3元/百万Tokens，输出15元/百万Tokens，开启上下文缓存后最低仅0.6元/百万Tokens。价格为Pro版本一半，适合高频次轻量化场景。

应用场景

批量文案生成、账号矩阵运营、常规智能问答、自媒体内容创作、副业创业等高频次轻量化场景。

2026年6月23日字节跳动

语言模型

推理模型

编码模型

多模态模型

256K

Doubao-Seed-2.1-Pro是字节跳动Seed团队于2026年6月23日发布的旗舰级大模型，是面向真实生产力场景的全新智能体。作为Seed2.1系列的旗舰深度推理版，该模型在编程工程交付、智能体长链路任务执行和多模态理解三大方向上实现全面突破。

核心能力

Agent智能体：通用Agent能力显著提升，依托256K超长上下文窗口，可自主拆解数十步复杂任务，自动联动搜索、文档解析、表格存储、图文生成等工具，中途动态纠错、调整执行方案。在Agents Last Exam基准中处于第一梯队，GDPval基准获得最高分。

编程Coding：端到端工程开发能力大幅提升，可完成需求拆解、代码编写、BUG排查、运行环境部署、项目全流程验证整套工作。在Terminal Bench、SWE-Pro等权威代码评测中跻身全球第一梯队，第三方众测胜率达59.1%，超越Claude Opus 4.6。

多模态理解：支持最高903万像素精细分析和小时级长视频理解，在CharXiv-RQ、MeasureBench等多个视觉基准取得最高分。支持19种语言实时转写、14语种互译。

定价

输入6元/百万Tokens，输出30元/百万Tokens，开启上下文缓存后最低仅1.2元/百万Tokens。综合使用成本较海外头部模型降低约80%。

应用场景

企业级研发、复杂编程、长链路自动化项目、高价值商业方案、智能客服、批量合同审核、跨部门数据汇总等场景。

2026年6月23日字节跳动

多模态模型

编码模型

语言模型

1024K

MiniMax M3 是稀宇科技于2026年6月1日发布的新一代通用大模型，采用MoE架构（总参数428B，每token激活23B），并引入自研稀疏注意力架构MSA（MiniMax Sparse Attention），最高支持1M tokens超长上下文。M3是国内首个同时具备前沿Coding与Agentic能力、1M超长上下文、原生多模态三项核心能力的大模型，也是全球唯一在开源条件下同时具备上述完整能力组合的模型。在SWE-Bench Pro评测中达到59.0%，BrowseComp得分83.5，超过GPT-5.5和Gemini 3.1 Pro。支持图片和视频输入，具备Computer Use桌面操作能力。

稀宇科技

多模态模型

图像理解

星火X2-VL是科大讯飞于2026年6月11日发布的多模态大模型，采用专属MoE架构，以原生多模态范式训练，非文本+视觉拼接方案。模型搭载轻量化视觉编码器，实现快慢思考统一，是唯一基于全国产算力训练的主流大模型（训练平台为无锡太湖星跃平台）。性能方面，高考数学全国I卷得分148分，高中全学科图文试题准确率接近95%，推理准确率较前代提升28.7%。模型体系为“1+2+2”架构：1个多模态底座+2个垂类模型+2个行业模型，同步升级具身智能模型GEAR-VLA。

科大讯飞

语言模型

推理模型

编码模型

1024K

GLM-5.2是智谱AI于2026年6月13日发布的最新一代大语言模型，被智谱称为"迄今能力最强的开源模型"。该模型支持真正可用的1M（100万token）上下文窗口，并在长程任务中继续保持领先地位，API将于下周上线，模型同步开源，遵循MIT协议。

技术原理

GLM-5.2延续了GLM-5系列的MoE（混合专家）架构，总参数量744B，激活参数40B。在前代基础上进一步优化了KV缓存压缩技术以降低算力成本，并持续强化Coding能力。模型集成DeepSeek Sparse Attention稀疏注意力机制，在维持长文本效果的同时大幅降低部署成本。采用自研"Slime"异步强化学习框架，支持异步智能体强化学习算法，使模型能够从长程交互中持续学习。

发展历程

智谱AI的GLM系列经历了快速迭代：2026年2月发布GLM-5（744B参数，开源SOTA），3月发布GLM-5.1，5月发布GLM-5.1高速版（输出速度达400 tokens/s），6月13日正式发布GLM-5.2。GLM-5系列完全基于华为昇腾芯片与MindSpore框架训练，并已完成华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等七大国产芯片平台的深度推理适配。

应用趋势

GLM-5.2定位为"Agentic Engineering"时代的核心基座模型，从"氛围编程"（Vibe Coding）迈向系统化智能体工程。在前端开发、后端重构、深度调试等系统工程任务中表现逼近Claude Opus 4.5水平，特别擅长长程Agent任务的规划与执行。MIT开源协议使其成为企业私有化部署的优选方案。

2026年6月13日智谱AI

推理模型

语言模型

编码模型

多模态模型

1024K

Claude Fable 5是Anthropic于2026年6月9日发布的首个面向公众开放的Mythos级大语言模型，也是Anthropic迄今公开发布的能力最强通用大模型。该模型与Claude Mythos 5共享同一底层模型架构，区别在于Fable 5配备了更严格的安全分类器：涉及网络安全、生物化学及模型蒸馏等敏感领域的请求会自动回退至Claude Opus 4.8处理，超过95%的日常会话不受影响。Fable 5在软件工程、知识工作、视觉理解、科学研究等多领域达到业内领先水平，尤其擅长长周期、多步骤、高复杂度任务，任务越长越复杂领先优势越大。

2026年6月9日 Anthropic

语言模型

推理模型

编码模型

1024K

Claude Opus 4.8 是 Anthropic 于2026年5月28日发布的旗舰大语言模型，基于 Opus 4.7 进行能力与推理行为升级。新版本聚焦提升智能体编程、多领域推理与知识工作能力，在保持定价不变的前提下实现性能优化与成本下降。

技术原理

Opus 4.8 基于 Opus 4.7 进行重点优化，核心改进包括：显著降低代码缺陷隐瞒概率（降至前代的约1/4），主动标注不确定性、减少无依据结论输出，在复杂多步骤任务中判断更稳定，具备主动提问、自我纠错及对不合理计划提出异议的能力。模型新增 Effort Controls（思考强度控制）功能，用户可自主平衡响应速度与输出质量，默认 high 档位。同时支持 Dynamic Workflows（动态工作流），可自动规划任务并调度数百个并行子智能体处理大规模工程任务。

发展历程

Anthropic 于2025年推出 Claude Opus 系列旗舰模型，先后迭代至 Opus 4.5、4.6、4.7。2026年5月28日，Opus 4.8 正式发布，距 Opus 4.7 仅间隔41天，是 Claude 系列史上最快的一次大版本迭代。同日 Anthropic 宣布完成650亿美元H轮融资，投后估值达9650亿美元。

基准测试表现

SWE-Bench Pro 69.2%（+4.9% vs Opus 4.7），Terminal-Bench 2.1 74.2%（+8.4%），OSWorld-Verified 83.4%，GDPval-AA 1890 Elo（+121 vs GPT-5.5）。在至少12项基准测试中击败 GPT-5.5，仅 Terminal-Bench 2.1 略低于 GPT-5.5。

应用趋势

Opus 4.8 更强调 Token 效率与可靠性，运行成本约降低61%，Fast Mode 成本降至前代1/3。适合大型代码仓库开发与维护、长时间无人值守运行的智能体任务、需要模型主动发现并纠正自身错误的工作、计算机操作类任务等场景。

2026年5月28日 Anthropic

视频生成

多模态模型

Gemini Omni是Google于2026年5月在Google I/O开发者大会上发布的全新多模态视频生成模型，被誉为视频生成领域的"Next Step"。作为Gemini家族的最新成员，Omni将生成式视频能力从独立的Veo产品线整合到核心Gemini系统中。

技术原理

Gemini Omni采用统一的多模态架构，能够原生处理文本、图像、视频和音频输入，并生成对应的视频输出。该模型继承了Gemini的真实世界知识，能够理解重力、动能、流体动力学等物理规律，使生成的场景更加逼真。

核心特性

• 支持对话式编辑（Chat-native Editing），用户可通过自然语言对话持续优化视频
• 保持角色、物体和场景在多轮编辑中的一致性
• 集成了SynthID数字水印技术，可验证AI生成内容
• 支持创建数字Avatar，模拟用户的外貌和声音

发展历程

2026年5月19日：Gemini Omni Flash正式发布

应用趋势

Gemini Omni被视为Google在生成式AI视频领域的重要突破，其深度集成到Search、Gemini App、Flow和YouTube等平台的战略优势，将推动AI视频创作的大规模普及。

2026年5月19日 Google

多模态模型

语言模型

编码模型

推理模型

1024K

Gemini 3.5 Flash是Google于2026年5月19日在Google I/O 2026开发者大会上正式发布的最新一代大语言模型，属于Gemini 3.5家族的首个成员。这是Google有史以来能力最强的智能体与编程模型，在多项编码和智能体基准测试中超越了上一代旗舰模型Gemini 3.1 Pro，同时保持了Flash系列的高速响应特性。

技术原理

Gemini 3.5 Flash基于Gemini 3 Flash推理基础构建，采用原生多模态架构，支持文本、图像、音频和视频输入。模型支持可配置的思考级别（minimal、low、medium、high），开发者可在延迟与推理深度之间灵活取舍。输出速度超过280 token/秒，是GPT-5.5和Claude Opus 4.7等前沿模型的4倍。上下文窗口达100万token，最大输出64K token。API定价为输入$1.50/百万token、输出$9.00/百万token，缓存输入$0.15/百万token。

核心基准表现

在Terminal-Bench 2.1（智能体终端编码）测试中得分76.2%，超过Gemini 3.1 Pro的70.3%；MCP Atlas（多步骤工具使用）得分83.6%；CharXiv Reasoning（多模态科学图表理解）得分84.2%；GDPval-AA（经济价值任务评估）达1656 Elo，较3.1 Pro提升342 Elo。在纯学术推理测试如Humanity's Last Exam和ARC-AGI-2上略逊于3.1 Pro，体现了速度与深度的取舍。

发展历程

Gemini 3.5 Flash是Gemini系列从聊天机器人向智能体运行时转型的标志性产品。Google同期推出了Antigravity智能体优先开发平台，与3.5 Flash协同设计，支持子智能体并行协作。Gemini Spark个人AI助手也基于3.5 Flash构建。同家族的Gemini 3.5 Pro预计2026年6月发布。

2026年5月19日 Google

语言模型

推理模型

256K

Qwen3-Max-Preview是阿里巴巴通义千问于2025年9月发布的旗舰级大语言模型，是Qwen系列首个突破万亿参数的重大里程碑，代表着中国AI大模型在超大规模模型领域的重要突破。

技术原理

发展历程

核心能力

商业化

核心能力

定价

应用场景

核心能力

定价

应用场景

技术原理

发展历程

应用趋势

技术原理

发展历程

基准测试表现

应用趋势

技术原理

核心特性

发展历程

应用趋势

技术原理

核心基准表现

发展历程

技术原理

发展历程

应用趋势

资讯

关于我们

内容服务

产品服务

联系我们

人工导购

咨询服务