首页
资讯
GPT
元宇宙
区块链
操作系统
数字产品
供应商
大模型
登录
查产品
查企业
查资料
热门搜索:
数字员工
数字孪生
数字化转型
关注公众号
分类
全部
文本
语言
图像
视频
语音
音频
编码
多模态
推理
排序
向量
行业
其他
上下文
全部
<=8k
<=32k
<=64k
<=128k
>128k
热门
全部
DeepSeek
GPT
Claude
通义千问
GLM
Doubao
元宝
排序
默认
发布时间
热度
LongCat-Video-Avatar
视频生成
多模态
LongCat-Video-Avatar是美团LongCat团队发布的SOTA级虚拟人视频生成模型,基于LongCat-Video基座打造,支持多任务设计,包括Audio-Text-to-Video、Audio-Text-Image-to-Video及视频续写等功能。该模型在动作拟真度、长视频稳定性与身份一致性方面有显著提升,能够实现丰富饱满的情感表达,并在不说话时也能自然表现人类行为。
2025年12月18日
美团
GLM-ASR-Nano
语音识别
GLM-ASR-Nano是智谱推出的轻量级开源端侧语音识别模型,参数量为1.5B,主打本地运行,在延迟和隐私层面更友好。它在开源语音识别方向已达到SOTA水平,在部分测试中甚至超过了若干闭源模型。
2025年12月10日
智谱
GLM-4.6V
多模态
图像理解
文本生成
125K
GLM-4.6V 是智谱 AI 开源的多模态大模型系列,包括面向云端与高性能集群场景的基础版 GLM-4.6V(106B-A12B)和面向本地部署与低延迟应用的轻量版 GLM-4.6V-Flash(9B)。该模型将训练时上下文窗口提升到 128k tokens,在视觉理解精度上达到同参数规模 SOTA,首次在模型架构中将 Function Call(工具调用)能力原生融入视觉模型,打通从“视觉感知”到“可执行行动”的链路,为真实业务场景中的多模态 Agent 提供统一的技术底座。
2025年12月12日
智谱 AI
LongCat-Image
图片生成
图片处理
LongCat-Image是美团LongCat团队研发的图像生成与编辑基础模型,参数规模为6B(60亿),属于轻量化大模型。与之前动辄百亿参数的主流模型相比,它通过创新架构设计和系统性训练策略,在保持高生成质量的同时大幅降低了计算资源需求。模型采用文生图与图像编辑同源的混合骨干架构(MM-DiT+Single-DiT),并整合了视觉语言模型(VLM)条件编码器,实现了生成与编辑的一体化处理。
2025年12月8日
美团
DeepSeek-V3.2-Speciale
推理模型
125K
DeepSeek-V3.2-Speciale是深度求索推出的极致推理增强版模型,结合了DeepSeek-Math-V2的定理证明能力,具备出色的指令跟随、严谨的数学证明与逻辑验证能力。该模型在多个推理基准测试中媲美谷歌的Gemini-3.0-Pro,并在国际数学奥林匹克竞赛(IMO 2025)、国际信息学奥林匹克竞赛(IOI 2025)等竞赛中斩获金牌级表现。
2025年12月2日
深度求索
混元 2.0
多模态
图片生成
视频生成
腾讯混元2.0是一款多模态大模型,专注于图像生成和游戏视觉内容生产。该模型在图像生成速度上实现了毫秒级响应,支持实时文生图和实时绘画板功能,大幅提升了创意表达和设计效率。混元2.0在游戏场景中表现出色,支持图生视频、自定义模型训练和角色一键精修等功能,适用于游戏资产生成和美术设计。
2025年9月5日
腾讯
豆蔻大模型
行业大模型
豆蔻妇科大模型是由壹生检康(杭州)生命科技有限公司研发的垂直医疗模型,专注于妇产科领域。该模型通过国家妇产科卫生高级职称(正高)笔试考试,具备主任级医师的专业判断力。模型依托钉钉企业专属AI平台,通过高质量妇产科数据构建与多阶段优化训练方法实现性能跃升,诊断准确率达到90.2%。
2025年7月29日
壹生检康(杭州)生命科技有限公司
MiMo-Embodied
多模态
行业大模型
MiMo-Embodied是小米推出的业界首个成功打通自动驾驶与具身智能的跨域具身基座模型,实现了两大领域任务的统一建模,标志着通用具身智能研究从“垂直领域专用”向“跨域能力协同”迈出关键一步。该模型同步支持具身智能三大核心任务(可供性推理、任务规划、空间理解)与自动驾驶三大关键任务(环境感知、状态预测、驾驶规划),形成全场景智能支撑。
2025年11月21日
小米
Gemini 3 Pro
多模态
推理模型
全模态
977K
Gemini 3 Pro是谷歌推出的最新一代AI模型,具备强大的推理、多模态理解和编程能力。它支持原生多模态输入,包括文本、图像、视频、音频和代码,能够在复杂任务中表现出色。Gemini 3 Pro在多个基准测试中表现优异,尤其是在推理、多模态和编程领域,被誉为当前最智能的AI模型之一。
2025年11月19日
Google
VibeThinker-1.5B
推理模型
文本生成
32K
VibeThinker-1.5B是新浪微博推出的开源大型语言模型,拥有15亿参数。该模型通过创新的“频谱到信号原理”(SSP)训练框架,在数学推理和代码生成任务中表现出色,甚至超越了参数量更大的模型。VibeThinker-1.5B的开源旨在为全球计算资源有限的中型企业及高校研究团队提供一条高性价比的研发新路径。
2025年11月13日
新浪微博
Pelican-VL 1.0
多模态
具身智能
Pelican-VL 1.0 是北京人形机器人创新中心开源的一款具身智能 VLM 模型,覆盖 7B 和 72B 参数规模,是全球性能最强大的具身智能 VLM 模型之一。该模型通过 DPPO 训练范式,实现了在视觉-语言和具身任务上的卓越性能,支持零样本物体操作、触觉闭环抓握和多机器人协作等任务。
2025年11月14日
北京人形机器人创新中心
Kimi-K2-Thinking
推理模型
智能体
250K
Kimi K2 Thinking 是月之暗面发布的开源思考模型,具备边思考边使用工具的能力,无需用户干预,可自主实现300轮工具调用和多轮思考能力。在自主网络浏览能力、复杂信息收集推理等多项基准测试中达到领先水平。
2025年11月13日
月之暗面
1
……
7
8
9
……
48
资讯
450亿美元!国家大基金拟领投DeepSeek首轮融资,中...
刚刚,DeepSeek V4 双版本正式上线!
梁文锋内部透露:DeepSeek V4将于4月下旬发布
五款头部AI平台半数医学建议存在误导性,研究称AI...
狂揽4万星!换掉OpenClaw太爽了,5美元就能养个AI打...
阿里巴巴新设集团技术委员会:升级通义大模型事业...
DeepSeek 上线专家模式
智谱 AI 财报炸场,Token 价值暴涨、核心指标直追 ...
中兴通讯联合字节跳动研发新一代豆包AI手机,预计2...
国家数据局确认 Token中文名:词元
人工导购
咨询服务
回顶部
联系我们
关注公众号
立刻获取最新消息及人工咨询