首页
资讯
GPT
元宇宙
区块链
操作系统
数字产品
供应商
大模型
查产品
查企业
查资料
热门搜索:
数字员工
数字孪生
数字化转型
关注公众号
分类
全部
文本
语言
图像
视频
语音
音频
编码
多模态
推理
排序
向量
行业
其他
上下文
全部
<=8k
<=32k
<=64k
<=128k
>128k
热门
全部
DeepSeek
GPT
Claude
通义千问
GLM
Doubao
元宝
排序
默认
发布时间
热度
Qwen-Image
图像生成
多模态
4K
Qwen-Image 是通义千问系列中的最新图像基础模型,专注于图像生成,尤其在文字渲染和图像编辑方面取得了显著突破。它是一个 20B 规模的 MMDiT 模型,致力于解决复杂文字在图像里的清晰、高保真且自然呈现这一难题。支持多行布局、段落文字、书法风格、广告牌牌匾、标志、海报等多种情境下的文字生成,同时能进行对象增删、风格转换、细节增强、人物姿态调整等多样编辑操作。
2025年9月15日
阿里巴巴
MiMo-V2-Flash
推理模型
文本生成
256K
MiMo-V2-Flash是小米公司于2025年12月16日发布并开源的MoE模型,总参数量达309B,活跃参数为15B。通过Hybrid Attention架构和多层MTP技术,实现了2倍生成速度提升和极低的推理成本。该模型专为智能体AI设计,支持256K超长上下文窗口,在多个Agent测评基准上保持全球开源模型Top 2地位。
2025年12月17日
小米
LongCat-Video-Avatar
视频生成
多模态
LongCat-Video-Avatar是美团LongCat团队发布的SOTA级虚拟人视频生成模型,基于LongCat-Video基座打造,支持多任务设计,包括Audio-Text-to-Video、Audio-Text-Image-to-Video及视频续写等功能。该模型在动作拟真度、长视频稳定性与身份一致性方面有显著提升,能够实现丰富饱满的情感表达,并在不说话时也能自然表现人类行为。
2025年12月18日
美团
GLM-ASR-Nano
语音识别
GLM-ASR-Nano是智谱推出的轻量级开源端侧语音识别模型,参数量为1.5B,主打本地运行,在延迟和隐私层面更友好。它在开源语音识别方向已达到SOTA水平,在部分测试中甚至超过了若干闭源模型。
2025年12月10日
智谱
GLM-4.6V
多模态
图像理解
文本生成
125K
GLM-4.6V 是智谱 AI 开源的多模态大模型系列,包括面向云端与高性能集群场景的基础版 GLM-4.6V(106B-A12B)和面向本地部署与低延迟应用的轻量版 GLM-4.6V-Flash(9B)。该模型将训练时上下文窗口提升到 128k tokens,在视觉理解精度上达到同参数规模 SOTA,首次在模型架构中将 Function Call(工具调用)能力原生融入视觉模型,打通从“视觉感知”到“可执行行动”的链路,为真实业务场景中的多模态 Agent 提供统一的技术底座。
2025年12月12日
智谱 AI
LongCat-Image
图片生成
图片处理
LongCat-Image是美团LongCat团队研发的图像生成与编辑基础模型,参数规模为6B(60亿),属于轻量化大模型。与之前动辄百亿参数的主流模型相比,它通过创新架构设计和系统性训练策略,在保持高生成质量的同时大幅降低了计算资源需求。模型采用文生图与图像编辑同源的混合骨干架构(MM-DiT+Single-DiT),并整合了视觉语言模型(VLM)条件编码器,实现了生成与编辑的一体化处理。
2025年12月8日
美团
DeepSeek-V3.2-Speciale
推理模型
125K
DeepSeek-V3.2-Speciale是深度求索推出的极致推理增强版模型,结合了DeepSeek-Math-V2的定理证明能力,具备出色的指令跟随、严谨的数学证明与逻辑验证能力。该模型在多个推理基准测试中媲美谷歌的Gemini-3.0-Pro,并在国际数学奥林匹克竞赛(IMO 2025)、国际信息学奥林匹克竞赛(IOI 2025)等竞赛中斩获金牌级表现。
2025年12月2日
深度求索
混元 2.0
多模态
图片生成
视频生成
腾讯混元2.0是一款多模态大模型,专注于图像生成和游戏视觉内容生产。该模型在图像生成速度上实现了毫秒级响应,支持实时文生图和实时绘画板功能,大幅提升了创意表达和设计效率。混元2.0在游戏场景中表现出色,支持图生视频、自定义模型训练和角色一键精修等功能,适用于游戏资产生成和美术设计。
2025年9月5日
腾讯
豆蔻大模型
行业大模型
豆蔻妇科大模型是由壹生检康(杭州)生命科技有限公司研发的垂直医疗模型,专注于妇产科领域。该模型通过国家妇产科卫生高级职称(正高)笔试考试,具备主任级医师的专业判断力。模型依托钉钉企业专属AI平台,通过高质量妇产科数据构建与多阶段优化训练方法实现性能跃升,诊断准确率达到90.2%。
2025年7月29日
壹生检康(杭州)生命科技有限公司
MiMo-Embodied
多模态
行业大模型
MiMo-Embodied是小米推出的业界首个成功打通自动驾驶与具身智能的跨域具身基座模型,实现了两大领域任务的统一建模,标志着通用具身智能研究从“垂直领域专用”向“跨域能力协同”迈出关键一步。该模型同步支持具身智能三大核心任务(可供性推理、任务规划、空间理解)与自动驾驶三大关键任务(环境感知、状态预测、驾驶规划),形成全场景智能支撑。
2025年11月21日
小米
Gemini 3 Pro
多模态
推理模型
全模态
977K
Gemini 3 Pro是谷歌推出的最新一代AI模型,具备强大的推理、多模态理解和编程能力。它支持原生多模态输入,包括文本、图像、视频、音频和代码,能够在复杂任务中表现出色。Gemini 3 Pro在多个基准测试中表现优异,尤其是在推理、多模态和编程领域,被誉为当前最智能的AI模型之一。
2025年11月19日
Google
VibeThinker-1.5B
推理模型
文本生成
32K
VibeThinker-1.5B是新浪微博推出的开源大型语言模型,拥有15亿参数。该模型通过创新的“频谱到信号原理”(SSP)训练框架,在数学推理和代码生成任务中表现出色,甚至超越了参数量更大的模型。VibeThinker-1.5B的开源旨在为全球计算资源有限的中型企业及高校研究团队提供一条高性价比的研发新路径。
2025年11月13日
新浪微博
1
……
3
4
5
……
44
资讯
一门“洗稿”生意:AI抄袭“神韵” 爆款文章遭批量魔改
DeepSeek V4大模型被曝春节前后发布:AI编程能力质...
25个火过的国产AI应用,凉了
首销备货 3 万台,豆包 AI 手机要卖给谁?
雷军:未来5年人形机器人将大面积在小米工厂上岗
金融人才培养加速“数字化”转型 第二届全国高校数字...
工信部:“十五五”智能网联新能源汽车产业发展规划将...
蚂蚁开源万亿参数思考模型,综合能力逼近GPT-5
中央网信办、国家发展改革委印发《政务领域人工智...
科技部:正在推动人形机器人在汽车制造、物流搬运、...
人工导购
咨询服务
回顶部
联系我们
关注公众号
立刻获取最新消息及人工咨询