全模态
文本生成
语音合成
图像理解
视频生成
音频理解
16K

