T-Rex Label

跨模态智能体

跨模态智能体整合文本、图像和视频输入,执行视觉问答、多模态内容生成等任务。它们在复杂场景中提高了任务准确率。