DINO-X 是一款以物体为中心的统一视觉模型,在开放世界目标检测方面性能领先。为简化长尾目标检测流程,该模型扩展了输入方式,支持文本提示、视觉提示及自定义提示。其研发的通用对象提示功能可实现无提示开放世界检测,无需用户提供任何提示即可识别图像中的任意对象。
为提升模型的开放词汇检测性能,DINO-X 团队构建了一个包含超 1 亿个高质量接地样本的大规模数据集,名为 Grounding-100M。此外,DINO-X 还集成了多个感知头,能够同时支持多种对象感知与理解任务,包括检测、分割、姿态估计、对象描述生成及基于对象的问答等。
DINO-X 包含两个模型版本: a. DINO-X Pro:性能最强的版本,具备增强的感知能力,适用于多种场景 b. DINO-X Edge:高效版本,经过优化以实现更快的推理速度,更适合部署在边缘设备上