什么是DINO-X？ - T-Rex Label

DINO-X 是一款以物体为中心的统一视觉模型，在开放世界目标检测方面性能领先。为简化长尾目标检测流程，该模型扩展了输入方式，支持文本提示、视觉提示及自定义提示。其研发的通用对象提示功能可实现无提示开放世界检测，无需用户提供任何提示即可识别图像中的任意对象。

为提升模型的开放词汇检测性能，DINO-X 团队构建了一个包含超 1 亿个高质量接地样本的大规模数据集，名为 Grounding-100M。此外，DINO-X 还集成了多个感知头，能够同时支持多种对象感知与理解任务，包括检测、分割、姿态估计、对象描述生成及基于对象的问答等。

DINO-X 包含两个模型版本： a. DINO-X Pro：性能最强的版本，具备增强的感知能力，适用于多种场景 b. DINO-X Edge：高效版本，经过优化以实现更快的推理速度，更适合部署在边缘设备上