计算机视觉作为人工智能的一个重要分支,主要致力于赋予计算机解读和理解视觉世界的能力。它融合了大量算法和先进的机器学习技术,比如 Transformer,来仔细审查并理解从相机和其他成像设备获取的视觉数据。
计算机视觉的数学模型描绘了视觉感知中固有的基本原理和程序。其总体目标是模拟人类视觉系统的复杂功能,使计算机能够在图像和视频中精确地识别、分类物体、人物和场景。
计算机视觉模型有各种各样的形式。传统的包括基于特征的模型、深度学习网络和卷积神经网络(CNNs)。然而,近年来,基于 Transformer 架构的模型在该领域已成为一股革命性的力量。Transformer 凭借其自注意力机制,能够捕捉视觉数据中的长距离依赖关系,为视觉分析提供了全新的视角。
目前,前沿的基于 Transformer 架构的视觉模型有 T-Rex2,Grounding DINO, DINO-X 等。