锚框,也被称为先验框,是预先设定好的边界框,在目标检测算法中起着至关重要的作用。这些框是用于辅助在图像中识别目标的一种手段。它们通常是根据算法所要检测的目标的特征尺寸和宽高比来选择的。例如,当算法旨在检测汽车时,很可能会选择具有较宽矩形宽高比的锚框,因为这种形状与汽车的典型外形非常匹配。 当目标检测算法处理一幅图像时,它会有系统地将一组锚框应用于图像中的不同位置。对于每个单独的锚框,算法会采用一个骨干网络(可以是卷积神经网络(CNN)或者 Transformer)来判断该框内是否包含目标。如果框内存在目标,该网络还会进一步对目标所属的具体类别进行分类。此外,算法依靠该网络来精确预测包含目标的边界框的坐标。
卷积神经网络(CNN)
卷积神经网络(CNN)是一种专门为处理网格状数据(如图像)而设计的深度学习模型。它们使用卷积层,该层将一组可学习的滤波器应用于输入数据。这些滤波器在输入图像上滑动,在每个位置执行卷积操作。这个过程有助于提取局部特征,如边缘、角点和纹理。池化层通常用于 CNN 中,对特征图进行下采样,在保留最重要信息的同时降低计算复杂度。网络末尾的全连接层用于分类和回归任务。
Transformer
Transformer 是深度学习领域中一种相对较新的架构。它们最初是为自然语言处理任务而引入的,但后来已被应用于计算机视觉,包括目标检测。Transformer 基于自注意力机制,该机制允许模型权衡输入序列不同部分的重要性。在目标检测的背景下,基于 Transformer 的模型可以将整个图像作为一个图像块序列进行处理。这种架构使模型能够捕捉图像不同部分之间的长距离依赖关系,这对于在复杂场景中检测目标可能是有益的。
目前前沿的基于 Transformer 架构的目标检测模型包括 T-Rex2,Grounding DINO,DINO-X 等。