系统的输入是一对图像-标题。我们使用及其对应标题的视觉和文本嵌入。然后,我们通过交叉注意力机制进行图像-文本交互,获得多模态特征。我们将感兴趣的对象维护在预定义的对象词汇表中。对于嵌入在标题中的每个感兴趣的对象(例如,图中的球拍),我们使用 Grad-CAM 可视化其在图像中的激活图。该图指示图像区域对对象词最终表示的贡献。最后,我们通过选择与激活图重叠最大的对象提案来确定对象的伪边界框标签。
图 4 展示了一些激活图的示例,表明激活区域与相关区域良好对应。生成的边界框质量良好。当直接用它们训练开放词汇目标检测器时,该检测器的性能显著优于目前最优秀的开放词汇/零样本目标检测器。
图 4. 部分激活图的可视化。彩色块表示相应区域中 Grad-CAM 激活图的值。我们将图中值小于最 手机号数据库列表 大值一半的块清零,以突出显示主要焦点。黑色框表示目标提议,红色框表示最终选定的伪边界框标签。
检测器训练:使用伪标签进行 OVD 学习
获得伪边界框标签后,我们可以用它们来训练开放词汇目标检测器。由于伪标签生成与检测器训练过程分离,我们的框架可以兼容任何架构的检测器。在本研究中,我们专注于开放词汇场景,其中检测器的目标是在推理过程中检测任意目标。
在我们的检测器中,图像首先由特征提取器处理,然后由区域提议网络处理。然后,通过在区域提议上应用 RoI 池化/RoI 对齐来计算基于区域的特征,并获得相应的视觉嵌入。在训练过程中,我们鼓励同一对象的视觉嵌入和文本嵌入保持相似性。