核心内容摘要
深入哥布林洞窟:一场关于生存、智慧与黑暗的史诗冒险
这篇文章介绍多模态模型-YOLO World多模态基础知识介绍可以看多模态-1 基础理论Grounding DINO介绍可以看多模态-7 Grounding DINOCLIP介绍可以看多模态-2 CLIPYOLO World原论文:《YOLO-World: Real-Time Open-Vocabulary Object Detection》YOLO World类似Grounding DINO也是解决开放集合目标检测的问题但是使用的图像编码器是YOLO(具体是YOLO V
相比于以往的开放集合目标检测模型更轻量推理部署阶段可进一步配合重参数化的技巧提升推理速度使YOLO World接近于原始YOLO的速度消费级显卡上可达70 FPS。
一 模型结构与训练YOLO World整体结构如下输入依旧是图像文本但是相比于Grounding DINOYOLO World输入的文本是类别名称列表而Grounding DINO是任意格式的文本。
YOLO-World 更适合“我知道要检测什么只是模型没学过”的场景而Grounding DINO 更适合“我用语言描述我想找的东西”的场景。
将图片输入到YOLO的Backbone中进行图像特征提取将类别文本输入到Text Encoder中进行文本编码特征提取(论文中使用的Text Encoder是CLIP)利用Vision-Language PAN进行图像特征、文本编码特征的语义对齐将语义对齐后的特征输入到Text Contrastive Head、Box Head中得到预测类别和矩形框坐标输出和真实标签计算损失反向梯度传播训练整个YOLO World。
1 Text Encoder利用CLIP对输入的文本类别列表如[cat,dog,apple]进行特征编码表示得到[C,D]大小的编码表示矩阵其中C是类别的个数、D是文本特征编码表示的嵌入向量维度。
如果输入的是一整段的文本则利用n-gram方法从文本中提取出文本类别列表再进行特征编码表示比如输入的是“a cat and a dog eat apple”需要借助n-gram方法从这段文本中提取出来要检测的类别名词然后形成类别名称列表再输入到CLIP中进行特征编码表示。