计算机毕业设计springboot贵州红色旅游推荐系统 基于SpringBoot的贵州革命文化景点智能导览与服务平台 JavaWeb贵州红色文化资源数字化管理与推荐系统

核心内容摘要

ClearerVoice-Studio黑科技:从视频中精准抓取人声
语音识别利器Whisper:从安装到高级使用的完整教程

FantiaDL:3步实现Fantia内容本地化管理的开源神器

人类在观察复杂场景时通常会先快速扫视整体轮廓形成初步认知再集中注意力到关键区域进行细节分析。

这种 “纵观全局-聚焦细节” 的两阶段认知机制被称为自上而下注意力Top-down Attention是人类视觉系统高效强大的核心秘密。

如今来自香港大学俞益洲教授实验室的研究团队将这一认知机制成功引入视觉骨干网络的设计之中提出了一种全新的动态卷积视觉模型——OverLoCKOverview-first-Look-Closely-next ConvNet。

该模型在ImageNet、COCO、ADE20K等权威基准上取得了卓越性能相关论文已被CVPR 2025接收为口头报告Oral。

目录

突破瓶颈传统视觉骨干的局限

核心思想模拟人类视觉的双阶段处理

三、

关键技术上下文混合动态卷积ContMix

卓越性能多项任务领先

消融研究

深入洞察可视化的证据

总结与展望论文地址https://arxiv.org/abs/

2

20087 (arxiv)https://pse.is/8gyc6d (IEEE/CVF)代码仓库https://github.com/LMMMEng/OverLoCK

突破瓶颈传统视觉骨干的局限当前主流的视觉骨干网络如Swin Transformer、ConvNeXt、VMamba等大多采用经典的金字塔架构从底层到高层逐层抽象特征。

这种设计存在一个根本性限制——中层特征缺乏来自高层语义的显式指导。

就像“只见树木不见森林”模型在局部处理时无法有效利用对全局的已有理解来聚焦关键信息。

与此同时现有的卷积算子也难以同时满足动态全局建模与强局部归纳偏置的双重要求大核卷积/动态卷积感受野受固定核尺寸限制在高分辨率输入下仍局限于局部。

可变形卷积虽然能适应不同形状但弱化了卷积固有的平移等变性局部感知能力下降。

Self-Attention/SSM虽能动态建模长程依赖但缺乏卷积固有的空间归纳偏置且计算开销大。

如何让一个纯粹的卷积网络既能像Transformer一样灵活捕捉全局上下文又能保持卷积的强局部性优势OverLoCK给出了一个优雅的答案。

核心思想模拟人类视觉的双阶段处理研究团队的核心灵感直接来源于神经科学。

他们摒弃了传统的金字塔构建策略创新性地提出了 “深度阶段分解” 架构将网络清晰地划分为三个功能明确的子模型Base-Net基础网络扮演“视网膜”的角色专注于快速提取图像的中低层特征如边缘、纹理为后续处理打下基础。

Overview-Net概览网络实现“第一眼认知”。

它基于Base-Net的特征快速生成一个粗糙的全局语义先验Top-down Guidance。

这相当于大脑对场景的初步整体理解。

Focus-Net聚焦网络进行“凝视观察”。

它在Overview-Net提供的全局先验指导下对关键区域进行精细化特征提取与分析最终形成鲁棒的特征表示。

最关键的是来自Overview-Net的全局先验信息会贯穿并持续指导Focus-Net的每一个计算步骤不仅在特征层面进行调制还直接参与动态卷积核权重的生成实现了自上而下信号的全方位、深层次注入。

三、

关键技术上下文混合动态卷积ContMix为了让模型在保持卷积强归纳偏置的同时获得动态的全局建模能力团队提出了全新的ContMixContext-Mixing动态卷积模块。

这是OverLoCK的核心引擎。

ContMix的运作机制非常巧妙对于特征图上的每个局部位置token计算其与多个全局聚类中心token的亲和度affinity。

将这些亲和度关系通过一个可学习的映射动态生成该位置专属的卷积核权重。

这个生成的动态卷积核在局部窗口内进行操作但由于其权重蕴含了该位置与全局上下文的关联信息因此一次局部卷积实际上完成了局部特征与全局知识的混合。

简单来说ContMix让每个局部的卷积操作都“心中有全局”。

它不仅计算高效而且保持了卷积的局部性和平移等变性优势。

在设计中团队发现将Focus-Net的当前特征作为“查询”Query而将Overview-Net的全局先验作为“键”Key来生成动态核权重能获得最佳性能。

ContMix即插即用版本代码链接https://github.com/LMMMEng/OverLoCK/blob/main/models/contmix.py

卓越性能多项任务领先OverLoCK在多个极具挑战性的视觉任务上证明了其强大实力图像分类ImageNet-1K参数量仅30M的OverLoCK-Tiny模型达到了

8

2% 的Top-1准确率在同等参数量下显著超越UniRepLKNet、MogaNet、VMamba等前沿ConvNet、Transformer和Mamba模型。

目标检测与实例分割COCO在使用Mask R-CNN和Cascade Mask R-CNN框架时OverLoCK均表现出色。

例如OverLoCK-S相比BiFormer-B和MogaNet-B在Box AP上分别提升

8%和

5%。

这尤其证明了其在高分辨率输入下保持强大长程依赖建模能力的优势弥补了许多卷积网络在检测任务上的性能缺口。

语义分割ADE20KOverLoCK-T以超过VMamba-T

3% mIoU 的显著优势展示了其在密集预测任务中对全局上下文和细节的卓越协调能力。

消融研究ContMix是一种即插即用的模块。

因此我们基于不同的token mixer构建了类似的金字塔架构。

如表7所示我们的ContMix相较于其他mixer具有明显的优势这种优势在更高分辨率的语义分割任务上尤为明显这主要是因为ContMix具有强大的全局信息建模能力。

深入洞察可视化的证据研究提供了两项关键可视化直观揭示了OverLoCK的工作机制有效感受野对比OverLoCK产生的感受野既广阔又局部敏感成功兼顾了全局上下文感知和细节捕捉能力这是其他单一模型难以实现的。

Top-down Guidance可视化通过Grad-CAM对特征图进行可视化可以清晰看到Overview-Net首先对目标物体如飞机进行粗粒度定位当此信号作为指导注入Focus-Net后目标的定位和轮廓被显著精细化。

这一过程与人类视觉的注意力机制高度吻合有力验证了OverLoCK设计理念的合理性。

总结与展望OverLoCK的提出为视觉骨干网络的设计开辟了一条崭新的路径。

它首次将神经科学中成熟的Top-down Attention机制以清晰、可扩展的架构形式引入深度学习模型并通过创新的ContMix动态卷积解决了全局建模与局部归纳偏置的兼容难题。

这项工作表明借鉴人脑的高效处理机制依然是推动AI向前发展的宝贵源泉。

OverLoCK不仅提供了强大的性能基线其“深度阶段分解”的架构思想和ContMix模块也具有广泛的启发意义和移植价值有望在更多需要精细理解与全局推理的视觉任务中发挥作用。

B站3000部纪录片免费-B站3000部纪录片免费应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123