核心内容摘要
深夜的视觉孤岛:影音先锋电️影背后的感官图腾与数字冒险
论文题目WaveFormer: Frequency-Time Decoupled Vision Modeling with Wave Equation论文作者Zishan Shu, Juntong Wu, et al. (Peking University, Tsinghua University)论文链接 (Paper)https://arxiv.org/abs/
2
08602代码链接(code)https://github.com/ZishanShu/WaveFormer哔哩哔哩视频讲解https://space.bilibili.com/57394501?spm_id_from
333.
337.
0目录
核心思想
背景与动机
1 文本背景与痛点
2 动机图解分析
主要创新点
方法细节
1 整体网络架构
2 核心创新模块详解
3 理念与机制
总结
即插即用模块的作用
实验分析
获取即插即用代码关注 【AI即插即用】
核心思想本文提出了一种名为WaveFormer的全新视觉骨干网络旨在解决现有 Transformer 计算复杂度高以及基于“热传导”物理模型容易导致特征过度平滑的问题。
核心思想是将特征图视为一种空间信号利用欠阻尼波动方程Underdamped Wave Equation来建模其随网络深度的演化过程。
通过推导该方程在频域的闭式解作者设计了 波传播算子WPO实现了频率与时间的解耦使得模型既能以O ( N log N ) O(N \log N)O(NlogN)的线性复杂度进行全局建模又能有效保留高频细节如边缘、纹理在图像分类、检测和分割任务上均取得了优于 Swin Transformer 和 Vision Mamba 的性能。
背景与动机
1 文本背景与痛点视觉基础模型Foundation Models目前面临两个主要流派的局限Transformer 流派虽然通过 Self-Attention 实现了全局建模但O ( N 2 ) O(N^
O(N
的计算复杂度限制了高分辨率图像的处理且缺乏物理可解释性。
物理启发流派如 vHeat近期出现了一些基于热传导方程Heat Equation的模型。
然而热传导本质上是一种低通滤波器高频信号细节会随着传播时间网络深度的增加而迅速衰减导致特征过度平滑Over-smoothing丢失了视觉任务中至关重要的边缘和纹理信息。
本文动机能否找到一种物理机制既能像波一样传播很远全局建模又能保持高频能量不被迅速耗散保留细节答案就是波动方程。
2 动机图解分析看图说话动机分析左图 (Previous Methods - Attention)展示了 Self-Attention 的机制。
可以看到一个像素点需要与全图中所有其他像素点建立连接密集的红色箭头。
这意味着计算量是像素数N NN的平方 (O ( N 2 ) O(N^
O(N
)效率极低且缺乏对空间传播规律的显式建模。
右图 (WaveFormer - WPO)展示了本文提出的波传播机制。
形态特征像水波纹Ripple一样向外扩散呈现出振荡Oscillatory特性。
公式图中给出的核心公式e − α t / 2 ( A cos ω t B sin ω t ) e^{-\alpha t/2}(A \cos \omega t B \sin \omega t)e−αt/2(AcosωtBsinωt)揭示了其本质——振荡传播。
优势这种机制的复杂度仅为O ( N log N ) O(N \log N)O(NlogN)借助 FFT且通过振荡能量可以在不同频率间平衡不会像热传导那样“闷死”高频细节。
主要创新点物理启发的波动视角首次将视觉特征图的演化建模为欠阻尼波动方程的物理过程打破了传统的注意力机制或热传导范式。
频率-时间解耦 (Frequency-Time Decoupling)推导出了波动方程的频域闭式解使得信号的衰减Damping,α \alphaα与空间频率ω \omegaω解耦。
这意味着我们可以让高频边缘传播得很远而不受低通滤波限制。
波传播算子 (WPO)设计了一个基于快速傅里叶变换FFT的高效算子将复杂的微分方程求解转化为频域的逐元素乘法实现了O ( N log N ) O(N \log N)O(NlogN)的极低复杂度。
WaveFormer 架构构建了一个通用的分层视觉骨干网络作为即插即用的模块替代标准 ViT 或 CNN在各项任务上实现了精度与效率的双赢。
方法细节
1 整体网络架构数据流详解输入 (Input)输入图像H × W × 3 H \times W \times 3H×W×3。
分层结构 (Hierarchical Stages)网络分为 4 个阶段Stage 1 ~ Stage 4类似于 Swin Transformer 或 ResNet。
Downsampling每个阶段开始前使用重叠的 Patch Embedding 进行下采样降低分辨率并增加通道数。
核心路径 (Main Path)在每个阶段内部堆叠多个WaveFormer Block。
每个 Block 包含两个主要部分WPO (Wave Propagation Operator)负责空间混合FFN (Feed-Forward Network)负责通道混合。
残差连接Residual Connection贯穿始终保证梯度流动。
输出 (Output)经过全局平均池化和分类头或直接输出特征图给检测头。
2 核心创新模块详解模块 A波传播算子 (Wave Propagation Operator, WPO)内部结构与数据流频域变换 (FFT)输入特征X XX经过二维 FFT 变换到频域F ( X ) \mathcal{F}(X)F(X)。
波核调制 (Modulation)这是核心步骤。
在频域中特征与一个物理推导出的波传播核 (Green’s Function)进行逐元素相乘。
核心公式U t F − 1 { e − α t / 2 [ F ( U 0 ) cos ( ω d t ) … ω d sin ( ω d t ) ] } U_t \mathcal{F}^{-1} \{ e^{-\alpha t/2} [\mathcal{F}(U_
\cos(\omega_d t) \frac{\dots}{\omega_d} \sin(\omega_d t)] \}UtF−1{e−αt/2[F(U0)cos(ωdt)ωd…sin(ωdt)]}物理含义e − α t / 2 e^{-\alpha t/2}e−αt/2阻尼项。
控制信息的整体衰减速度但它是独立于频率的。
cos ( ω d t ) / sin ( ω d t ) \cos(\omega_d t) / \sin(\omega_d t)cos(ωdt)/sin(ωdt)振荡项。
负责将信息以波的形式传播出去。
ω d \omega_dωd频率项。
由空间频率( k x , k y ) (k_x, k_y)(kx,ky)决定。
逆变换 (IFFT)将调制后的频域特征变换回空域得到传播后的特征。
参数学习其中的阻尼系数α \alphaα和波速v vv是可学习的参数让网络自适应地决定“波”传多快、衰减多慢。
模块 B自适应参数机制设计理念不同图像、不同层级需要的感受野和细节保留程度不同。
工作机制作者并没有把波速v vv和阻尼α \alphaα设为固定常数而是设为可学习参数甚至可以设计为 Input-dependent 的。
这使得 WaveFormer 能够针对特定语义如物体边界进行定向的波传播增强了灵活性。
3 理念与机制
总结WaveFormer 的核心理念是**“用振荡对抗平滑”**传统的热传导Heat-based是耗散的时间越长细节越少低通滤波。
本文的波动方程Wave-based是守恒/振荡的。
通过引入频率-时间解耦它允许高频信息细节在传播过程中“存活”下来同时利用波的衍射特性实现全局覆盖。
这在数学上保证了模型既有 ViT 的全局视野又有 CNN 的细节捕捉能力。
即插即用模块的作用WPO (Wave Propagation Operator)模块是一个高度通用的组件替代 Self-Attention适用场景任何使用 ViT 的场景特别是对计算资源敏感或输入分辨率极高如遥感、医疗影像的任务。
应用直接替换 Transformer Block 中的 MHSA多头自注意力可以将复杂度从O ( N 2 ) O(N^
O(N
降为O ( N log N ) O(N \log N)O(NlogN)同时显著提升推理速度Throughput。
增强 CNN 的全局感知适用场景纯 CNN 架构如 ConvNeXt。
应用可以在 CNN 的深层插入 WPO 模块作为一种高效的 Global Context Block帮助 CNN 突破感受野限制。
实验分析ImageNet 分类精度WaveFormer-Base 达到
8
2% Top-1超越了 Swin-B (
8
5%) 和最近的 Vision Mamba (Vim-B,
8
2%)。
效率在同等精度下WaveFormer 的吞吐量Throughput显著更高。
例如WaveFormer-T 比 ConvNeXt-T 快26%比 Vim-S 快92%。
下游任务 (COCO 检测 ADE20K 分割)在 Mask R-CNN 框架下WaveFormer-T 的 AP_box 达到
4
8比 Swin-T 高出
1个点。
这证明了保留高频细节波的特性对于定位密集型任务检测、分割具有巨大优势。
物理模型对比相比于基于热传导的vHeat(CVPR
WaveFormer 在各项指标上均有提升直接验证了“波动优于热传导”的理论假设——即避免过度平滑对于视觉表征至关重要。
总结WaveFormer 是一篇非常硬核的“AI Physics”论文。
它不仅仅是借用了物理名词而是真正从微分方程的解的性质出发设计了对应的算子解决了视觉建模中本质的“全局 vs 细节”矛盾。
对于关注高效主干网络和物理启发深度学习的研究者来说这是一篇不容错过的佳作。
到此所有的内容就基本讲完了。
如果觉得这篇文章对你有用记得点赞、收藏并分享给你的小伙伴们哦。