核心内容摘要
AnimateDiff作品集:从文字描述到惊艳视频的20个案例
WaveFusion: A Novel Wavelet Vision Transformer With Saliency-Guided Enhancement for Multimodal Image Fusion2025年IEEE发表的一篇多模态图像融合方向的创新工作结合了小波变换Wavelet、Vision TransformerViT 和 显著性引导增强Saliency-Guided Enhancement 三大核心技术旨在解决传统融合方法在细节丢失、伪影、模态不平衡等问题上的局限。
研究背景与问题 多模态图像融合任务输入如红外IR可见光VIS、PETCT、SAR光学等。
目标生成一张信息丰富、细节清晰、模态互补的融合图像。
挑战不同模态空间分辨率/对比度差异大传统CNN方法局部感受野有限难以建模长程依赖融合结果容易模糊、失真、边缘不清晰
WaveFusion核心创新点模块 功能 创新点Wavelet Decomposition 将图像分解为低频结构高频细节 避免ViT直接处理全图带来的计算冗余Saliency-Guided Enhancement 用显著性图指导融合权重分配 解决模态不平衡问题如红外目标突出但背景弱Wavelet Vision TransformerWVT 在小波域中建模跨模态长程依赖 首次将ViT引入小波子带融合Dual-Branch Fusion Strategy 分别处理低频结构与高频纹理 实现结构保留细节增强的协同优化️
网络结构概览Input: IR VIS ↓ Wavelet DecompositionDWT ↓ ┌──────────────┬──────────────┐ │ Low-Freq │ High-Freq │ ← 双分支处理 │ (LL) │ (LH/HL/HH) │ └──────────────┴──────────────┘ ↓ ↓ Saliency-Guided Saliency-Guided Enhancement Enhancement ↓ ↓ Wavelet Vision Wavelet Vision Transformer Transformer ↓ ↓ Cross-Modal Fusion Attention ↓ Inverse DWTIDWT ↓ Output: Fused Image
实验结果摘要数据集 指标 WaveFusion vs SOTAMSRS红外可见光 Qabf↑
85 vs
79SwinFusionTNO SSIM↑
92 vs
88U2FusionRoadScene VIF↑
12 vs
98DeFusion✅ 结论在主观视觉质量与客观指标上均优于现有TransformerCNN方法尤其在边缘清晰、目标突出、背景自然方面表现突出。
可视化效果文字描述红外图像目标亮但背景模糊可见光图像背景清晰但目标弱WaveFusion融合结果目标轮廓清晰红外优势纹理细节丰富可见光优势无伪影、无过曝、无模糊边缘
代码与复现官方GitHub https://github.com/fd-qhwang/WaveFusion✅ 已开源PyTorch实现含预训练模型与测试脚本支持任务红外可见光融合医学图像融合PETCT可扩展至任意双模态✅
七、