核心内容摘要
探索无限可能:www.撸撸社,你的数字乐园
前言本文介绍了基于小波变换的池化方法——Wavelet Pooling作为传统最大池化与平均池化的有效替代方案。
该方法通过两级小波分解丢弃高频子带保留更具代表性的低频特征从而在减少信息丢失的同时提升模型的正则化能力。
我们将 Wavelet Pool 和 UnPool 成功集成进 YOLO26替代原有的下采样与上采样模块实现更高效的特征提取与恢复。
实验证明YOLO26-WaveletPool 在多个分类与检测任务中均取得优异表现展现了小波池化在深度学习中的广泛应用前景。
文章目录 YOLO26改进大全卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总专栏链接: YOLO26改进专栏文章目录前言介绍摘要文章链接基本原理**小波变换的基本原理****论文的方法**核心代码YOLO26引入代码tasks注册步骤1导包:步骤2配置yolo26-WaveletPool.yaml实验脚本结果介绍摘要卷积神经网络Convolutional Neural Networks, CNNs持续推动着二维和三维图像分类及目标识别技术的发展。
然而为了维持这一快速进展有必要对神经网络中的基础构件进行持续的评估与改进。
当前主流的网络正则化方法大多侧重于卷积操作本身而对池化层的设计选择关注不足。
为此我们提出了一种新的池化策略——小波池化Wavelet Pooling作为传统邻域池化方法如最大池化和平均池化的有效替代方案。
该方法通过将特征分解为多层小波子带并舍弃第一层级的高频子带来实现下采样从而有效降低特征维度。
与最大池化中常见的过拟合问题不同小波池化在降维过程中保留了更多结构信息具备更强的泛化能力。
此外相比于基于固定邻域的池化方式小波池化在结构上实现了更紧凑、高效的特征压缩。
我们在四个标准图像分类数据集上进行了系统实验结果表明所提出的小波池化方法在性能上显著优于或与最大池化、平均池化、混合池化以及随机池化等主流方法相当验证了其作为通用池化策略的潜力。
文章链接论文地址论文地址代码地址代码地址论文地址论文地址基本原理首先池化是一种通过舍弃信息实现正则化效果的操作。
然而传统的池化方法存在一些不足Max pooling当重要特征的幅度值低于不重要特征时重要特征会被忽略。
Average pooling同时接纳幅值大和幅值小的特征容易稀释关键特征。
为了解决这些问题该论文提出基于小波变换的池化操作具体思路如下小波变换的基本原理小波变换可将输入特征图划分为低频子带LL和高频子带LH、HL、HH。
其数学公式为一级小波变换L L 1 , L H 1 , H L 1 , H H 1 D W T ( I ) LL1, LH1, HL1, HH1 DWT(I)LL1,LH1,HL1,HH1DWT(I)逆变换I I D W T ( L L 1 , L H 1 , H L 1 , H H 1 ) I IDWT(LL1, LH1, HL1, HH
IIDWT(LL1,LH1,HL1,HH
二级小波变换L L 2 , L H 2 , H L 2 , H H 2 D W T ( L L 1 ) LL2, LH2, HL2, HH2 DWT(LL
LL2,LH2,HL2,HH2DWT(LL
逆变换L L 1 I D W T ( L L 2 , L H 2 , H L 2 , H H 2 ) LL1 IDWT(LL2, LH2, HL2, HH
LL1IDWT(LL2,LH2,HL2,HH
小波变换通过下采样将特征图尺寸缩小一半逆变换可完美重建原始图像。
论文的方法该论文方法流程如下对输入图像I II进行两次小波变换得到L L 2 , ( L H 2 , H L 2 , H H 2 ) , ( L H 1 , H L 1 , H H 1 ) D W T ( D W T ( I ) ) LL2, (LH2, HL2, HH
, (LH1, HL1, HH
DWT(DWT(I))LL2,(LH2,HL2,HH
,(LH1,HL1,HH
DWT(DWT(I))舍弃最高频子带( L H 1 , H L 1 , H H 1 ) (LH1, HL1, HH
(LH1,HL1,HH
保留低频子带( L L 2 , L H 2 , H L 2 , H H 2 ) (LL2, LH2, HL2, HH
(LL2,LH2,HL2,HH
。
对保留的二级小波系数进行逆变换重建池化后的图像I ′ I D W T ( L L 2 , L H 2 , H L 2 , H H 2 ) I IDWT(LL2, LH2, HL2, HH
I′IDWT(LL2,LH2,HL2,HH
核心代码classWaveletPool(nn.Module):def__init__(self):super(WaveletPool,self).__init__()llnp.array([[
5,
5],[
5,
5]])lhnp.array([[-
5,-
5],[
5,
5]])hlnp.array([[-
5,
5],[-
5,
5]])hhnp.array([[
5,-
5],[-
5,
5]])filtsnp.stack([ll[None,::-1,::-1],lh[None,::-1,::-1],hl[None,::-1,::-1],hh[None,::-1,::-1]],axis
self.weightnn.Parameter(torch.tensor(filts).to(torch.get_default_dtype()),requires_gradFalse)defforward(self,x):Cx.shape[1]filterstorch.cat([self.weight,]*C,dim
yF.conv2d(x,filters,groupsC,stride
returnyclassWaveletUnPool(nn.Module):def__init__(self):super(WaveletUnPool,self).__init__()llnp.array([[
5,
5],[
5,
5]])lhnp.array([[-
5,-
5],[
5,
5]])hlnp.array([[-
5,
5],[-
5,
5]])hhnp.array([[
5,-
5],[-
5,
5]])filtsnp.stack([ll[None,::-1,::-1],lh[None,::-1,::-1],hl[None,::-1,::-1],hh[None,::-1,::-1]],axis
self.weightnn.Parameter(torch.tensor(filts).to(torch.get_default_dtype()),requires_gradFalse)defforward(self,x):Ctorch.floor_divide(x.shape[1],
filterstorch.cat([self.weight,]*C,dim
yF.conv_transpose2d(x,filters,groupsC,stride
returnyYOLO26引入代码在根目录下的ultralytics/nn/目录新建一个sample目录然后新建一个以WaveletPool为文件名的py文件 把代码拷贝进去。
importtorchfromtorchimportnnasnnimporttorch.nn.functionalasFimportnumpyasnpclassWaveletPool(nn.Module):def__init__(self):super(WaveletPool,self).__init__()llnp.array([[
5,
5],[
5,
5]])lhnp.array([[-
5,-
5],[
5,
5]])hlnp.array([[-
5,
5],[-
5,
5]])hhnp.array([[
5,-
5],[-
5,
5]])filtsnp.stack([ll[None,::-1,::-1],lh[None,::-1,::-1],hl[None,::-1,::-1],hh[None,::-1,::-1]],axis
self.weightnn.Parameter(torch.tensor(filts).to(torch.get_default_dtype()),requires_gradFalse)defforward(self,x):Cx.shape[1]filterstorch.cat([self.weight,]*C,dim
yF.conv2d(x,filters,groupsC,stride
returnyclassWaveletUnPool(nn.Module):def__init__(self):super(WaveletUnPool,self).__init__()llnp.array([[
5,
5],[
5,
5]])lhnp.array([[-
5,-
5],[
5,
5]])hlnp.array([[-
5,
5],[-
5,
5]])hhnp.array([[
5,-
5],[-
5,
5]])filtsnp.stack([ll[None,::-1,::-1],lh[None,::-1,::-1],hl[None,::-1,::-1],hh[None,::-1,::-1]],axis
self.weightnn.Parameter(torch.tensor(filts).to(torch.get_default_dtype()),requires_gradFalse)defforward(self,x):Ctorch.floor_divide(x.shape[1],
filterstorch.cat([self.weight,]*C,dim
yF.conv_transpose2d(x,filters,groupsC,stride
returnytasks注册在ultralytics/nn/tasks.py中进行如下操作步骤1导包:fromultralytics.nn.sample.WaveletPoolimportWaveletPool,WaveletUnPool步骤2修改def parse_model(d, ch, verboseTrue):只需要添加截图中标明的其他没有的模块不用添加elifmisWaveletPool:c2ch[f]*4elifmisWaveletUnPool:c2ch[f]//4配置yolo26-WaveletPool.yamlultralytics/cfg/models/26/yolo26-WaveletPool.yaml# Ultralytics AGPL-
0 License - https://ultralytics.com/license# Ultralytics YOLO26 object detection model with P3/8 - P5/32 outputs# Model docs: https://docs.ultralytics.com/models/yolo26# Task docs: https://docs.ultralytics.com/tasks/detect# Parametersnc:80# number of classesend2end:True# whether to use end-to-end modereg_max:1# DFL binsscales:# model compound scaling constants, i.e. modelyolo26n.yaml will call yolo
yaml with scale n# [depth, width, max_channels]n:[
50,
25,1024]# summary: 260 layers, 2,572,280 parameters, 2,572,280 gradients,
1 GFLOPss:[
50,
50,1024]# summary: 260 layers, 10,009,784 parameters, 10,009,784 gradients,
2
8 GFLOPsm:[
50,
00,512]# summary: 280 layers, 21,896,248 parameters, 21,896,248 gradients,
7
4 GFLOPsl:[
00,
00,512]# summary: 392 layers, 26,299,704 parameters, 26,299,704 gradients,
9
8 GFLOPsx:[
00,
50,512]# summary: 392 layers, 58,993,368 parameters, 58,993,368 gradients,
2