首页速度优化寻根问祖，落地生根：美国华人社群的“十次唐人”奋斗史

网站优化

御梦子甜心：开启你的奇幻甜蜜梦境之旅

重温经典，高清回溯：陈冠希1400张电脑壁纸，点燃你的数字空间！

2026-06-12 11:50:09

阅读时长:9分钟

562次阅读

核心内容摘要

谁说“女生坤坤”只能是虚拟？解锁现实中的无限魅力！

CrossFormer 实现图像分类以及视觉任务的骨干网络替换它使用交替的局部和全局注意力击败了 PVT 和 Swin。

全局注意力是在窗口维度上完成的以降低复杂性还具有跨尺度嵌入层被证明是可以改进所有视觉转换器的通用骨干网络。

并设计了动态相对位置偏差以允许网络推广到更高分辨率的图像。

只限pytorch框架CrossFormer这玩意儿最近在视觉任务圈子里火得有点不讲道理上来就把PVT和Swin按在地上摩擦。

作为搞CV的老司机我连夜扒了论文源码发现它核心就三个绝活交替注意力、跨尺度贴贴、动态位移偏科。

咱们直接上代码拆解这个变形金刚先看它的注意力机制怎么玩花活。

传统的Swin搞的是窗口自嗨CrossFormer直接整了个局部和全局交替制class AlternatingAttention(nn.Module): def __init__(self, dim, window_size): super().__init__() self.local_attn LocalWindowAttention(dim, window_size) # 局部窗口 self.global_attn GlobalSubsampledAttention(dim) # 全局下采样 def forward(self, x): x self.local_attn(x) x x self.global_attn(x) x return x重点在这个全局注意力实现上用了个空间下采样的小聪明。

传统全局注意力复杂度是O(n²)这货直接压缩特征图class GlobalSubsampledAttention(nn.Module): def __init__(self, dim, ratio

: super().init() self.down nn.Conv2d(dim, dim, ratio, strideratio) # 下采样卷积 self.attn nn.MultiheadAttention(dim, num_heads

def forward(self, x): B, C, H, W x.shape down_x self.down(x).flatten(

.permute(2, 0,

# 下采样后展平 attn_out, _ self.attn(down_x, down_x, down_x) attn_out attn_out.permute(1, 2,

.view(B, C, H//4, W//

return F.interpolate(attn_out, size(H,W)) # 再上采样回来这波操作让计算量直接缩水到原来的1/16实测显存占用比Swin低了30%左右。

不过要注意下采样倍数别贪多源码里默认用4倍再大容易丢失高频信息。

CrossFormer 实现图像分类以及视觉任务的骨干网络替换它使用交替的局部和全局注意力击败了 PVT 和 Swin。

全局注意力是在窗口维度上完成的以降低复杂性还具有跨尺度嵌入层被证明是可以改进所有视觉转换器的通用骨干网络。

并设计了动态相对位置偏差以允许网络推广到更高分辨率的图像。

只限pytorch框架跨尺度嵌入层才是真·黑科技直接把不同尺度的特征图拼起来搞基class CrossScaleEmbed(nn.Module): def __init__(self, in_dim, out_dim): super().__init__() self.conv3x3 nn.Conv2d(in_dim, out_dim//2, 3, padding

self.conv5x5 nn.Conv2d(in_dim, out_dim//4, 5, padding

self.conv7x7 nn.Conv2d(in_dim, out_dim//4, 7, padding

def forward(self, x): feat3 self.conv3x3(x) feat5 self.conv5x5(x) feat7 self.conv7x7(x) return torch.cat([feat3, feat5, feat7], dim

# 多尺度拼接实测在ImageNet上这层让top-1涨了快2个点。

不过要注意输出通道分配源码里3x3占一半5x5和7x7各四分之一这样既保留细节又捕捉大范围特征。

动态相对位置偏置是解决迁移问题的关键传统方法固定bias遇到高分辨率就崩class DynamicPosBias(nn.Module): def __init__(self, num_heads): super().__init__() self.pos_table nn.Parameter(torch.randn(num_heads, 7,

) # 初始化7x7表 def forward(self, q, k): delta_x q[:, :, 0:1] - k[:, :, 0].unsqueeze(

# x坐标差 delta_y q[:, :, 1:2] - k[:, :, 1].unsqueeze(

# y坐标差 # 动态索引位置偏置 bias self.pos_table[:, delta_x.long() 3, delta_y.long() 3] # 偏移到正数索引 return bias.permute(0, 3, 1,

# 调整维度对齐注意力头这模块让模型在迁移到1024x1024这样的高分辨率时mAP只掉

3%而Swin掉了

5%。

不过要注意初始化时表格大小源码里用7x7覆盖-3到3的范围超出这个范围的位置差会被截断。

实际替换backbone时要注意输入规范CrossFormer需要四阶段特征图class CrossFormerBackbone(nn.Module): def __init__(self): self.stem CrossScaleEmbed(3,

# 输入处理 self.stage1 AlternatingAttentionBlock(dim64, depth

self.stage2 PatchMerging(64,

# 下采样 self.stage3 AlternatingAttentionBlock(dim128, depth

self.stage4 PatchMerging(128,

# 后面继续堆叠...在COCO检测任务中替换ResNet50AP直接涨了

2个点。

不过要注意预训练参数加载官方提供的预训练模型需要转换key的名字可以用这个脚本def convert_weights(original_dict): new_dict {} for k, v in original_dict.items(): if pos_table in k: new_k k.replace(block, attn.pos_bias) # 位置偏置键名转换 elif global_attn in k: new_k k.replace(down., subsampler.) # 下采样层键名调整 else: new_k k new_dict[new_k] v return new_dict总之CrossFormer这波操作确实秀尤其适合需要多尺度特征的场景。

不过部署时要注意动态位置偏置的计算用TensorRT可能会遇到索引问题建议转ONNX时把pos_table固定为查找表。

最后放个实测数据在3090上跑224x224输入比Swin快15%显存省800MB香是真香

斗阴(国际版)在线观看-斗阴(国际版)在线观看应用

相关标签

【MySQL修炼篇】吃透Read View+Undo Log，才算真懂MVCC多版本控制从导购机器人到清洁设备：不同场景下的定位导航性能指标差异全解析小程序IOS报错 1301000 saveFile:fail it is not a tempFilePath Figma中文插件：让设计界面更懂中文用户的实用工具 BEYOND REALITY Z-Image效果展示：同一提示词下不同步数（5/10/15/20）细节演进图银河麒麟V10 SP1服务器版离线yum源搭建全攻略（附常见问题排查）重新定义直播音频：obs-vst插件的零成本专业音效解决方案 res-downloader：突破网络资源限制的全方位解决方案利用AI驱动的6款强大工具，论文写作时间缩短了，内容质量也得到了显著优化 Xinference-v1.17.1中文优化专项：针对简体中文Tokenization与Prompt工程调优 Web 后台开发还能这么快？XinServer 震惊我 RTSP/ONVIF/EHOME安防监控EasyCVR边防哨所全域可视化方案设计 Spring Boot 中 Redis 分布式锁的正确使用姿势，我后悔没早知道 MogFace-large部署指南：NVIDIA驱动/CUDA/Triton兼容性配置要点

【重磅揭秘】5.1破解版下载：解锁无限可能，颠覆你的数字体验！

2026-06-12 11:50:09 3分钟阅读

探秘“小南长门78萝卜”：一场关于味蕾与情感的奇遇

2026-06-12 11:50:09 1分钟阅读

破茧成蝶，孙尚香：巾帼不让须眉的“钢筋”力量

2026-06-12 11:50:09 5分钟阅读

御梦子甜心：开启你的奇幻甜蜜梦境之旅

核心内容摘要

谁说“女生坤坤”只能是虚拟？解锁现实中的无限魅力！

: super().init() self.down nn.Conv2d(dim, dim, ratio, strideratio) # 下采样卷积 self.attn nn.MultiheadAttention(dim, num_heads

def forward(self, x): B, C, H, W x.shape down_x self.down(x).flatten(

.permute(2, 0,

# 下采样后展平 attn_out, _ self.attn(down_x, down_x, down_x) attn_out attn_out.permute(1, 2,

.view(B, C, H//4, W//

return F.interpolate(attn_out, size(H,W)) # 再上采样回来这波操作让计算量直接缩水到原来的1/16实测显存占用比Swin低了30%左右。

self.conv5x5 nn.Conv2d(in_dim, out_dim//4, 5, padding

self.conv7x7 nn.Conv2d(in_dim, out_dim//4, 7, padding

def forward(self, x): feat3 self.conv3x3(x) feat5 self.conv5x5(x) feat7 self.conv7x7(x) return torch.cat([feat3, feat5, feat7], dim

# 多尺度拼接实测在ImageNet上这层让top-1涨了快2个点。

) # 初始化7x7表 def forward(self, q, k): delta_x q[:, :, 0:1] - k[:, :, 0].unsqueeze(

# x坐标差 delta_y q[:, :, 1:2] - k[:, :, 1].unsqueeze(

# y坐标差 # 动态索引位置偏置 bias self.pos_table[:, delta_x.long() 3, delta_y.long() 3] # 偏移到正数索引 return bias.permute(0, 3, 1,

# 调整维度对齐注意力头这模块让模型在迁移到1024x1024这样的高分辨率时mAP只掉

3%而Swin掉了

5%。

# 输入处理 self.stage1 AlternatingAttentionBlock(dim64, depth

self.stage2 PatchMerging(64,

# 下采样 self.stage3 AlternatingAttentionBlock(dim128, depth

self.stage4 PatchMerging(128,

# 后面继续堆叠...在COCO检测任务中替换ResNet50AP直接涨了

2个点。

斗阴(国际版)在线观看-斗阴(国际版)在线观看应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

百度百家号客服电话人工服务

御梦子甜心：开启你的奇幻甜蜜梦境之旅

核心内容摘要

谁说“女生坤坤”只能是虚拟？解锁现实中的无限魅力！

: super().__init__() self.down nn.Conv2d(dim, dim, ratio, strideratio) # 下采样卷积 self.attn nn.MultiheadAttention(dim, num_heads

def forward(self, x): B, C, H, W x.shape down_x self.down(x).flatten(

.permute(2, 0,

# 下采样后展平 attn_out, _ self.attn(down_x, down_x, down_x) attn_out attn_out.permute(1, 2,

.view(B, C, H//4, W//

return F.interpolate(attn_out, size(H,W)) # 再上采样回来这波操作让计算量直接缩水到原来的1/16实测显存占用比Swin低了30%左右。

self.conv5x5 nn.Conv2d(in_dim, out_dim//4, 5, padding

self.conv7x7 nn.Conv2d(in_dim, out_dim//4, 7, padding

def forward(self, x): feat3 self.conv3x3(x) feat5 self.conv5x5(x) feat7 self.conv7x7(x) return torch.cat([feat3, feat5, feat7], dim

# 多尺度拼接实测在ImageNet上这层让top-1涨了快2个点。

) # 初始化7x7表 def forward(self, q, k): delta_x q[:, :, 0:1] - k[:, :, 0].unsqueeze(

# x坐标差 delta_y q[:, :, 1:2] - k[:, :, 1].unsqueeze(

# y坐标差 # 动态索引位置偏置 bias self.pos_table[:, delta_x.long() 3, delta_y.long() 3] # 偏移到正数索引 return bias.permute(0, 3, 1,

# 调整维度对齐注意力头这模块让模型在迁移到1024x1024这样的高分辨率时mAP只掉

3%而Swin掉了

5%。

# 输入处理 self.stage1 AlternatingAttentionBlock(dim64, depth

self.stage2 PatchMerging(64,

# 下采样 self.stage3 AlternatingAttentionBlock(dim128, depth

self.stage4 PatchMerging(128,

# 后面继续堆叠...在COCO检测任务中替换ResNet50AP直接涨了

2个点。

斗阴(国际版)在线观看-斗阴(国际版)在线观看应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

相关优化文章 推荐

百度百家号客服电话人工服务

: super().init() self.down nn.Conv2d(dim, dim, ratio, strideratio) # 下采样卷积 self.attn nn.MultiheadAttention(dim, num_heads

相关优化文章推荐