操弄人心的艺术:社交博弈中的智慧与策略

核心内容摘要

筑梦线上
one.yg99.aqq:致敬韩寒,不止于玩票,更是时代的回响

铃木一彻

Rethinking Query-based Transformer for Continual Image Segmentation重新审视面向持续图像分割的基于查询的Transformer理解针对 “持续图像分割” 任务重新分析并优化 “基于查询的 Transformer” 模型的应用逻辑基于查询的 Transformer图像分割领域的主流模型架构如论文用的 Mask2Former核心是通过 “查询向量Query” 匹配图像特征中的目标区域进而生成分割掩码。

它自带 “内置目标感知能力”不用复杂设计就能初步识别图像中的物体轮廓这是它的天然优势。

持续图像分割模型要分阶段学习新的分割类别比如先学 “猫”“狗”再学 “汽车”“建筑”核心要求是 “学新不忘旧”避免灾难性遗忘同时还要应对 “背景语义偏移”之前的前景可能变成后续阶段的背景。

摘要类别增量 / 持续图像分割CIS旨在分阶段训练图像分割模型且模型各阶段的可用类别集合互不相同。

为利用基于查询的 Transformer 所具备的内置目标感知能力 —— 该能力可缓解掩码候选区域的灾难性遗忘问题现有方法通常将掩码生成与持续学习过程解耦。

但本研究发现这类解耦框架存在两大核心问题模型可塑性丧失以及对输入数据顺序高度依赖。

为解决上述问题本文对该内置目标感知能力展开深入探究发现高度聚合的图像特征为查询向量通过简单的特征对齐生成掩码提供了实现捷径。

在此基础上本文提出 SimCIS—— 一款适用于类别增量 / 持续图像分割任务的简洁且高效的基准模型。

其核心思想是为查询向量分配直接选取的图像特征通过实现 “完美对齐” 保留模型的目标感知能力同时让查询向量能够适配新类别以恢复模型可塑性。

为进一步缓解类别层面的灾难性遗忘问题本文设计了选择过程的跨阶段一致性约束并提出一种创新性的基于 “视觉查询” 的重放机制。

实验结果表明在不同的分割任务、实验配置、数据集划分方式及输入数据顺序下SimCIS 的性能均持续优于当前最优方法。

所有模型及相关代码均已开源至https://github.com/SooLab/SimCIS。

理解1类别增量 / 持续图像分割CIS旨在分阶段训练图像分割模型且模型各阶段的可用类别集合互不相同。

模型不一次性学完所有要分割的类别而是分批次、分阶段学且每个阶段只接触一部分新类别不会重复拿到所有类别数据。

核心目标解决 “灾难性遗忘”—— 如果直接用新类别数据覆盖训练模型会忘记之前学过的旧类别怎么分割CIS 的任务就是避免这种情况。

现实中很多场景无法一次性拿到所有类别数据比如医学影像分割里先收集到 “肺癌” 的病例数据后续才补充 “肝癌”“胃癌” 的病例自动驾驶场景中先学 “行人、轿车”再学 “货车、自行车”。

这种分阶段学习的设定就是为了让模型适配真实的数据收集和应用流程。

理解2为利用基于查询的 Transformer 所具备的内置目标感知能力 —— 该能力可缓解掩码候选区域的灾难性遗忘问题现有方法通常将掩码生成与持续学习过程解耦。

内置目标感知能力基于查询的 Transformer比如论文里的 Mask2Former自带一个 “天赋”—— 不用复杂训练就能初步识别图像里的 “物体轮廓”比如不管是猫还是汽车能先认出 “这是一个独立物体”而不是一堆杂乱像素。

这种能力对应的就是 “掩码候选区域”—— 模型先生成的、可能是某个物体的粗糙轮廓后续会细化而不是直接输出最终分割结果。

CIS 的核心痛点是 “学新忘旧”而这种 “内置目标感知能力” 能帮模型记住 “怎么找物体轮廓”比如模型先学了 “猫” 的分割后来学 “狗” 时不会因为学新类就忘了 “怎么识别物体轮廓”—— 哪怕忘了 “这是猫” 的类别标签也能记得 “这个区域是一个动物的轮廓”这就缓解了 “掩码候选区域” 的遗忘不会连轮廓都找不出来。

现有方法的具体做法是把模型拆成两部分A 负责 “生成掩码候选区域”靠内置目标感知能力B 负责 “持续学习新类别、给掩码贴标签”比如学 “狗” 的类别。

冻结 A 的参数不更新只训练 B 的参数 —— 这样学新类时不会破坏 A 的 “找轮廓” 能力确保旧类的掩码候选区域不会被遗忘。

理解3但本研究发现这类解耦框架存在两大核心问题模型可塑性丧失以及对输入数据顺序高度依赖。

模型可塑性丧失学了新类丢了 “学习能力”可塑性模型更新自身参数、适配新类别比如先学 “猫”再学 “狗” 时能快速掌握 “狗” 的分割逻辑的能力是 CIS 的核心要求之一。

解耦框架的问题为了保住 “生成掩码候选区域” 的旧能力它会冻结掩码生成模块的参数。

但这个模块和后续 “识别新类” 的分类模块是强相关的 —— 新类的掩码特征比如 “狗” 的轮廓需要和分类特征“狗” 的类别标签匹配冻结后掩码生成模块无法适配新类的特征分类模块也没法学好新类。

对输入数据顺序高度依赖数据换个顺序模型就 “崩了”模型性能严重受 “先学哪个类、后学哪个类” 的顺序影响换个顺序训练结果会差很多解耦框架的问题冻结的掩码生成模块只适配了 “初始阶段数据” 的特征比如先学 “汽车”“建筑” 这类常见类模块就只记住了这类大目标的轮廓。

如果换个顺序比如先学 “螺丝刀”“纽扣” 这类小目标 / 稀有类冻结的模块就没法生成合适的掩码候选后续学常见类时也补不回来导致整体性能暴跌。

理解4为解决上述问题本文对该内置目标感知能力展开深入探究发现高度聚合的图像特征为查询向量通过简单的特征对齐生成掩码提供了实现捷径。

图像特征本身已经“抱团”高度聚合查询向量不用复杂学习只要简单匹配这些“抱团特征”就能快速生成物体掩码这为解决之前的问题提供了关键思路。

高度聚合的图像特征图像经过编码器比如 ResNet和像素解码器处理后会输出 “图像特征”—— 可以理解为把原始像素转换成的 “语义符号”。

“高度聚合” 就是这些 “语义符号” 会自动 “抱团”属于同一个物体比如猫、桌子的特征会聚集在一起形成清晰的 “物体轮廓信号”而不是杂乱分散的。

“查询向量Query” 的核心任务是 “找到图像里的物体生成掩码”。

之前的方法让查询向量 “从头学习” 怎么找物体而论文发现查询向量不用费劲学只要做 “简单的特征对齐”—— 也就是和那些 “高度聚合的特征” 做匹配比如计算相似度就能快速锁定物体位置。

比如 “猫” 的特征已经聚成了一团查询向量只要找到和自己最相似的这团特征就能直接生成 “猫” 的掩码不用再分析零散像素。

刚好对应之前解耦框架的问题对 “目标感知能力”不用冻结模块也能保留 —— 因为特征本身已经聚合查询只要对齐就能找物体不用依赖 “冻结参数” 来保住旧能力对 “模型可塑性”不影响学新类 —— 因为新类的特征也会聚合查询向量可以直接匹配新类的 “特征团”不用被旧的冻结参数限制能灵活学新东西。

理解5其核心思想是为查询向量分配直接选取的图像特征通过实现 “完美对齐” 保留模型的目标感知能力同时让查询向量能够适配新类别以恢复模型可塑性。

利用图像特征本身的“抱团优势”让查询向量“走捷径”——直接用现成的有用特征既省了学习成本又避免了“冻结模块”的弊端。

为查询向量分配直接选取的图像特征之前的方法查询向量是 “从头学”—— 从随机初始化开始慢慢学怎么找物体特征、生成掩码SimCIS 的操作查询向量 “直接捡”—— 图像经过编码器后已经有了 “高度聚合的特征”同一物体的特征抱团模型直接从这些抱团特征里挑出最能代表当前类别比如阶段 1 的 “猫”、阶段 2 的 “狗”的特征点直接分配给查询向量当初始值。

“对齐” 的是查询向量和图像特征里的 “语义先验”因为查询向量直接用了最关键的物体特征初始化不用经过复杂学习就能立刻对准物体轮廓。

好处不用冻结任何模块也能保住 “找物体轮廓” 的目标感知能力避免了旧方法 “冻结模块导致可塑性丧失” 的问题。

新类别来了之后比如阶段 2 学 “狗”模型会为新类别生成对应的 “类别原型”再从图像特征里挑出和 “狗” 原型最相似的聚合特征分配给新增的查询向量。

因为没有冻结模块查询向量可以灵活匹配新类别的特征不会被旧类的参数限制 —— 这就恢复了模型的 “可塑性”能顺利学新类而不影响旧类。

理解6为进一步缓解类别层面的灾难性遗忘问题本文设计了选择过程的跨阶段一致性约束并提出一种创新性的基于 “视觉查询” 的重放机制。

针对“模型认得物体轮廓却忘了类别标签”的类别级灾难性遗忘论文用两个互补方法解决——一是让不同阶段选特征的“位置不变”二是用“虚拟查询”代替旧图像“复习”旧类既稳又高效。

跨阶段一致性约束CSL让特征选择 “前后呼应”不丢旧类痕迹核心问题之前的 QPA 虽然能让每个阶段选到当前类的关键特征但不同阶段比如学旧类和学新类时对同一幅图可能选不同的特征位置 —— 导致旧类的特征痕迹被覆盖后续分类时忘了旧类标签。

具体操作用 KL 散度损失做约束强制要求 “同一幅图在不同阶段选的语义显著特征位置必须一致”。

核心作用通过 “位置锁定”让旧类的特征始终被模型关注为后续分类保留 “线索”避免类别遗忘。

基于 “视觉查询” 的重放机制VQ用 “特征替身” 复习旧类替代传统图像重放传统方法的痛点之前缓解类别遗忘靠存旧类的原始图像图像重放但占存储空间大、依赖数据顺序还可能泄露隐私。

论文的创新既然 QPA 生成的查询向量已经和旧类特征 “完美对齐”自带旧类的类别语义就不用存图像直接存这些 “查询向量”即 “视觉查询”用它们当 “旧类替身” 来复习。

三步实现建 “查询库”训练时把每个旧类的查询向量存起来形成虚拟查询库VQ Bank照顾稀有类统计当前阶段的 “伪分布”给稀有旧类更高的复习权重避免越稀有越容易忘混合复习学新类时从查询库中抽样旧类的虚拟查询和新类的查询一起输入解码器 —— 虚拟查询只参与 “分类损失计算”相当于帮模型复习旧类标签不干扰新类的掩码生成。

Multi-view Aggregation Network for Dichotomous Image Segmentation用于二分类图像分割的多视图聚合网络理解用于二分类图像分割的多视图聚合网络MVANet是一种针对高分辨率图像设计的轻量型分割模型 —— 它通过 “多视图获取互补信息 聚合网络融合特征”高效解决 “高分辨率目标分割的精度与效率平衡” 问题核心目标是精准区分图像中的 “前景目标” 和 “背景区域”即二分类分割。

多视图设计灵感模仿人类视觉系统 —— 既看整体全局也看细节局部具体实现远景视图Distant View将高分辨率原图下采样为低分辨率图像捕捉全局语义信息比如目标整体位置、场景上下文解决 “小感受野缺全局信息” 的问题。

近景视图Close-up View将高分辨率原图均匀裁剪为非重叠局部补丁论文中设为 4 个保留细粒度细节比如目标边缘、纹理、细小结构解决 “大感受野丢局部细节” 的问题。

聚合网络核心作用不是简单拼接多视图特征而是通过专门设计的模块让远景和近景特征动态交互、互补增强形成更全面的特征表示。

关键模块多视图互补定位模块MCLM用远景的全局信息引导近景定位过滤近景中的噪声确保目标位置精准。

多视图互补细化模块MCRM用近景的细节信息补充远景修复远景中缺失的边缘、细小结构提升分割精度。

视图重排模块VRM融合所有视图特征解决局部补丁拼接后的边界错位问题输出完整高分辨率分割结果。

摘要二分类图像分割Dichotomous Image Segmentation, DIS是近年来针对高分辨率自然图像的高精度目标分割任务兴起的研究方向。

设计高效的 DIS 模型时核心挑战在于如何平衡两方面问题小感受野下高分辨率目标的语义分散以及大感受野下高精度细节的丢失。

现有方法依赖繁琐的多编码器 - 解码器流和多阶段流程逐步完成全局定位与局部细化。

人类视觉系统通过多视角观察来捕捉感兴趣区域受此启发我们将 DIS 建模为多视图目标感知问题提出一种简洁的多视图聚合网络MVANet。

该网络通过单一编码器 - 解码器结构将远景视图与近景视图的特征融合统一到单一流程中。

借助所提出的多视图互补定位模块与互补细化模块我们的方法实现了跨多视图的长距离、深层次视觉交互使包含细节信息的近景视图特征能够聚焦于高度细长的结构。

在常用的 DIS-5K 数据集上的实验表明我们的 MVANet 在精度和速度上均显著优于现有最优方法。

相关源代码和数据集将在 MVANet 平台公开获取。

理解1现有方法依赖繁琐的多编码器 - 解码器流和多阶段流程逐步完成全局定位与局部细化。

现有二分类图像分割DIS方法需要靠 “多个独立的编码器 - 解码器分支”“分步骤的流程”才能先找到目标大致位置再慢慢优化细节多编码器 - 解码器流设计多个并行的编码器-解码器分支比如一个分支专门提取全局特征帮找目标位置另一个分支专门提取局部特征帮修细节分支之间相互独立结构冗余多阶段流程不能一步完成分割要分 “先后步骤” 逐步优化理解2该网络通过单一编码器 - 解码器结构将远景视图与近景视图的特征融合统一到单一流程中。

借助所提出的多视图互补定位模块与互补细化模块我们的方法实现了跨多视图的长距离、深层次视觉交互使包含细节信息的近景视图特征能够聚焦于高度细长的结构。

MVANet 用 “一套编码器 - 解码器” 替代传统的 “多套分支”把远景全局信息和近景局部细节的特征在同一个流程里动态融合再通过两个专属模块实现跨视图的深度信息交互最终让近景的细节特征精准捕捉到图像中细长的目标结构比如缝隙、细边、细长轮廓单一编码器 - 解码器结构统一远景与近景特征融合之前的模型要做 “全局定位 局部细化”得用 “多套编码器 - 解码器分支”流程是 “先跑全局分支再跑局部分支”MVANet 的改进只用 “一套编码器 一套解码器”单一结构把 “远景视图”低分辨率全局图抓整体位置和 “近景视图”裁剪的局部补丁抓细节的图像一起输入到这一套结构里。

多视图互补定位模块MCLM先 “找对位置”核心作用解决 “近景视图可能找错目标” 的问题让全局和局部一起精准定位目标具体操作远景特征全局信息先确定 “目标的大致范围”生成 “定位指引”把这个 “指引” 传给近景特征过滤掉近景里的背景噪声比如近景补丁里的无关纹理让近景只聚焦于目标所在的区域同时通过 “交叉注意力机制”让不同近景补丁之间能交换信息比如左边补丁的目标和右边补丁的目标是连在一起的避免局部视角的 “视野局限”。

多视图互补细化模块MCRM再 “补全细节”核心作用解决 “远景特征丢失细小组件” 的问题用近景的细节完善全局特征具体操作远景特征已经有了目标的大致轮廓但可能漏了细长结构比如椅子的细腿、格栅的缝隙近景特征因为是 “近距离观察”能清晰捕捉到这些细长细节通过 “交叉注意力机制” 把这些细节信息 “填” 到远景特征里同时过滤掉近景里的冗余噪声比如局部背景的干扰让补充的细节都是精准有效的。

51吃瓜APP-51吃瓜应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123