核心内容摘要
突破B站评论采集限制:智能滚动与断点续爬技术实现完整数据获取
A Multi-scale Linear-time Encoder for Whole-Slide Image AnalysisAuthors:Jagan Mohan Reddy Dwarampudi, Joshua Wong, Hien Van Nguyen, Tania BanerjeeDeep-Dive Summary:用于全扫描切片图像分析的多尺度线性时间编码器 (MARBLE)摘要我们引入了多尺度自适应循环生物医学线性时间编码器MARBLE这是首个纯基于 Mamba 的多状态多实例学习MIL框架专门用于全扫描切片图像WSI分析。
MARBLE 并行处理多个放大倍率级别并在线性时间状态空间模型中集成了从粗到细的推理能够以最小的参数开销高效捕获跨尺度依赖关系。
WSI 分析由于其吉像素分辨率和分层放大倍率而具有挑战性而现有的 MIL 方法通常在单一尺度上运行且基于 Transformer 的方法面临二次方注意力成本。
通过将并行多尺度处理与线性时间序列建模相结合MARBLE 为基于注意力的架构提供了一个可扩展且模块化的替代方案。
在五个公开数据集上的实验表明其在 AUC 上提升高达
9 %
9\%
9%准确率提升
2
3 %
2
3\%
2
3%C-index 提升
3 %
3\%
3%确立了 MARBLE 作为多尺度 WSI 分析的高效且通用框架的地位。
引言多实例学习MIL是计算病理学中处理吉像素全扫描切片图像的核心范式。
一张切片被表示为一个包含多个图像块patches的“包”bag且仅具有切片级的标签。
早期的 MIL 使用最大或平均池化后来的基于注意力的池化突出了显著区域但仍将图像块视为独立同分布的限制了长程空间上下文的建模。
基于 Transformer 的 MIL 引入了对块嵌入的自注意力机制分层视觉 Transformer如 HIPT通过金字塔结构保留了更广泛的上下文。
多尺度 MIL如 HAG-MIL 和 CS-MIL通过分层注意力或语义过滤融合了不同放大倍率的信息。
与此同时结构化状态空间模型SSM实现了高效的长序列建模例如 S4 模型提供线性时间动力学而基于 Mamba 的变体如 MambaMIL已将其应用于病理学。
尽管取得了这些进展但仍然缺乏高效且可扩展的显式多尺度推理。
首先许多流程为了稳定性和效率仅处理单一放大倍率未利用跨尺度依赖其次Transformer 的多尺度融合往往导致二次方注意力成本或阻碍端到端训练的启发式方法第三现有的 Mamba 方法通常将切片视为单尺度序列。
MARBLE 旨在统一解决这些效率、可扩展性和上下文问题。
主要贡献提出了首个全 Mamba 的 MIL 框架引入了具有显式从粗到细融合的多尺度编码。
提出了一种轻量级的、标记对齐的跨级别调节机制将粗粒度上下文信息注入细粒度表示。
在分类和生存分析的五个公开数据集上取得了一致的收益。
方法WSI 在S 1 S 1S1个放大级别提供索引为k ∈ { 0 , 1 , … , S } k \in \{0, 1, \ldots , S\}k∈{0,1,…,S}k 0 k 0k0为最粗级别k S k SkS为最细级别。
在级别k kk我们将组织区域划分为非重叠的P × P P \times PP×P图像块并提取D DD维嵌入X ( k ) [ x 1 ( k ) , … , x T ( k ) ] ⊤ \mathbf{X}^{(k)} [\mathbf{x}_1^{(k)}, \ldots , \mathbf{x}_T^{(k)}]^\topX(k)[x1(k),…,xT(k)]⊤。
1 具有从粗到细融合的多尺度编码每个级别由一个独立的序列模块进行编码相对于标记数T k T_kTk呈线性时间复杂度。
每个级别编码器使用深度为L 1 L1L
维度D 1024 D1024D1024的 Mamba-2 块。
在编码级别k 0 k 0k0之前每个细标记会结合从级别k − 1 k-1k−1提取的父级上下文进行增强c i ( k ) y p k ( i ) ( k − 1 ) , x ~ i ( k ) ϕ ( k ) ( [ x i ( k ) ∥ c i ( k ) ] ) ∈ R D , \mathbf{c}_{i}^{(k)} \mathbf{y}_{p_{k}(i)}^{(k -
},\qquad \tilde{\mathbf{x}}_{i}^{(k)} \phi^{(k)}\big([\mathbf{x}_{i}^{(k)}\parallel \mathbf{c}_{i}^{(k)}]\big)\in \mathbb{R}^{D},ci(k)ypk(i)(k−
,x~i(k)ϕ(k)([xi(k)∥ci(k)])∈RD,其中ϕ ( k ) \phi^{(k)}ϕ(k)是线性投影p k ( i ) p_k(i)pk(i)是通过空间平铺网格确定的父子映射关系。
这种设计保持了线性复杂度O ( T k D ) \mathcal{O}(T_k D)O(TkD)。
2 切片级预测头分类仅对最细级别的表示进行注意力池化S { y i ( S ) } i 1 T S , \mathcal{S} \{\mathbf{y}_{i}^{(S)}\}_{i 1}^{T_{S}},S{yi(S)}i1TS,α ( y ) exp ( w ⊤ y ) ∑ y ′ ∈ S exp ( w ⊤ y ′ ) , z ∑ y ∈ S α ( y ) y . \alpha (\mathbf{y}) \frac{\exp(\mathbf{w}^{\top}\mathbf{y})}{\sum_{\mathbf{y}^{\prime}\in \mathcal{S}}\exp(\mathbf{w}^{\top}\mathbf{y}^{\prime})},\quad \mathbf{z} \sum_{\mathbf{y}\in \mathcal{S}}\alpha (\mathbf{y})\mathbf{y}.α(y)∑y′∈Sexp(w⊤y′)exp(w⊤y),zy∈S∑α(y)y.随后使用线性分类器映射到逻辑值并优化交叉熵。
生存分析在z \mathbf{z}z上附加 Cox 比例风险头以产生风险分数r i β ⊤ z i r_i \beta^{\top} \mathbf{z}_{i}riβ⊤zi并最小化负偏对数似然L C o x − ∑ i : δ i 1 ( r i − log ∑ j ∈ R ( t i ) e r j ) λ ∥ θ ∥ 2 2 , \mathcal{L}_{\mathrm{Cox}} -\sum_{i:\delta_{i} 1}\left(r_{i} - \log \sum_{j\in \mathcal{R}(t_{i})}e^{r_{j}}\right) \lambda \| \pmb {\theta}\|_{2}^{2},LCox−i:δi1∑ri−logj∈R(ti)∑erjλ∥θ∥22,
3 正则化与鲁棒性我们应用了两种正则化方法随机粗路径丢弃在训练期间随机丢弃一部分k 0 k0k0级别的标记及其对应的所有子孙标记创建随机子包。
扫描顺序中性在每个级别内随机打乱标记顺序以防止隐含的位置偏差保持排列不变性。
4 数据集与基准模型我们在诊断分类任务PANDA 和 TCGA-NSCLC以及生存分析任务KIRP, LUAD, STAD上进行了评估。
所有图像块嵌入均使用预训练的 UNI 模型提取。
对比基准包括 ABMIL, CLAM, TransMIL, MambaMIL 等。
图 2丢弃正则化率α \alphaα对 TCGA-NSCLC 测试 AUC 的影响。
α
1 \alpha
1α
1取得了最佳平衡。
结果分类结果MARBLE 一致优于强 MIL 基准。
在 PANDA 上其准确率和 AUC 分别比最强竞争对手高出
2
25
20.
2
25个百分点和
94
6.
9
94个百分点。
在 TCGA-NSCLC 上也表现出竞争力见表 1。
表 1两个数据集上的分类性能。
MethodPANDA AccPANDA AUCTCGA-NSCLC AccTCGA-NSCLC AUCAB-MIL
0.
48830.
77970.
8
9572TransMIL
0.
46360.
77280.
8
96262DMambaMIL
0.
50750.
81840.
8
9618MARBLE (Ours)
0.
71000.
88780.
8
9730生存分析结果在 KIRP、LUAD 和 STAD 数据集上MARBLE 均获得了最高的 C-index见表 2。
表 2三个 TCGA 数据集的生存分析 C-index 比较。
MethodKIRPLUADSTADABMIL
0.
78240.
6
6119MambaMIL
0.
78220.
5
6244MARBLE (Ours)
0.
81840.
6
6510消融研究表 3 显示结合10 × 10\times10×和40 × 40\times40×两种分辨率的表现优于任何单一分辨率。
表 3多分辨率消融结果。
MethodNSCLC AccNSCLC AUCSTAD C-indexMARBLE (10x)
0.
88510.
9
6141MARBLE (40x)
0.
87360.
9
5961MARBLE (10x, 40x)
0.
89660.
97300.
结论我们提出了 MARBLE这是一种多实例学习框架在线性时间状态空间主干网络上执行具有轻量级从粗到细融合的并行多倍率编码。
通过在粗级父节点上调节细级标记MARBLE 在不产生二次方注意力开销和极小参数增加的情况下捕获了跨尺度依赖。
实验证明MARBLE 显著提升了切片级任务的性能且消融实验证实了多尺度融合的有效性。
Original Abstract:We introduce Multi-scale Adaptive Recurrent Biomedical Linear-time Encoder (MARBLE), the first \textit{purely Mamba-based} multi-state multiple instance learning (MIL) framework for whole-slide image (WSI) analysis. MARBLE processes multiple magnification levels in parallel and integrates coarse-to-fine reasoning within a linear-time state-space model, efficiently capturing cross-scale dependencies with minimal parameter overhead. WSI analysis remains challenging due to gigapixel resolutions and hierarchical magnifications, while existing MIL methods typically operate at a single scale and transformer-based approaches suffer from quadratic attention costs. By coupling parallel multi-scale processing with linear-time sequence modeling, MARBLE provides a scalable and modular alternative to attention-based architectures. Experiments on five public datasets show improvements of up to \textbf{
9%} in AUC, \textbf{
2
3%} in accuracy, and \textbf{
3%} in C-index, establishing MARBLE as an efficient and generalizable framework for multi-scale WSI analysis.PDF Link:
2