核心内容摘要
“粉色iso”
Endogenous Reprompting: Self-Evolving Cognitive Alignment for Unified Multimodal ModelsAuthors:Zhenchen Tang, Songlin Yang, Zichuan Wang, Bo Peng, Yang Li, Beibei Dong, Jing DongDeep-Dive Summary:内源性重提示统一多模态模型的自进化认知对齐摘要统一多模态模型UMMs表现出强大的理解能力但这种能力往往无法有效指导生成。
我们将其定义为认知差距Cognitive Gap模型缺乏如何增强自身生成过程的理解。
为了弥合这一差距我们提出了**内源性重提示Endogenous Reprompting**机制通过在生成过程中产生自对齐的描述符将模型的理解从被动编码过程转化为显式的生成推理步骤。
为此我们引入了 **SEER自进化评估器与重提示器**训练框架仅使用来自小型代理任务视觉指令详述的 300 个样本建立了一个两阶段的内源性循环。
首先**带有可验证奖励的强化学习RLVR**通过课程学习激活模型的潜在评估能力产生高保真度的内源性奖励信号。
其次**带有模型奖励思维的强化学习RLMT**利用该信号优化生成推理策略。
实验表明SEER 在评估准确性、重提示效率和生成质量方面始终优于最先进的基线模型且不损失通用的多模态能力。
引言图
弥合认知差距。
直接生成无法反映模型的理解左外部重提示器往往由于生成的描述符与生成器的先验不匹配而导致失调右而 SEER中利用内源性重提示产生具体、自对齐的描述符严格匹配生成器的生成先验成功弥合了理解与生成。
目前统一多模态模型的生成能力显著滞后于其理解能力。
如图 1 所示虽然模型能准确理解视觉指令但在将其转化为生成指导时却面临困难导致最终输出失调。
我们认为这是一种认知差距模型缺乏关于如何增强自身生成过程的具体理解。
为了弥合这一差距我们提出内源性重提示将用户意图转化为与模型自身能力对齐的描述符。
与依赖不相交模型如 LLM 加生成器导致表示不匹配的现有方法不同我们的方法利用了 UMM 固有的表示一致性确保了模型特有对齐Model-Specific Alignment。
我们提出的SEER框架通过视觉指令详述Visual Instruction Elaboration这一代理任务分两个阶段展开RLVR 阶段通过课程学习策略激活内部评估器将理解能力转化为高保真奖励信号。
RLMT 阶段利用该信号优化推理策略使模型在生成前进行“思考”即优化提示词。
相关工作该部分回顾了统一多模态模型如 Janus, Emu
提示优化如 DALL-E 3 的重打标以及视觉生成的强化学习如 Diffusion-DPO。
SEER 的不同之处在于它针对的是生成推理阶段优化提示词而非低级的执行阶段优化像素。
方法
1 问题表述视觉指令详述任务被公式化为一个推理优化问题。
给定视觉指令a aa和初始提示词p 0 p_0p0目标是生成重提示词p pp通过显式的推理路径将用户意图转化为可执行的描述符。
我们将 UMM 视为包含理解/推理参数θ \thetaθ和生成参数ϕ \phiϕ。
为了验证改进源于推理路径的优化我们冻结ϕ \phiϕ并仅优化θ \thetaθ。
模型有三种内源功能模式生成器G ( ⋅ ∣ ϕ ) : P → X G(\cdot |\phi): \mathcal{P} \to \mathcal{X}G(⋅∣ϕ):P→X固定。
评估器E ( ⋅ ∣ θ ) : X 2 × T → [ Y e s , N o ] E(\cdot |\theta): \mathcal{X}^2 \times \mathcal{T} \to [Yes, No]E(⋅∣θ):X2×T→[Yes,No]作为成对判断器。
重提示策略π θ ( ⋅ ∣ θ ) : P × A → Δ ( P ) \pi_{\theta}(\cdot |\theta): \mathcal{P} \times \mathcal{A} \to \Delta (\mathcal{P})πθ(⋅∣θ):P×A→Δ(P)。
优化奖励R RR定义为R ( p ; a , p 0 ) ≜ E ( x , a ) ⏟ 合规性 E ( x , p 0 ) ⏟ 一致性 E ( x ) ⏟ 质量 R(p;a,p_
\triangleq \underbrace{E(\mathbf{x},a)}_{\text{合规性}} \underbrace{E(\mathbf{x},p_
}_{\text{一致性}} \underbrace{E(\mathbf{x})}_{\text{质量}}R(p;a,p0)≜合规性E(x,a)一致性E(x,p0)质量E(x)
2 预备知识回顾了 RLHF从人类反馈中学习、RLVR利用可验证结果进行学习和 RLMT结合推理结构与奖励模型。
图
第一阶段RLVR。
我们采用课程学习将模型转化为鲁棒的内部批评者。
通过在成对比较上训练激活能够评估用户意图的高保真内部评估器E ( x ; a , p 0 ) E(x; a, p_
E(x;a,p0)。
3 视觉指令详述我们构建了一个包含 300 个样本的小型数据集D \mathcal{D}D涵盖简单指令直接属性映射和困难指令需要深层推理的概念性要求。
4 自进化训练框架
3.
1 第一阶段RLVR目标是激活内部评估器。
采用课程学习阶段 1基础对齐具体的图文对。
阶段 2视觉指令监督识别哪张图片更好地满足指令a aa并保留p 0 p_0p0。
使用 **GRPO群组相对策略优化**进行成对评估器优化目标函数如下J G R P O ( θ ) E q , x , { u i } [ 1 N ∑ i 1 N 1 L i ∑ t 1 L i ( min ( s i , t 1 A i , s i , t 2 A i ) − β D K L ( π θ ( u i , t ∣ u i , t , q , x ) ∥ π r e f ( u i , t ∣ u i , t , q , x ) ) ] , \begin{array}{r l} {\mathcal{J}_{\mathrm{GRPO}}(\theta) \mathbb{E}_{q,\mathbf{x},\{u_i\}}\left[\frac{1}{N}\sum_{i 1}^{N}\frac{1}{L_i}\sum_{t 1}^{L_i}\left(\min (s_{i,t}^{1}A_i,s_{i,t}^{2}A_i)\right.\right.} \\ {\left. - \beta D_{\mathrm{KL}}\left(\pi_{\theta}(u_{i,t}|u_{i, t},q,\mathbf{x})\| \pi_{\mathrm{ref}}(u_{i,t}|u_{i, t},q,\mathbf{x})\right)\right],} \end{array}JGRPO(θ)Eq,x,{ui}[N1∑i1NLi1∑t1Li(min(si,t1Ai,si,t2Ai)−βDKL(πθ(ui,t∣ui,t,q,x)∥πref(ui,t∣ui,t,q,x))],
3.
2 第二阶段RLMT利用第一阶段微调的评估器作为内源奖励模型优化重提示策略。
图
第二阶段RLMT。
模型通过“思考-生成-评估”循环优化其推理策略π θ \pi_{\theta}πθ。
内源奖励通过比较推理生成结果( x p o l ) (x_{\mathrm{pol}})(xpol)与朴素基线结果( x r e f ) (x_{\mathrm{ref}})(xref)计算得出。
3.
3 机理分析隐式模型特有对齐SEER 的优势在于结构上强制执行了模型特有对齐。
由于评估器E EE和生成器G GG共享相同的表示空间评估器对生成器的失败模式具有内在敏感性。
这使得重提示策略能够学习到生成器先验范围内的描述避免了外部模型常见的“视觉上无法实现”的描述问题。
实验
1 实验设置基座模型Harmon (
5B 参数)采用掩码自回归MAR生成范式。
训练细节使用 2 张 A100 GPU利用 300 个样本训练 10 个轮次。
基准测试视觉理解能力测试MME, POPE, GQA 等和生成能力测试GenEval, DPG-Bench。
2 主要结果
4.
1 评估器性能第一阶段SEER-Eval 在内部测试集上达到了
92 的总体准确率远超 Zero-shot (
0.
和仅完成第一阶段培训的模型 (
0.
。
这证明了“小型代理任务”有效地引导了模型的潜在评估能力。
表
SEER 与外部重提示方法的胜率对比。
表格显示 SEER 在处理硬/复杂任务时占据主导地位同时保持了极高的效率平均词数更少。
外部基线总计域内域外平均词数vs. BeautifulPrompt
0.
900.
890.
9
13vs. PromptEnhancer
0.
750.
770.
7
04vs. GPT-4o
0.
680.
730.
6
23vs. Gemini
5 Pro
0.
610.
630.
5
06vs. Qwen2-VL-72B
0.
650.
630.
6
76SEER (Ours)---
22.
944.
2.
生成式推理性能阶段 2我们通过盲法成对人类评估blind pairwise human evaluation来评估最终的生成质量。
指标人类胜率Human Win Ratio。
为了量化性能我们进行了盲法成对比较。
标注员会看到一张来自 SEER 的图像和一张来自基准模型的图像并选择更符合视觉指令a aa且保留了p 0 p_0p0语义主体的图像。
胜率
5
0.
5
5表示 SEER 更受青睐详见附录 A.2。
与外部重提示器Reprompters的比较。
我们将 SEER 与两类模型进行了基准测试1专用重提示器BeautifulPrompt (Cao et al.,
、PromptEnhancer (Wang et al., 2025a)2最先进的 MLLM多模态大语言模型GPT-
2 (OpenAI,
、Gemini3 (Google DeepMind,
、Qwen3max (Alibaba,
。
为了公平比较我们将 SEER 的重提示策略替换为这些外部模型并将其生成的重提示直接输入 SEER 的生成器。
结果。
如表 2 所示SEER 一致优于这两组模型。
它超越了专用重提示器对比 BeautifulPrompt 胜率为
90这证实了不相交模型中的表示失配representation mismatch会导致重提示器与生成器的先验不匹配。
最先进的 MLLM 表现出竞争力对比 Gemini3 胜率为
61这得益于其更强的理解知识然而SEER 仍以显著更少的单词量平均
2
94 个词实现了更优的性能。
这种效率为我们在第
3.
3 节中的机制分析提供了实证支持。
值得注意的是SEER 的优势在“困难指令”上通常会被放大例如对比 PromptEnhancer在困难指令上为
74而在简单指令上为
70。
如图 5 所示不同于生成通用且冗长描述的外部 LLMSEER 能够识别与生成器生成先验相一致的描述符。
内部评估器自然地惩罚了不一致的重提示从而将推理链修剪至最具可执行性的状态。
与 UMM统一多模态模型的比较。
我们进一步将 SEER (
5B) 与最先进的 UMM 进行了比较包括Harmon (Base)、Bagel (14B) (Deng et al.,
、Bagel-Think (CoT)、Blip3-o (8B) (Chen et al., 2025a) 和 Show-o2 (7B) (Xie et al., 2025b)。
结果。
表 3 报告了 SEER 对比各基准模型的人类胜率。
首先SEER 对比 Harmon Base 取得了绝对优势例如
85 的胜率证实了内源性重提示Endogenous Reprompting有效地弥补了认知鸿沟。
其次尽管参数规模较小
5BSEER 面对规模显著更大的模型仍具有竞争力。
这种竞争力主要源于 SEER 在困难指令上的鲁棒性例如对比 Bagel在困难指令上为
79而在简单指令上为
63。
至关重要的是这种与人类偏好高度的一致性证明了我们的内部评估器阶段 1已成功演化为能够模拟人类判断从而正确引导重提示策略阶段 2在无需外部监督的情况下生成自我对齐的重提示。
图
定性比较。
基础模型左由于认知鸿沟无法执行视觉指令外部重提示器右导致表示失配而 SEER中生成的自我对齐重提示严格匹配生成器的先验从而实现了卓越的视觉保真度。
4.
通用能力通用视觉理解。
为了验证 SEER 是否保留了 UMM 的核心认知能力我们在 MME、POPE、GQA、MMMU 和 SEEDBench 上评估了经过后训练的模型。
如表 5 所示与基础 Harmon 模型相比SEER 的性能保持高度稳定波动处于正常微调方差范围内。
值得注意的是在 MME 上SEER 达到了 1179 分对比基础模型的 1155 分显示出轻微提升。
这种稳定性证实了 RLVR 是一种针对内部评估器的精准激活机制而非破坏性的覆盖。
表
通用多模态理解基准测试。
我们报告了不同训练阶段的结果。
与 Harmon 基础模型相比SEER阶段 2保持或略微提升了理解能力。
模型MMEPOPE AccPOPE FFGQAMMMUSEEDHarmon (Base)
115583.
883.
958.
834.
7
2Phase 1 Only
117283.
783.
958.
934.
8
2Stage 1 (RLVR)
117984.
084.
358.
935.
2
4Stage 2 (SEER)
117983.
884.
158.
935.
1
4通用生成。
我们使用 GenEval 和 DPG-Bench 评估标准的文本生成图像能力。
由于这些基准测试主要由直接提示词组成用于评估基本的组合属性因此我们明确跳过了重提示增强过程直接评估生成器的执行能力。
如表 4 所示即使没有主动推理SEER阶段 2在大多数指标上仍实现了轻微提升例如GenEval 综合得分从
72 →
74
72 \rightarrow
0.
7
72→
74。
重要的是这些结果是在没有对图像生成目标进行任何直接微调的情况下取得的。
这证实了理解与生成之间的对齐在学习生成式推理的过程中得到了本质上的细化。
结论我们通过引入 SEER 解决了 UMM 中的认知鸿沟这是一个将被动理解转变为主动推理的自我演进框架。
通过两阶段内源循环RLVR 和 RLMTSEER 仅通过 300 个样本的“视觉指令细化”便引导出了模型的重提示能力。
实验证实SEER 在评估准确性、重提示效率和生成质量方面均优于基准模型同时保留了通用能力。
至关重要的是我们的方法实现了模型特有的对齐确保推理能够作为精准的触发器严格作用于生成器的先验范围内。
这项工作建立了一个新的范式将研究重心从优化执行转移到演进认知推理。
Original Abstract:Unified Multimodal Models (UMMs) exhibit strong understanding, yet this capability often fails to effectively guide generation. We identify this as a Cognitive Gap: the model lacks the understanding of how to enhance its own generation process. To bridge this gap, we propose Endogenous Reprompting, a mechanism that transforms the model’s understanding from a passive encoding process into an explicit generative reasoning step by generating self-aligned descriptors during generation. To achieve this, we introduce SEER (Self-Evolving Evaluator and Reprompter), a training framework that establishes a two-stage endogenous loop using only 300 samples from a compact proxy task, Visual Instruction Elaboration. First, Reinforcement Learning with Verifiable Rewards (RLVR) activates the model’s latent evaluation ability via curriculum learning, producing a high-fidelity endogenous reward signal. Second, Reinforcement Learning with Model-rewarded Thinking (RLMT) leverages this signal to optimize the generative reasoning policy. Experiments show that SEER consistently outperforms state-of-the-art baselines in evaluation accuracy, reprompting efficiency, and generation quality, without sacrificing general multimodal capabilities.PDF Link:
2