核心内容摘要
汤芳《美丽的松花江》:一曲跨越时空的诗意赞歌
文章OMNI-IML: TOWARDS UNIFIED INTERPRETABLE IMAGE MANIPULATION LOCALIZATION代码暂无单位华南理工
问题背景现有Image Manipulation Localization(IML)模型大多依赖任务特定设计仅能在目标任务上表现良好跨任务适应性极差。
若对多个IML任务进行联合训练又会导致所有任务的性能显著下降比如HiFi-Net就需为自然图像和人脸图像分别设置不同参数。
造成这一问题的核心原因有两点一是现有方法的架构设计、训练策略等高度依赖具体任务例如适用于自然图像的边缘异常增强模块在边缘特征不明显的文档图像上几乎失效二是不同IML任务的篡改特征差异巨大统一模型难以区分这些多样化的篡改线索容易产生混淆。
同时现有可解释IML方案缺乏统一基准尤其在文档、场景文本和未裁剪深度伪造图像上表现不佳且标注质量受图像复杂度影响较大多篡改区域或弱篡改特征场景下易出现描述错误。
方法创新为解决上述问题研究团队提出了Omni-IML通用模型和Omni-273k数据集核心创新包括
三大核心模块实现跨任务统一定位模态门编码器Modal Gate Encoder自动分析输入图像特征自适应选择纯视觉或视觉频率的最优编码模态避免单一模态带来的局限性。
异常增强模块Anomaly Enhancement通过新颖的框监督设计增强篡改区域特征抑制联合训练中的特征噪声提升跨领域特征提取能力。
动态权重解码器Dynamic Weight Decoder根据输入图像特性自适应选择最优解码器滤波器应对不同任务的多样化篡改特征。
可解释性提升方案链式思维标注 pipeline通过“实例级篡改目标识别→聚焦式特征描述→自我检查”三步流程生成高质量自然语言标注解决多目标、弱特征场景下的标注难题。
解释模块将篡改定位掩码与原始图像融合构建视觉参考提示输入多模态大语言模型精准描述篡改区域的内容、位置及特征异常。
Omni-273k数据集涵盖自然图像、文档、人脸、场景文本四大IML领域包含
2
3万余个样本其中真实世界手动篡改样本是现有数据集的20倍。
采用结构化JSON标注格式支持细粒度、合理的模型评估。
实验结果在四大主要IML任务上的广泛实验表明定位性能Omni-IML在所有任务上均实现当前最优性能自然图像IML平均IoU达
612文档IML平均IoU达
745人脸IML IoU达
923场景文本IML平均IoU达
610。
联合训练时性能下降极小文档IML任务IoU仅下降
8个百分点远优于传统方法7个百分点的下降幅度。
解释性能借助Omni-273k数据集和视觉参考提示模型在篡改内容识别、位置描述、特征异常解释等方面表现优异Qwen
5-VL 7B模型经微调后文档篡改文本识别准确率从
312提升至
653。
鲁棒性在图像缩放、模糊、JPEG压缩等失真场景下仍保持强劲性能在NIST16数据集上的AUC值达
918显著优于现有方法。
优势与局限优势通用性强首个能在四大核心IML任务上同时实现最优性能的通用模型无需任务特定微调。
可解释性佳通过结构化数据集和专用解释模块能以自然语言清晰描述篡改细节提升结果可信度。
实用性高联合训练性能稳定模型复杂度低于维护多个单任务模型且支持多篡改区域、弱篡改特征等实际常见场景。
局限模型规模相对较大定位模块参数量为152M解释模块依赖多模态大语言模型整体计算效率有待提升后续需进一步优化模型大小和推理速度。