核心内容摘要
深夜的感官觉醒:高清视界下的秘密花园与数字时代的视觉盛宴
Token 级数据清洗不仅更强还能让攻击成本飙升 7000 倍。
作为定义了 GPT-2 范式的核心人物Alec Radford 曾向业界证明了数据规模的价值。
在 2024 年离开 OpenAI 后他以独立研究者的身份回归视野。
这一次他联合 Anthropic 及斯坦福的研究员 Neil Rathi 发布了最新成果探讨在 Scaling Law 现阶段如何通过提升数据处理颗粒度来解决安全与能力的博弈。
作为 GPT 系列、CLIP 及 Whisper 的主要贡献者Alec Radford 的研究动向常被视为技术风向标。
在这项研究中作者提出将预训练数据的过滤粒度从文档级Document-level精细化到 Token 级Token-level。
实验表明这不仅是数据工程层面的优化更是对现有 Scaling 路径的重要补充。
Token 级过滤能在预训练阶段实现 7000 倍的等效计算效率阻滞并意外提升了模型的拒绝Refusal能力。
论文标题Shaping capabilities with token-level data filtering论文链接https://arxiv.org/pdf/
2
21571代码链接https://github.com/neilrathi/token-filtering突破“文档级”过滤的精度瓶颈长期以来大模型的数据过滤主要停留在文档层面。
为了移除有害信息如生物武器制造教程常见的做法是直接剔除包含相关关键词的整篇文档。
这种粗放的做法面临精度与召回率的固有矛盾。
一篇病毒学论文可能包含少量危险知识Forget Domain但也包含大量通用的生物学知识Retain Domain。
文档级过滤在切除病灶时往往误伤了周围的健康组织导致模型在特定领域的通用能力下降。
论文的核心假设很简单模型能力的习得源于特定的 Token 序列而非必须依赖完整的文档上下文。
为验证此假设论文对比了文档级过滤与 Token 级过滤的表现。
实验结果展示了两者在不同过滤强度下的权衡关系〓 Token 级过滤与文档级过滤的帕累托曲线对比数据表明Token 级过滤无论是 Masking 还是 Removal在帕累托前沿上显著优于文档级过滤。
该方法能够在有效移除有害内容的同时最大程度保留上下文中的通用知识。
工程实现在海量预训练数据中进行 Token 级的精准识别面临巨大的成本挑战。
论文提出了一套 Weak-to-Strong 的工程流程利用稀疏自编码器与先进大模型配合实现低成本的标签生成。
离线标注SAE Claude 协同研究团队使用预训练好的 SAE基于 Gemma 2 9B作为离线特征提取工具。
首先利用 Claude
5 Haiku 对 SAE 提取的潜在特征生成解释再利用 Claude Sonnet 4 对这些解释进行分类筛选出与危险医学知识相关的特征。
其次当 Token 在这些特征上表现出高激活值或其相邻 Token 已被标记时该 Token 即被标记为有害。
这种设计巧妙地引入了“Oracle”Claude的知识来指导特征筛选确保了标注的语义准确性。
分类器蒸馏双向自回归模型的应用直接在预训练数据上运行 SAE 推理成本过高。
因此作者利用 SAE 生成的高质量标签训练了一个轻量级的分类器。
为了克服传统 Masked Language Model (如 BERT) 的缺陷作者构建了一个双向语言模型biLM。
该模型并非 BERT 架构而是通过联合训练两个独立的自回归模型一个从左到右一个从右到左并将它们的表征拼接来实现。
实验证明这种架构在 Token 级分类任务上优于 RoBERTa 等基线模型。
过滤操作Masking 与 Removal在识别出有害 Token 后论文对比了两种处理方式〓 Token 过滤的两种操作范式Loss Masking损失掩码Token 保留在输入中模型能看到完整上下文但计算 Loss 时忽略该 Token。
模型能读取这些信息但不会通过梯度更新去学习预测它。
Removal移除将有害 Token 替换为特殊的 hidden Token并同样进行 Loss Masking。
这是一种物理层面的信息切断。
实验显示虽然两者在 Loss 指标上差异不大但在后续的对齐任务中Removal 策略表现出独特的优势。
量化防御效果为了量化过滤效果论文引入了损失匹配计算效率阻滞Loss-Matched Compute Slowdown指标。
该指标衡量的是过滤后的模型在“遗忘域”的表现相当于一个计算量只有多少的基线模型。
定义基线模型的 Loss与计算量遵循幂律关系若过滤后模型在特定领域的 Loss 为则通过反推可得该 Loss 对应的等效基线计算量。
计算效率阻滞即为。
实验数据揭示了一个关键结论过滤的效果符合 Scaling Law模型规模越大相对计算效率的阻滞作用越明显。
〓 随着预训练计算量模型规模的增加Token 级过滤导致的计算效率阻滞呈指数级上升。
对于
8B 参数的模型Token 级过滤Removal带来的计算效率阻滞达到 7000 倍。
这意味着什么在特定危险领域如生物武器该
8B 模型的表现仅相当于一个计算量为其 1/7000 的模型。
这种预训练阶段的能力剥离显著提高了模型获取危险知识的门槛。
对抗鲁棒性除了让模型变笨我们更关心它是否容易被教会。
当前业界的机器遗忘Machine Unlearning技术如 RMU通常在训练完成后进行。
论文对比了不同方法的鲁棒性差异。
〓 预训练过滤与 RMU机器遗忘在对抗性微调下的鲁棒性对比RMU 在面对对抗性微调Adversarial Finetuning时防御效果随模型规模增加而快速衰减。
相比之下Token 级过滤表现出更强的对抗鲁棒性。
随着模型规模扩大攻击者需要投入比 RMU 多出 10 倍以上的数据和计算量才能恢复被移除的能力。
事实证明预训练阶段的信息“物理缺失”远比事后的参数修补更难逆转。
拒绝能力Token 缺失带来的泛化优势在对齐Alignment研究中通常认为模型需要先识别危险知识才能学会拒绝相关请求。
〓 不同过滤策略对拒绝任务Refusal Training泛化能力的影响使用 Token Removal替换为 hidden训练的模型在经过轻量级拒绝微调后在遗忘域HealthSearchQA的拒绝率高于基线模型且未对无关领域Alpaca造成误伤。
作者认为hidden Token 为模型提供了显式的结构化信号。
模型通过区分完整分布与包含 hidden 的残缺分布更容易将涉及遗忘域的输入映射到拒绝行为。
显然预训练中的“知识剔除”并不妨碍模型学会“拒绝”。
结语这项研究强调了在 Scaling Law 持续生效的背景下提升数据处理精度对于模型安全的重要性。
通过结合 SAE 的特征提取能力与 Token 级的精细操作该研究展示了一种在预训练阶段进行能力干预的可行路径。
这种方法在确保模型安全性的同时尽可能减少了对模型通用能力的损耗。
对于大模型研发而言这标志着数据工程正从单纯的数据规模扩展转向对数据内容的精细化筛选与治理。
更多阅读#投 稿 通 道#让你的文字被更多人看到如何才能让更多的优质内容以更短路径到达读者群体缩短读者寻找优质内容的成本呢答案就是你不认识的人。
总有一些你不认识的人知道你想知道的东西。
PaperWeekly 或许可以成为一座桥梁促使不同背景、不同方向的学者和学术灵感相互碰撞迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人在我们的平台上分享各类优质内容可以是最新论文解读也可以是学术热点剖析、科研心得或竞赛经验讲解等。
我们的目的只有一个让知识真正流动起来。
稿件基本要求• 文章确系个人原创作品未曾在公开渠道发表如为其他平台已发表或待发表的文章请明确标注• 稿件建议以markdown格式撰写文中配图以附件形式发送要求图片清晰无版权问题• PaperWeekly 尊重原作者署名权并将为每篇被采纳的原创首发稿件提供业内具有竞争力稿酬具体依据文章阅读量和文章质量阶梯制结算投稿通道• 投稿邮箱hrpaperweekly.site• 来稿请备注即时联系方式微信以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信pwbot02快速投稿备注姓名-投稿△长按添加PaperWeekly小编现在在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·