核心内容摘要
基于单片机的盲人导航系统的设计
在人工智能领域预训练已成为模型获取通用知识的核心范式。
通过精心设计的任务模型能从海量无标注数据中自主学习为下游任务奠定坚实基础。
本文将系统梳理CV、NLP及多模态中的各类预训练任务详解其原理、演进与内在联系。
自然语言处理中的预训练任务
语言建模与上下文预测掩码语言建模是NLP预训练的基石任务。
其核心思想是随机掩盖输入序列中的部分token通常为15%让模型基于双向上下文预测被掩盖的原始内容。
这一任务迫使模型学习深层的语义表征和语法结构。
关键技术演进BERT的标准MLM随机选择token替换为[MASK]RoBERTa的改进动态调整掩码比例移除NSP任务Whole Word Masking掩盖整个词语而非子词提升语义一致性Entity Masking专门掩盖命名实体增强知识获取模型代表BERT、RoBERTa、ALBERT自回归语言建模采用单向或因果注意力机制按序列顺序预测下一个token。
这种方法更接近人类语言生成过程能学习到流畅的文本生成能力。
关键技术Transformer解码器架构、注意力掩码模型代表GPT系列、Transformer-XL排列语言建模创新性地融合了双向上下文和自回归预测的优势。
通过随机排列序列顺序模型可在自回归框架下访问双向信息解决了标准MLM中[MASK]符号在微调时不存在的问题。
核心思想对token序列进行随机排列按排列顺序自回归预测模型代表XLNet
去噪自编码器去噪自编码器是MLM的扩展和泛化通过对输入施加更复杂的噪声让模型重建原始文本。
BART的噪声函数文本破坏随机删除token文本填充用单个掩码符号替换文本跨度句子排列随机打乱句子顺序文档旋转随机选择一个token将文档围绕其旋转T5的统一框架将所有NLP任务统一为文本到文本的格式通过添加特定前缀指示任务类型使预训练和微调保持一致。
Pegasus的间隙句子生成专门针对摘要任务设计通过掩盖整个句子让模型学习生成连贯的文本。
精细粒度任务字符/Token替换检测训练模型判断输入中的token是否被替换。
具体方法是用其他token随机替换部分输入让模型识别被替换的位置。
这一任务能增强模型对语言细微差别的敏感度。
实现方式Electra模型生成器-判别器架构优势计算效率高每个token都有监督信号下一句预测是BERT引入的辅助任务判断两个句子是否是连续的文本片段。
这一任务帮助模型理解句子间关系但对某些任务帮助有限后续模型如RoBERTa已移除。
句子顺序预测是NSP的改进版本判断两个句子顺序是否正确。
相比NSP的二元分类SOP更具挑战性能更好地学习句子间连贯性。
模型代表ALBERT
特定代理任务这类任务针对特定语言学特征或知识类型设计同义词替换检测判断句子中的词是否被同义词替换语法错误检测识别句子中的语法错误语义相似度预测判断两个句子的语义相似程度指代消解识别代词指向的实体常识推理预测事件的结果或原因
计算机视觉中的预训练任务
数据重建任务掩码图像建模借鉴了NLP的MLM思想但面临图像连续性的挑战像素级重建直接预测被掩盖区域的原始像素值问题像素值变化敏感难以优化改进使用L1或平滑L1损失关注结构而非精确像素特征/标记化重建将图像编码为离散视觉标记BEiT方法使用离散VAE学习视觉词汇表MAE创新非对称编码器-解码器架构仅编码可见块SimMIM简化使用轻量级预测头简化架构去噪自编码器是MIM的扩展对输入图像添加多种噪声噪声类型高斯噪声添加随机高斯噪声块遮掩随机掩盖图像区域颜色扰动调整亮度、对比度、饱和度模糊处理应用高斯模糊学习目标从噪声图像重建原始图像图像上色将彩色图像转为灰度让模型预测颜色信息。
这一任务要求模型理解物体材质、光照和常识。
超分辨率重建从低分辨率图像恢复高分辨率版本学习细节和纹理信息。
时间与序列学习帧序学习针对视频数据利用时间维度信息帧顺序预测判断视频帧序列是否按正确时间顺序排列帧速率预测判断视频播放速度是正常、加快还是减慢时间箭头分类区分正向播放和反向播放的视频未来帧预测基于前面帧预测后续帧内容时空建模任务结合空间和时间信息时空立方体遮掩掩盖视频中的时空立方体区域动作分类预测视频中发生的动作类型时序对齐对齐不同视角或不同速度的视频
数据生成任务图像修复是主动生成任务给定不完整的图像生成完整的合理图像。
这要求模型理解物体的整体结构和场景的语义一致性。
图像补全是修复的特例专注于填补图像中的缺失区域特别适用于物体移除和内容编辑应用。
跨模态生成连接视觉和其他模态草图到图像根据草图生成真实感图像文本到图像根据文本描述生成图像属性到图像根据物体属性颜色、形状等生成图像风格迁移学习分离图像的内容和风格可将一幅图像的风格应用到另一幅图像的内容上。
其他创新任务视角一致性学习利用多视角图像数据让模型学习同一物体的不同视角下的一致表示。
深度估计从单目图像预测深度信息学习场景的3D结构理解。
表面法线预测预测图像中每个像素的表面法线方向理解物体表面朝向和几何形状。
边缘检测识别图像中的边缘和轮廓学习物体的形状和边界信息。
多模态预训练任务
跨模态对齐任务图像-文本对比学习是CLIP的核心创新将图像和文本编码到同一空间目标函数InfoNCE损失最大化匹配对的相似度批处理技巧大批次训练以获得足够负样本零样本能力天然支持未见类别的识别视频-文本对齐扩展到时序数据学习视频片段和文本描述的对齐关系。
音频-视觉对齐学习声音和视觉内容的一致性如LipSync任务。
跨模态生成任务掩码多模态建模同时掩盖多种模态的数据图像-文本联合掩码随机掩盖图像块和文本词视频-音频联合掩码同时掩盖视频帧和音频片段多模态去噪对多种模态添加噪声联合去噪跨模态翻译图像描述生成根据图像生成文本描述文本到图像生成根据文本生成图像视觉问答根据图像和问题生成答案视觉定位根据文本描述定位图像中的区域
多模态融合任务多模态匹配判断多模态输入是否匹配如图像-文本对是否相关。
多模态检索从一种模态查询另一种模态的相关内容。
多模态推理结合多种模态信息进行复杂推理如需要同时理解图像和文本才能回答的问题。
任务设计的内在逻辑与趋势
任务设计的核心原则可扩展性任务应能利用海量无标注数据语义丰富性任务应引导模型学习高层次语义计算效率任务应在合理计算成本下有效任务相关性任务应与下游应用有一定关联
演进趋势从单一到多任务早期模型通常使用单一任务现代模型倾向于多任务联合预训练从人工设计到自监督减少人工设计的归纳偏置增加自监督成分从单模态到多模态整合视觉、语言、音频等多种模态从重建到对比对比学习因其高效性日益受到重视从特定到统一统一架构和任务框架成为趋势
未来方向认知启发的任务借鉴人类学习机制设计新任务具身学习任务结合动作和交互的预训练因果推理任务学习因果关系而非仅仅相关性元学习任务让模型学会如何快速学习新任务可持续学习在持续变化的数据流中持续学习
总结预训练任务的设计是AI模型获取通用能力的关键。
从NLP的MLM到CV的MIM从单模态到多模态任务设计日益精巧高效。
这些任务不仅推动了技术进步也深化了我们对智能本质的理解。
随着任务设计的不断创新AI模型将具备更全面、更深刻的世界理解能力向通用人工智能的目标稳步迈进。