核心内容摘要
男生女生一起愁愁愁:青春期那些剪不断理还乱的烦恼
Transformer核心组件功能对照表模块名称所属位置核心功能关键作用Input Embedding输入侧前置将离散的输入词如英文单词映射为固定维度的向量。
把人类可理解的文字转化为模型能处理的数值化语义表示。
Output Embedding输出侧前置将已生成的目标词如已翻译的中文词映射为向量通常与Input Embedding共享权重。
保证输入、输出的语义空间一致减少参数数量提升语义对齐效果。
Positional Encoding输入/输出侧前置通过三角函数或可学习参数为词向量加入位置信息。
弥补Transformer无循环结构的缺陷让模型捕捉序列的顺序依赖如“我吃饭”和“饭吃我”的区别。
Multi-Head Attention自注意力编码器内部第一层并行计算多个注意力头让每个位置关注输入序列的所有位置。
捕捉输入序列内部的全局语义依赖如长句中“主语”和“宾语”的关联。
Add Norm编码器/解码器子层后先做残差连接子层输入子层输出再做层归一化。
缓解梯度消失问题稳定训练过程加速模型收敛。
Feed Forward编码器/解码器内部第二层对每个位置的向量做独立的非线性变换通常是两层全连接ReLU。
增强模型的特征表达能力捕捉更复杂的语义模式。
Masked Multi-Head Attention掩码自注意力解码器内部第一层与自注意力类似但会遮挡未来位置的信息生成第3个词时只能看前2个词。
保证生成的自回归性避免模型“偷看”未来信息符合人类逐词生成的逻辑。
Encoder-Decoder Attention编解码注意力解码器内部第二层以编码器输出为Key/Value解码器当前状态为Query计算注意力。
实现输入与输出的语义对齐如翻译时“英文单词”与“中文单词”的对应让生成的内容更贴合输入语义。
Linear线性层输出层将解码器的输出向量映射到整个目标词表的维度。
将特征向量转化为词表概率分布的对数形式。
Softmax输出层将线性层的输出转为
之间的概率分布。
得到每个词的生成概率选择概率最高的词作为下一个生成结果。