核心内容摘要
枫林深处,情意绵长:一场穿越时空的“枫花恋”
Transformer当前的AI大模型基本是基于Transformer框架的包括上一篇 讲到的词汇理解在Transformer架构中都有所体现。
对于每一位想入坑AI大模型的人Transformer架构论文Attention is all you need是必读不可的。
这对我们理解其他的AI大模型大有裨益。
我们看以上架构图发现主要有以下几个核心模块输入层Embedding 词嵌入我们上一篇 讲的词向量就是这一步来的。
Positional Encodding 位置编码这也是我们今天着重要讲的重点。
EncoderMHA多头注意力机制。
也是我们今天要讲的第二个重点。
也是Transformer架构的核心的核心。
FFN前馈神经网络残差链接层归一化Deccoder掩码注意力机制交叉注意力机制残差链接层归一化输出层SoftMax位置编码我们今天核心看输入层和Encoder这两部分和AI理解词汇组成的句子关联紧密。
我们先看看上一次的例子输入1我有一个苹果它很好Embedding后Token为我 有 一个 苹果它 很好。
首先词向量维度是没有问题的每个Token的词向量不同不会产生歧义。
但是如果是下面这个case呢输入2我画了一幅画Embedding后Token为我 画 了 一幅 画。
第一个”画“和第二个”画“的词向量矩阵是一样的。
那么AI怎么区分动词画和名词画呢这个时候Positional Encodding应运而生。
PE(Positional Encodding)和Embedding共享同样的维度d_model因为Embedding后的词向量是PE的输入。
PE词向量在AI大模型眼里有了顺序”我画了一幅画“中前后两个意思不同的画即使是”我有一个苹果“这样无词向量冲突的casePE对语义理解也至关重要AI大模型中一般使用不同频率的正余弦函数作为位置编码函数我(pos
[sin(0/
^2*0/d_model, cos(0/
^2*0/d_model, sin(0/
^2*1/d_model, cos(0/
^2*1/d_model, ...] // 长度512 画(pos
[sin(1/
^2*0/d_model, cos(1/
^2*0/d_model, sin(1/
^2*1/d_model, cos(1/
^2*1/d_model, ...] // 长度512 了(pos
[sin(2/
^2*0/d_model, cos(2/
^2*0/d_model, sin(2/
^2*1/d_model, cos(2/
^2*1/d_model, ...] // 长度512 一幅(pos
[sin(3/
^2*0/d_model, cos(3/
^2*0/d_model, sin(3/
^2*1/d_model, cos(3/
^2*1/d_model, ...] // 长度512 画(pos
[sin(4/
^2*0/d_model, cos(4/
^2*0/d_model, sin(4/
^2*1/d_model, cos(4/
^2*1/d_model, ...] // 长度512自注意力词向量让AI理解人类词汇位置编码让AI对句子中的词汇有了顺序的概念。
而最终AI能理解句子还需要自注意力机制。
自注意力机制是Transformer实现上下文理解的核心。
其本质是通过Query-Key-ValueQKV模型让句子中的每个词动态计算与其他所有词的关联权重。
QQuery当前词对上下文的提问”有“提问”有”什么自注意力将“有”和“我有一个苹果”中其他TokenKKey其他词的身份标签用于匹配Q提出的问题“苹果”代表水果或电子设备VValue实际携带的信息机器语言内“苹果”所代表的机器语义通过加权求和每个词的最终表示会融合全局关键信息。
进而让AI能够整体理解这句话的含义。
或者通俗地讲Transformer让句子中的每个词都“回顾”一下上下文中的所有词找到对自己理解最重要的信息然后把这些信息融合起来形成自己在这个特定语境下的新含义。
对于Tokens我 有 一个 苹果AI会根据词向量矩阵分别计算出Q、K、V三组向量矩阵执行Q(苹果)计算“苹果”的Q向量与句子中所有词包括它自己的K向量的相似度“我”、“有”、“一个”、“苹果”的相关性。
在理解“苹果”这个词时模型认为“有”和它自己“苹果”具备最相关的上下文信息。
加权求和生成新表示。
将上一步得到的所有权重分别与对应的VValue向量相乘并求和。
这样生成的新向量就不再是孤立的“苹果”的语义而是融合了整句上下文信息的“苹果”——即“我所拥有的那个苹果”。
这个新表示**能更准确地反映这个词在当前句子中的具体含义。
**当然每个Token都有一个这样的执行过程。
至此AI大模型终于完整地理解了人类语言的一句话了。
学习资源推荐如果你想更深入地学习大模型以下是一些非常有价值的学习资源这些资源将帮助你从不同角度学习大模型提升你的实践能力。
全套AGI大模型学习路线AI大模型时代的学习之旅从基础到前沿掌握人工智能的核心技能因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取
640套AI大模型报告合集这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。
无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取
AI大模型经典PDF籍随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。
这些大型预训练模型如GPT-
BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。
那以下这些PDF籍就是非常不错的学习资源。
因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取