【大模型学习路线】2026最新大模型技术学习路线:从入门到精通,一篇文章全掌握!

核心内容摘要

魔兽争霸III全方位优化工具:10大功能革新经典游戏体验
yolo结果中的指标

使用豆包的思考模式给每天的自己打分

简介在过去六个月中一种强大的神经网络新方法已为自然语言处理领域整合成型。

这种新方法可以概括为一个简单的四步公式嵌入Embed、编码Encode、注意力机制Attend、预测Predict。

本文将解释这种新方法的组成部分并展示它们在两个近期系统中的结合方式。

深度学习处理文本的四步策略词嵌入表示也称为“词向量”现已成为应用最广泛的自然语言处理技术之一。

词嵌入让你可以将单个词视为相关的意义单元而非完全独立的ID。

然而大多数NLP问题需要理解更长的文本片段而不仅仅是单个词语。

现在有一个简单且灵活的解决方案正在广泛的问题上取得优异性能。

将文本嵌入为一系列向量后使用双向循环神经网络将这些向量编码成一个句子矩阵。

此矩阵的行可以理解为词元向量——它们对词元在句子中的上下文敏感。

拼图的最后一块称为注意力机制它允许你将句子矩阵缩减为一个句子向量以便进行预测。

以下是其工作原理。

第一步嵌入嵌入表将长、稀疏的二进制向量映射为短、密集的连续向量。

例如假设我们接收的文本是ASCII字符序列。

有256个可能的值因此我们可以将每个值表示为256维的二进制向量。

字母“a”的值将是一个全0向量但在第97列有一个1而字母“b”的值将是一个全0向量在第98列有一个1。

这称为“独热”编码方案。

不同的值获得完全不同的向量。

大多数神经网络模型首先将文本分词为词语并将词语嵌入为向量。

其他模型通过其他信息扩展词向量表示。

例如除了词语ID向前传递词性标记序列通常很有用。

然后可以学习标记嵌入并将标记嵌入与词嵌入连接起来。

这允许你将一定量的位置敏感信息推入词语表示中。

然而有一种更强大的方法可以使词语表示具有上下文特定性。

第二步编码给定一个词向量序列编码步骤计算一个表示我称之为句子矩阵其中每一行代表每个词元在句子其余部分上下文中的含义。

用于此目的的技术是双向循环神经网络。

LSTM和GRU架构都已被证明对此效果良好。

每个词元的向量由两部分计算一部分通过前向传递另一部分通过后向传递。

为了获得完整向量我们只需将两者拼接在一起。

以下是计算内容defencode(fwd_rnn,bwd_rnn,word_vectors):fwd_outndarray((len(word_vectors),fwd_rnn.nr_hidden),dtypefloat

bwd_outndarray((len(word_vectors),bwd_rnn.nr_hidden),dtypefloat

fwd_statefwd_rnn.initial_state()bwd_statebwd_rnn.initial_state()foriinrange(len(word_vectors)):fwd_statefwd_rnn(word_vectors[i],fwd_state)bwd_statebwd_rnn(word_vectors[-(i

],bwd_state)fwd_out[i]fwd_state bwd_out[-(i

]bwd_statereturnconcatenate([fwd_state,bwd_state])我认为双向循环神经网络将成为那种随时间推移会显得显而易见的见解。

然而循环神经网络最直接的应用是读取文本并从中预测某些内容。

我们在这里所做的是计算一个中间表示——具体来说是每个词元的特征。

关键是我们得到的表示代表了上下文中的词元。

我们可以学习到“pick up”这个短语与“pick on”有不同的含义即使我们将这两个短语处理为单独的词元。

这一直是NLP模型的一个巨大弱点。

现在我们有了解决方案。

第三步注意力机制注意力机制步骤将编码步骤产生的矩阵表示缩减为单个向量以便可以将其传递给标准的前馈网络进行预测。

与其他缩减操作相比注意力机制的特征优势在于它以辅助上下文向量作为输入通过将矩阵缩减为向量必然会丢失信息。

这就是为什么上下文向量至关重要它告诉你哪些信息可以丢弃以便“摘要”向量能够适应消费它的网络。

最近的研究表明注意力机制是一种灵活的技术其新的变体可以用来创建优雅而强大的解决方案。

第四步预测一旦文本或文本对被缩减为单个向量我们就可以学习目标表示——类别标签、实值、向量等。

我们也可以通过使用网络作为状态机例如基于转移的解析器的控制器来进行结构化预测。

有趣的是大多数NLP模型通常偏爱相当浅层的前馈网络。

这意味着计算机视觉领域一些最重要的最新技术如残差连接和批量归一化迄今为止在NLP社区中影响相对较小。

实例一用于自然语言推理的可分解注意力模型自然语言推理是预测句子对类别标签的问题其中类别代表它们之间的逻辑关系。

斯坦福自然语言推理语料库使用三个类别标签蕴含如果第一个句子为真则第二个句子必须为真。

矛盾如果第一个句子为真则第二个句子必须为假。

中性既非蕴含也非矛盾。

B等人的一个有趣模型是一个顺序读取句子以构建树形结构内部表示的基于转移的模型。

B等人能够达到

8

2%的准确率较之前工作有显著提升。

不到六个月后P等人提出了一个达到

8

8%准确率的模型其参数量约为B等人模型的10%。

不久之后C等人发表了一个性能更好的系统——

8

3%。

关键在于该模型使用新颖的注意力机制混合两个句子矩阵的方式关键优势在于句子到向量的缩减操作是联合在句子上进行的而B等人是独立将句子编码成向量。

记住V的原则“当解决一个感兴趣的问题时不要将解决一个更普遍的问题作为中间步骤。

” —— Vladimir VapnikP等人将自然语言推理任务视为感兴趣的问题。

他们构建模型以直接解决它因此比那些单独编码句子的模型具有巨大优势。

B等人对更普遍的问题更感兴趣并相应地构建模型。

因此他们的模型在P等人的模型不适用的情景下很有用。

例如使用B等人的模型你可以缓存句子向量使得计算相似度矩阵的效率更高。

实例二用于文档分类的层次注意力网络文档分类是我曾经从事的第一个NLP应用。

与某机构相当的某中心资助了一个项目旨在爬取某中心网站并自动检测金融诈骗。

虽然该项目有点超前于时代但文档分类在其后近十年的大部分时间里变化出奇地小。

这就是为什么我觉得Y等人最近发表的层次注意力网络模型如此令人兴奋。

这是

我看到真正提供了对传统词袋模型具有说服力的普遍改进的论文。

该模型接收一个文档作为输入该文档由一系列句子组成每个句子由一系列词语ID组成。

每个句子的每个词语被单独嵌入为每个句子产生两个词向量序列。

然后序列被单独编码成两个句子矩阵。

一个注意力机制然后分别将句子矩阵缩减为句子向量这些句子向量随后被编码以生成文档矩阵。

最后一步注意力机制将文档矩阵缩减为文档向量然后传递给最终的预测网络以分配类别标签。

该模型使用注意力机制作为纯粹的缩减步骤它学习以矩阵作为输入并将其概括为一个向量。

它通过学习两个注意力转换的上下文向量来实现这一点这些上下文向量可以理解为模型认为最相关的词语或句子。

或者你可以将整个缩减步骤视为一个特征提取过程。

在这种观点下上下文向量只是另一个不透明的参数。

一个有趣的比较可以在Y等人的模型和卷积神经网络之间进行。

两种模型都能够自动提取位置敏感特征。

然而CNN模型既不够普遍效率也较低。

对于双向循环神经网络每个句子只需要读取两次——一次向前一次向后。

LSTM编码还可以提取任意长度的特征因为句子上下文的任何方面都可能混合到词元的向量表示中。

将句子矩阵缩减为向量的过程也简单高效。

为了构建文档向量只需再次应用相同的过程。

驱动模型准确性的主要因素是双向LSTM编码器用于创建位置敏感特征。

作者通过将注意力机制替换为平均池化证明了这一点。

使用平均池化模型在所有基准测试中仍然优于先前的最先进技术。

然而注意力机制进一步提高了所有评估的性能。

我发现这特别有趣。

其影响相当普遍——毕竟在很多情况下你希望将矩阵缩减为向量以进行进一步的预测而不需要参考任何特定的外部上下文。

下一步已为我们的NLP库实现了一个蕴含模型并正在开发文本分类系统的实现。

还计划发布一个通用的双向LSTM模型以便于在你的问题上使用预训练的词元向量。

更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife

com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享

www.17comm-www.17comm最新版v.20.82.95-2285安卓网应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123