核心内容摘要
视觉的巅峰盛宴:探寻色洛洛亚洲色图精选高清资源的极致美学
引言我们首先提出一个观点大模型的输入是 Token 的语义嵌入也称为语义向量其本质是把自然语言处理问题转换为信号处理问题。
因此对于大模型而言向量化非常关键它和信号处理、信息论有非常深刻的联系。
尽管从语言学的角度看语法和逻辑是人类语言现象的关键然而本系列的《统计物理篇》已经指出大模型并不考虑这些因素而是从纯概率的角度出发建模自然语言。
从 Token 的维度看这种纯粹的概率模型在计算上是非常困难的因此人们发展出了概率图模型、消息传递算法等工具[2]。
对于当前海量数据而言这些方法的复杂度仍然过高很难用于大规模训练也难以建模语义非对称性和长程依赖性。
但是当 Token 被向量化之后情况就发生了本质的变化因为我们可以定义内积并用内积来表示语义相关性从而大幅度降低计算量。
基于内积我们可以进一步定义距离、微分、低维流形等一系列相对容易数值计算的量。
这样就可以通过反向传播算法来训练神经网络将 Token 的向量化变成神经网络的输入、输出和参数化记忆[3][4]。
实际上许多研究也表明神经网络之所以能完成分类正是因为同一类事物如照片中的猫、狗等在高维参数空间中会内聚成低维流形[5][6]。
顺便提及我们在向量检索方面的研究取得了一定进展所提出的近似最近邻向量检索算法过去两年一直蝉联 ANNBenchemarks 榜单的第一名 。
语义嵌入 / 向量化人们用向量来建模语义的想法最早出现于 Luhn 在 1953 年发表的论文中[8]。
但直到 2013 年Mikolov 等人才真正取得突破[9][10]。
基于大量语料他们成功地训练出了将 Token 转化成语义向量的神经网络模型。
下面这个例子经常被用来表达最理想的语义向量化其中 s (⋅) 为一个词的向量化表示。
然而遗憾的是上述理想的语义向量化当前并未完全实现但是语义向量之间的内积或者归一化为余弦相似性却可以表示 Token 层面的语义相关性。
假设 Ω 是一种自然语言所包含的 M 个 Token 的集合那么从大模型的角度看一个 Token 的语义就由定义在 Ω 上的概率分布所描述[11]。
该分布可以从大量语料中学到因此语义空间就可以用这个学到的概率空间建模。
进一步地将语义向量空间定义为一个 M 维空间中的单位球面其中每个 Token 都和球面上的一个点一一对应。
对于大模型而言语义向量空间就可以建模为一个概率-内积空间。
许多研究认为语义向量空间应该是结构更复杂的低维流形但余弦相似性和欧式距离的实际效果就已经足够好了。
因此我们认为用单位球面 S^(M-
来定义语义向量空间是在效果和复杂度之间的良好平衡。
需要特别强调的是语义向量空间中的每一个向量本身并没有语义而这个向量与其它所有向量的内积即相对关系才代表了语义。
这一点和信息论中的信源编码有本质的区别。
经典的信源编码是对每一个信源符号的压缩而语义向量的压缩则是在相对关系近似不变的前提下对整个语义向量空间的降维。
那么如何衡量两个语义空间的距离以控制语义向量空间降维带来的精度损失或者衡量两个不同自然语言的语义差异性就变得至关重要。
当代著名的几何学家2009 年阿贝尔奖获得者Mikhael Gromov 为我们提供了数学工具即 Gromov-Wasserstein 距离[12]。
它衡量了两个度量 - 概率空间之间的任意两点间度量的平均差异。
该定义极大地拓展了最优传输理论中的 Wasserstein 距离的应用范围[13]。
据此我们定义语义向量空间距离如下其中可以看到衡量了概率加权意义下两个空间内积的平均最小差异即两个空间的平均结构差异。
如果在数学上称这两个空间是等距同构的。
这意味着这两个语义向量空间完全等价即两种语言在 Token 语义层面实际上是同一种语言。
从这个角度看衡量了两个语义向量空间偏离等距同构的程度。
偏离程度越大翻译起来的难度就越高。
因此不仅可以用于衡量语义向量空间降维带来的语义失真同时还可以用来度量语义对齐的效果[14]。
我们近期正在将这个方法从自然语言的语义对齐推广到多模态语义对齐问题上。
基于语义向量空间的概念下面讨论语义压缩问题。
原始 M 维语义向量空间的维数过高难以计算且容易导致维数灾难。
Landauer 等人指出语义向量化存在一个最优维数区间即所谓甜点维数[14]。
那么如何将 M 维语义向量空间压缩到一个合适维数这背后的数学原理就是著名的 Johnson-LindenstraussJL引理[16]。
考虑 ϵ∈(0,
和 K 个 M 维向量如果那么一定存在一个矩阵JL 引理表明可以通过线性变换来降低语义向量的维数同时使得内积的误差小于 ϵ。
因此压缩之后的语义失真可用下面的语义向量空间距离来衡量其中S 为原 M 维语义向量空间S’ 为降维后的 m 维语义向量空间。
更进一步如果考虑语义向量本身的稀疏性我们还可以用压缩感知理论来强化 JL 引理。
这种强化可以导出基于采样 FFT、采样 DCT 和采样 Hadamard 矩阵的快速压缩算法。
详情可参见原论文中的相应章节这里不再赘述。
需要注意的是这里并未考虑语义向量空间上的概率测度而是对每个语义向量都成立。
因此如果结合从语料中学到的概率测度很有可能会提出更高效的语义降维算法或得到更高的压缩比最优语义向量化我们知道一个 Token 到底呈现出什么语义是和下游任务密切相关的。
在本系列的《统计物理篇》中已经指出大模型的目标是预测下一个 Token。
因此Token 的向量化也应围绕该目标展开。
令为 Token 序列为对应的语义向量。
对于下一个 Token 预测任务语义编码器 f 是的函数其输出是中对于预测有用但不在里的信息。
那么从信息论的角度看最优语义编码器是下述优化问题的解上述定义的核心是条件互信息它保证了语义向量该不等式的最右端项就是 Google DeepMind 团队提出并广泛应用的包括 OpenAIContrastive Predictive CodingCPC算法[17]。
这篇论文明确指出他们的工作得到了信息论中 Predictive Coding 的启发。
这正是发表在 IEEE 的前身 IRE 主办的信息论汇刊 IRE Transactions on Information Theory 的第 1 卷第 1 期的第 1 篇和第 2 篇论文[18][19]。
作者则是大名鼎鼎的 Peter Elias他是卷积码的发明人1977 年香农奖得主3G 时代编码领域的绝对王者。
Google 的研究人员撰写论文系统综述了互信息的变分下界并最终选择 InfoNCE 作为损失函数从而通过神经网络最小化 InfoNCE 来最大化以上的讨论启发我们对于任何一个语义嵌入问题都可以先基于下游任务要求写出信息论优化问题再设计神经网络或数值算法来搜寻逼近信息论最优解或其上 / 下界的语义编码器。
从上述推导可以看出CPC 实际上优化的是最优语义编码器的上界的 InfoNCE 逼近所得到的语义编码器并不是最优的。
如果我们有更好的工具来直接优化上述不等式最左端的条件互信息的和那么将能得到性能更优的语义编码器。
因此这里要引入一个非常关键的信息论概念即定向信息。
这一概念的提出者是著名的信息论专家1988 年香农奖得主James Massey[21]。
根据 Massey 的研究从信道的输入序列到输出序列的定向信息可定义为它衡量了从序列选择倒向这个词是受到彭实戈院士所研究的倒向随机微分方程的启发[22]。
彭院士的研究成果最终促使他提出了一套与 Kolmogorov 概率公理化体系平行的非线性期望理论。
我们从中可以看出前面讨论的信息论最优的语义编码器就是在最优化倒向定向信息即然而定向信息的计算和估计是非常困难的。
该问题将在本系列的
《信息论篇》中展开讨论。
可见CPC 选择 InfoNCE 作为损失函数平衡了复杂度和效果。
Transformer 是非线性时变向量自回归时间序列在本系列的
《统计物理篇》中我们详细探讨了 Transformer 的能量模型Energy-based ModelEBM形式。
本篇我们从信号处理角度进一步讨论 Transformer 的本质。
业界已经达成共识Transformer 是一个自回归大语言模型。
这是因为它基于输入 Token 序列和已经生成的 Token 序列来预测下一个 Token。
事实上从经典随机过程和时间序列分析的角度看自回归模型有严格的数学定义即用过去的随机变量的值的线性加权和来预测未来的随机变量[23]。
考虑提示词的长度为 n用向量序列其中从数学形式上看Attention 是一个非线性时变向量自回归时间序列时变性体现在非线性体现在的定义中包含了 softmax 函数和建模语义非对称关系的双线性型其中。
令表示 Tranformer 的 FFN 层那么 Transformer 本质上是通过来预测下一个 Token 的向量表示。
在《统计物理》篇中我们已经指出 FFN 层对于预测下一个 Token 是很重要的它被认为是大模型储存知识的位置。
基于记忆容量的思路Attention 模块输出的向量应该会激活 FFN 层中与之最匹配的记忆模式从而作为下一个 Token 的向量表示。
后续的操作需要在离散的词表中选择最有可能的那个 Token。
在实际中可以设计多种采样策略来满足输出的要求但背后的原理与通信接收机中的最大似然译码很类似。
简单起见这里将采样操作表示成 argsoftmax (⋅) 函数。
令为词表 Ω 中的第 m 个 Token 的向量表示那么 Transformer 的数学形式可以写为其中 T 是温度。
实际上上述模型可作以下推广其中 Ψ 为非线性函数本系列的《统计物理篇》已经指出大模型的能力极限是在预测下一个 Token 的任务上逼近人类水平的 Granger 因果推断。
从时间序列的角度看Granger 因果检测的主要作用就是分析两个序列之间与时间相关的统计关系。
相关方法已经广泛应用于物理学、神经科学、社交网络、经济学和金融学等领域。
回忆 Granger 因果的定义令那么下面的不等式自然成立因此从时间序列的角度看大模型输入的 Token 序列和输出的 Token 序列符合 Granger 因果推断的定义。
这进一步印证了
的结论大模型推理的本质是通过预测下一个 Token 这一看似简单的训练目标进而实现逼近人类水平的 Granger 因果推断。
信号处理与信息论在引言中我们已经指出大模型处理的是向量化后的 Token 序列其本质是把传统基于概率的自然语言处理问题转换成了基于数值计算的信号处理问题。
从本文的讨论中可以看到这种从 Token 到其向量表示的转化与信息论和信号处理之间的关系非常类似。
具体来说Shannon 信息论是一个基于概率论的理论框架旨在理解信息压缩、传输和存储的基本原理及其性能极限但它并不关注工程中的具体实现方法和复杂度。
信号处理将信息论中的抽象符号表示为 n 维实 / 复空间中的向量。
这种表示使得数值计算方法能有效应用于感知、通信和存储系统的高效算法设计中。
可以说信号处理是信息论原理在特定计算架构下的具体实现。
更广泛地看我们经常用下图来表达计算理论和信息论之间的关系。
图的左边是 Turing 和他的计算理论他关心用多少个步骤能完成特定的计算因此时延通常用时间复杂度来度量是最关键的指标。
图的右边是 Shannon 和他的信息论他关心的是通信速率的上限或者数据压缩的下限即存在性和可达性。
此时通常假设码长趋于无穷大因而时延是被忽略的。
那么在实践中就会发现开发通信算法的瓶颈永远是算力不够算法复杂度太高而研究计算算法的瓶颈永远都是访存 / 卡间 / 服务器间通信带宽不够或者缓存 / 内存空间太小。
我们注意到尽管计算理论和信息论有本质的不同但他们最基本的操作单位都是 BIT因此我们可以肯定地说BIT 是连接计算和通信这两大领域的桥梁。
图BIT 是连接计算理论和信息论的桥梁是信息时代最伟大的发明。
正如 5G Polar 码发明人2019 年香农奖得主Erdal Arikan 教授参加我们的圆桌论坛中所指出的BIT 是信息时代最伟大的发明。
Shannon 在与 Weaver 合著的论文中也明确指出信息论只解决了信息的可靠传输问题即技术问题而不考虑语义和语效[26]。
但是人类已经进入了 AI 时代信息论是否还能继续发挥其基础性作用我们将在本系列的
《信息论篇》中看到只要将核心概念从信息时代的 BIT 转换成 AI 时代的 TOKENShannon 信息论就可以用来解释大模型背后的数学原理。
学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】