核心内容摘要
520886:解码数字情话,传递爱的密码
本文剖析了
年大模型从规模竞争向效率、推理与智能体三大技术支柱的战略转型。
MoE架构和新型注意力机制解决效率瓶颈thinking预算和强化学习提升推理能力智能体功能实现工具交互。
这一转变使LLM从文本预测器进化为通用问题解决系统未来将向具身智能和后Transformer架构探索开源与闭源形成差异化竞争格局。
2023年的GPT-4开始唯参数规模论时代的终结
1 2023年基线GPT-4范式在2023年初LLM领域的发展遵循着一条清晰而有力的轨迹规模决定能力所以当年的爆火词就是Scaling Laws更大的参数更大的计算量更大的数据规模这一理念的顶峰体现便是OpenAI的GPT-4作为2023年当时最先进的AIGPT-4被呈现为一个大规模的典范基础架构依然是Transformer但是拉长参数量看上去就可以很好的work。
尤其它在多种专业和学术基准测试中展现出与人类相当的水平例如在模拟律师资格考试中取得了排名前10%的成绩而前身GPT-
5的得分则位于后10%。
相较于GPT-
5GPT-4的关键进步体现在几个方面。
首先是上下文窗口长度的极大扩展提供了8K和32K两种规格的上下文长度远超前代的4K和2K有点像当年软盘时代内存从1K到1M的变化。
这使得模型能够处理更长、更复杂的任务OpenAI也宣称GPT-4在可靠性、创造力甚至处理细微指令的能力上均优于GPT-
5。
不过GPT-4的发布也让OpenAI有了个别名CloseAI就是因为架构保密。
在技术报告中OpenAI明确表示出于竞争格局和大规模模型的安全影响的考量将不提供关于架构包括模型参数大小、硬件、训练计算量、数据集构建或训练方法的任何细节。
这个决定引发了社区关于透明度的广泛讨论也使得外界对内部工作原理的理解主要依赖于间接推测和性能分析。
当时一直有说法GPT-4拥有高达1760B的巨大参数量但这从未得到官方证实可它进一步强化了当时业界普遍持有的 Scaling-is-all-you-need 的信念当时很多说法都是 GPU集群/数据量/更大的参数量 is all you need。
GPT-4的成功给整个领域指明了一条通过不断扩大模型规模和数据量来提升智能水平的路径。
2 Scaling范式中浮现的裂痕随后到2024年直到年底一年多的时间该挖的数据、该买的算力、该请的人才都到位了但还没出现GPT5唯规模论的范式迎来了深刻反思和系统性挑战。
这一时期的模型演进并非由单一技术突破驱动而是源于对现有范式局限性的多方面冲击。
对效率的迫切需求传统Transformer架构的注意力机制具有与序列长度成二次方关系的计算复杂度O(L^
复杂度加之密集型Dense模型高昂的推理成本共同构成了一个严重的性能瓶颈。
这极大地限制了上下文长度的扩展和模型的实际部署从而催生了对稀疏架构和新型注意力机制的迫切需求。
对推理的迫切需求业界逐渐认识到单纯的规模扩张并不能赋予模型强大的、多步骤的逻辑推理能力。
模型在面对需要复杂规划和逻辑演绎的任务时依然表现不佳。
这一瓶颈促使研究方向发生根本性转变从完全依赖预训练阶段的计算投入转向在推理阶段分配额外计算资源即思考thinking模型的诞生。
智能体的迫切需求随着模型推理能力的增强下一个重点目标是让模型能够根据推理结果采取行动。
这要求模型不仅能思考还能与外部工具和环境进行交互从而执行复杂任务这标志着智能体AIAgentic AI时代的产生。
这三者有相互关联的驱动力并非孤立存在而是构成了一条紧密相连的因果链清晰地勾勒出2023至2025年间前沿模型架构的演进脉络。
效率的提升是实现经济可行的推理模型的前提而强大的推理能力则是构建有效智能体的基石。
这条演进路径的逻辑为需要对架构进行改进密集型Transformer模型的计算和内存开销是核心痛点。
为了处理更复杂的现实世界问题模型需要更大的上下文窗口来容纳所有相关信息并需要更复杂的内部处理流程。
然而O(L^
的复杂度和巨大的KV缓存使得这一需求在经济上和技术上都难以为继。
因此架构上的效率创新成为第一要务。
混合专家MoE架构通过稀疏激活来降低计算量而线性注意力等机制则直接攻击了二次方复杂度的瓶颈。
这些在
分将详细分析的创新为后续发展铺平了道路。
需要提升可解释性找到新的增长范式一旦模型的基础架构在效率上得到优化实验室便有了资本去探索计算成本更高的推理过程。
在推理时进行thinking也就是让模型在给出最终答案前进行一系列内部的、复杂的思考步骤只有在底层架构已经足够高效的前提下才具有经济可行性不然thinking一次巨长时间又巨贵没什么可用性。
没有MoE或线性注意力等技术降低基础成本为每一次查询增加数倍乃至数十倍的thinking计算量是无法想象的。
需要有商业价值有用一个能够进行多步推理并形成复杂计划的模型固然强大但一个能够利用工具去影响其他系统做出实践的模型才具有真正的变革性。
因此Agent能力的开发成为应用推理能力的自然延伸。
它是这条因果链的第三个环节也是最高阶的体现。
一个模型只有在能够高效地进行深度思考之后才能可靠地决定何时、如何以及使用何种工具来完成任务。
2024年至今对效率的迫切需求
1 稀疏化的兴起混合专家MoE架构混合专家Mixture-of-Experts, MoE架构是这一时期应对效率挑战最核心的策略之一基本思想是用大量小型的专家网络替换Transformer中密集的、计算量巨大的前馈网络FFN层。
这样对于输入序列中的每一个token一个门控网络gating network或称为路由器router的机制会动态地选择一小部分专家来处理它。
按这个模式模型的总参数量可以急剧增加比如R1直接到671B的总参数量但每次前向传播即推理时实际激活的参数量和计算量FLOPs却只占一小部分比如R1实际上只激活37B从而实现了经济的训练和高效的推理。
2.
1 DeepSeek的开创性MoE推进DeepSeek是推广和开源MoE架构的重要部分从V2开始到R1等系列模型清晰地展示了MoE架构的演进和威力到现在基本全是MoE的模型。
DeepSeek-V2该模型引入了名为DeepSeekMoE的稀疏MoE架构。
在236B2360亿参数的版本中每个token仅激活21B210亿参数。
这展示了超过10:1的总参数与激活参数之比是MoE理念的经典体现这种设计使得模型能够在保持巨大知识容量的同时显著降低推理成本。
DeepSeek-V2-Lite为了便于学术研究和更广泛的部署DeepSeek推出了16B参数的轻量版MoE模型每个token仅激活
4B参数。
其技术报告详细说明了其实现方式除了第一层外所有FFN层都被MoE层取代。
每个MoE层包含2个所有token共享的专家shared experts和64个路由选择的专家routed experts每次会为每个token激活6个路由专家。
这种细粒度的设计共享专家处理通用模式路由专家处理特定子问题展示了MoE架构的灵活性和复杂性。
DeepSeek R1作为一款专为推理设计的模型R1同样基于MoE架构。
它有惊人的671B总参数而每个token的激活参数量为37B这其实进一步证明了MoE架构是实现数千亿级别参数模型的可行路径尤其是在HPC高性能计算协同设计的加持下。
2.
2 Qwen的混合产品组合策略阿里的Qwen团队采取了独特的市场策略Qwen3系列同时提供了密集模型最高32B和MoE模型如30B-A3B235B-A22B。
这个策略是对不同市场需求的应对性玩法密集模型通常具有更可预测的性能和更简单的微调流程适合寻求稳定性的企业用户。
MoE模型则代表了技术前沿以极致的规模和性能吸引高端用户和研究者这种双轨并行的产品线让Qwen能够在不同的细分市场中都保持竞争力尤其是二次开发的衍生模型Qwen一直在HF都是排名第一的衍生模型大量的科研和二次开发都是基于Qwen
5用LLaMA的越来越少。
2.
3 Minimax-m1的混合MoE最近6月刚发且开源的Minimax的m1模型也采用了混合MoE架构拥有32个专家。
模型总参数量为456B每个token激活
4
9B参数。
这再次印证了约10:1的总参数与激活参数之比已成为大型MoE模型的一个行业基准主要也带来了超长上下文方面的提升整体的性能可以看表还是表现的很不错的。
2 注意力机制革命超越二次方缩放如果说MoE解决了FFN层的计算开销那么新的注意力机制则旨在攻克Transformer架构的另一个核心瓶颈自注意力机制self-attention与序列长度L的二次方计算复杂度O(L^
这一瓶颈是限制模型处理超长上下文如百万级token的主要障碍。
2.
1 DeepSeek的多头潜在注意力MLA机制DeepSeek的Multi-Head Latent Attention (MLA) 是一种创新的注意力机制它通过将长序列的Key和Value向量即KV缓存压缩成一个单一的、低秩的潜在向量latent vector来解决KV缓存瓶颈。
这极大地减少了存储历史信息所需的内存使它在支持128K上下文长度的同时KV缓存相较于前代模型减少了
9
3%。
在V3中的演进在DeepSeek-V3中MLA得到了进一步的优化引入了更复杂的动态管理策略。
例如动态低秩投影Dynamic Low-Rank Projection可以根据序列长度自适应地调整压缩强度短序列少压缩以保留保真度超长序列如32K-128K则深度压缩以控制内存增长。
分层自适应缓存Layer-Wise Adaptive Cache会在模型的更深层修剪掉较早的KV条目进一步优化了在极端长上下文场景下的内存使用这些演进表明对注意力机制的优化已进入精细化、动态化的阶段。
2.
2 Minimax-m1的闪电注意力Lightning Attention机制Minimax-m1采用了更为激进的混合注意力方案。
大部分Transformer层使用的是一种名为闪电注意力Lightning Attention的线性复杂度O(L)机制。
然而为了防止模型表达能力和性能的过度损失架构中每隔七个使用线性注意力的Transformer块就会插入一个使用标准softmax注意力的完整Transformer块。
影响这种设计在处理长序列时极大地降低了计算负荷。
在生成长度为100K个token时m1消耗的FLOPs仅为DeepSeek R1的25%这直接能够支持高达100万token的超长上下文长度这是一种在效率和性能之间进行权衡的设计。
2.
3 Qwen
5分组查询注意力GQAQwen
5在技术报告中明确提到了架构中集成了分组查询注意力Grouped Query Attention, GQA以实现更高效的KV缓存利用。
虽然GQA不像MLA或闪电注意力那样具有革命性但它已成为现代LLM中一项标准的、必不可少的优化技术用于在性能和效率之间取得平衡。
2.
4 效率作为战略护城河对效率架构的选择已不仅仅是技术层面的决策更是一种核心的商业战略深刻地定义了各个AI实验室的竞争地位。
开源社区和闭源巨头在此展现出截然不同的策略。
一方面以DeepSeek和Qwen为代表的开源力量选择将架构创新公之于众。
他们详细地公布了MLA、MoE的具体实现方式以及稀疏注意力框架的技术细节。
核心价值主张是以远低于专有模型的成本提供接近业界SOTA的性能并附加了架构透明度方便开发者进行定制和研究。
这一战略直接冲击了AI技术的高成本壁垒通过开源和性价比来占领市场。
另一方面以OpenAI和Anthropic为代表的闭源领导者同样在效率上投入巨资例如GPT-4o的API价格比GPT-4 Turbo便宜50% 但他们选择将具体的实现细节作为商业机密。
他们将效率提升所节省下来的计算资源再投资到计算成本更高昂的专有功能上例如扩展思考extended thinking或智能体工具使用agentic tool use。
对他们而言护城河并非效率本身而是由效率所解锁的、难以复制的独特能力。
这种战略分化创造了一个动态的竞争格局开源模型不断拉低标准推理服务的价格迫使闭源领导者必须持续创新推出新的、能证明高昂定价和专有性质的尖端功能。
因此对效率的追求成为了整个领域发展的引擎它既驱动了基础能力的“商品化”也催生了新功能前沿的不断开拓。
2025年来推理Thinking走向台前
1 CoT的逐渐拉长这个新范式将计算开销的重心从预训练阶段部分转移到了推理阶段。
核心理念是模型在生成最终答案之前花费额外的计算资源来生成一段内部的思考链CoTchain of thought从而在需要逻辑、数学和规划的复杂任务上实现性能的巨大飞跃。
这标志着模型从静态的知识检索向动态的问题解决能力的演进。
3.
1 OpenAI的o系列o1, o3, o4-mini机制o系列模型是这一范式的开创者它们在回答问题前会明确地花费时间进行Thinking。
这个过程会生成一个长的、对用户隐藏的思考链这段内部独白对于模型推导出正确答案至关重要。
OpenAI以安全和竞争优势为由禁止用户探查这个思考链。
影响这种方法在重推理的基准测试上带来了惊人的性能提升。
例如o1解决了83%的AIME美国数学邀请赛问题而GPT-4o仅为13%。
这有力地证明了对于特定类型的问题推理时计算test-time compute比预训练计算能带来更大的价值。
o系列还包括o1-mini、o4-mini这些变体它们更快、更便宜专为编码和STEM等不太需要广泛世界知识的任务进行了优化很适合对话用。
3.
2 Anthropic的Claude系列的混合推理机制Claude
7是首个以“混合推理模型”hybrid reasoning model为卖点的模型它允许用户在快速响应和更深度的“扩展思考”extended thinking之间进行选择。
随后的Claude 4Opus和Sonnet版本进一步将此功能完善为两种明确的模式允许开发者根据具体应用场景在延迟和准确性之间做出权衡。
3.
3 Google的Gemini
5屠榜的存在Gemini
5 pro preview 0605最近屠榜了样样都是第一直接看下图。
另外还短时期流传出了Kingfall这个模型也支持推理模式据说性能极其的牛但我还没试过可以参考这篇文章如何评价Google泄露AI模型KingFall其性能和现有顶尖模型相比有提升么https://www.zhihu.com/question/1917689645715677739/answer/
19180684801686915533.
4 Qwen的方法Qwen3同样引入了“思考”和“非思考”模式并在API中直接提供了一个名为思考预算thinking budget的参数表明这一范式已成为行业共识。
思考模式专用于处理复杂的逻辑、数学和编码任务而非思考模式则用于高效的通用聊天。
2 为推理而训练强化学习的演进角色强化学习RL的角色在这一时期发生了根本性的转变。
它不再仅仅是用于对话对齐如RLHF的工具 而是成为了教授模型如何进行推理的核心方法推理时间也成为了新的Scaling Laws。
Thinking范式的出现为扩展AI性能引入了一个全新的、正交的轴线推理时计算。
这从根本上改变了AI实验室的经济模型和发展重点。
在此之前AI的进步主要沿着训练时计算和参数数量这两个轴线来衡量。
主流的假设是用更多数据训练一个更大的模型它就会变得更聪明。
这是2024年之前的旧轴线。
然而o系列及同类模型证明对于一组固定的模型权重通过增加推理期间使用的计算量可以极大地提升模型在复杂任务上的表现。
o1的技术分析中有一张图表明确显示在AIME基准上的准确率随着测试时计算量的增加而提升这便是新轴线的直接证据。
这一转变带来了深远的、高阶的影响。
首先它预示着对推理硬件的需求将大规模增长而不仅仅是训练硬件。
运行一次查询的成本不再是固定的而是根据问题的难度动态变化这为硬件市场带来了新的增长点。
其次它将研究重点从单纯地扩大预训练规模转向开发更高效的推理算法如在思考链中进行更优的搜索或规划和更有效的RL技术来引导推理过程。
另外它也催生了新的产品设计和商业模式Model is the product的商业模式正在演变以适应这个新维度催生了如Gemini Flash与Pro、o4-mini与o3这样的分层产品其中Thinking成为一个关键特性和差异化卖点允许客户根据任务需求购买相应水平的智能。
3.
1 DeepSeek-R1的RL优先流水线机制DeepSeek-R1的训练过程是一个以RL为中心的多阶段流程。
在通过SFT监督微调进行Cold Start后模型会进入一个大规模的RL阶段该阶段专注于基于规则的评估任务以激励模型生成准确且结构清晰的推理过程。
此后再进行更多的SFT和一个最终用于通用对齐的RL阶段。
目标这种RL优先的方法促进模型自发地涌现出自我验证和错误修正等高级行为产生了Aha moment从而减少对大规模人工标注推理数据集的依赖所以GRPO基本是目前广泛使用的模式很多变体都是基于这个进行改进。
3.
2 Minimax-m1的CISPO算法机制Minimax为训练大型模型开发了一种新颖的RL算法CISPOClipping Importance Sampling Policy Optimization这个也是GRPO的变体算法通过裁剪重要性采样权重而非使用信任域约束来稳定训练过程。
影响这一算法创新对于成功训练庞大的456B混合专家模型至关重要。
它在处理需要长远规划的复杂任务时相比之前的方法实现了2倍的训练速度提升仅用三周时间就完成了整个RL训练周期花了五百多万美元的GPU hours很具有性价比。
3 从理想到行动智能体工具使用的黎明一旦模型具备了推理和规划的能力合乎逻辑的下一步就是让它能够通过与外部工具交互来执行计划。
这正是AI智能体的定义。
3.
1 OpenAI的o3和o4-mini这些模型是首批被描述为具备“智能体工具使用”agentic tool use能力的模型。
它们能够自主地决定何时以及如何组合使用网页搜索、Python代码分析和DALL-E图像生成等工具来解决一个复杂的用户请求。
例如模型可以多次搜索网页分析返回结果并根据分析动态调整后续策略。
3.
2 Anthropic的Claude 4Claude 4的发布伴随着一套专为构建智能体而设计的新API功能一个代码执行Sandbox、一个用于访问本地文件的Files API和一个MCP工具。
这些功能再结合独特的“计算机使用”computer use能力即生成鼠标和键盘操作使Claude成为构建能够与数字信息和图形用户界面UI进行交互的强大智能体的理想平台目前Claude Code也给Cursor这些带来很大的危机感。
当前综合与竞争格局
1 各大模型的架构哲学比较OpenAI专注于开创“推理计算”范式以o系列模型引领潮流并利用先发优势打造新一类智能体模型。
其战略是能力优先架构细节作为核心竞争优势保持专有。
DeepSeek奉行清晰的开源共享战略。
他们在MoE、MLA等公开透明的架构上积极创新并采用GRPO这些强化学习的方法以更低成本提供与SOTA相媲美的模型直接挑战专有生态系统在国际上都有很高的评价。
Anthropic采取“安全优先能力驱动”的路线。
他们紧随OpenAI进入推理“混合推理”和智能体“计算机使用”、智能体API领域但通常更强调可控、可理解的过程和企业级的可靠性并且目前更加强调代码能力。
Google实施“平台与产品组合”战略。
通过Gemini
5家族Pro, Flash, Lite他们提供了一套基于统一“思考模型”架构的分层模型并深度集成到Google Cloud生态系统Vertex AI中为企业提供具有明确性能权衡控制的解决方案。
Qwen采用“灵活产品组合”战略。
通过同时提供密集和MoE模型Qwen3并开创超长上下文Qwen
2.
M他们满足了广泛的用例需求并在多个战线尤其是在多语言和开源领域展开竞争。
Minimax展现了新颖混合的探索精神。
其m1模型将多种前沿但不同的思想MoE、线性/softmax混合注意力、新颖RL算法融合到一个强大的开源权重模型中显示出他们探索独特架构组合的意愿。
2 这两年主要LLM架构列表对比
3 推理与Coding的Benchmark表现截止到今年6月的表现如下模型架构的演进直接导致了Benchmark评估的分化。
传统的NLP基准测试如MMLU大规模多任务语言理解正迅速变得饱和对于区分前沿模型的能力越来越有限。
与此同时一类专注于复杂推理如GPQA, AIME和智能体执行如SWE-bench, Terminal-bench的新基准已成为衡量SOTA的真正标准。
这一转变的背后逻辑是随着模型普遍能力的提升它们在MMLU等知识密集型、选择题式的基准上的得分开始聚集在高端区间难以拉开差距。
2025年AI指数报告明确指出了MMLU、GSM8K和HumanEval等传统AI基准的饱和。
作为回应学术界和工业界将注意力转向了能够有效测试新一代推理能力的基准。
AIME高难度数学竞赛、GPQA需要研究生水平知识的问答以及特别是SWE-bench要求模型像软件工程师一样修复真实的GitHub问题现在已成为Claude
o3和DeepSeek-R1等模型发布公告中反复引用的事实标准。
这一转变的更高阶影响是SOTA的定义本身发生了变化。
它不再是一个单一的、普适的头衔。
一个模型可能在一个维度上是SOTA但在另一个维度上则不是。
例如根据SWE-bench的领先表现Anthropic的Claude 4被定位为SOTA的编码智能体。
而OpenAI的o3/o4-mini则凭借在AIME上的卓越成绩成为数学和推理领域的SOTA。
Google的Gemini
5 Pro则在上下文处理和多模态能力上独占鳌头。
这种由架构选择驱动的专业化意味着选择最佳模型已成为一个依赖于具体用例的决策过程反映出一个日益成熟和多样化的市场。
如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。
但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。
这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。
我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。
那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。
我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2025 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。
正确的学习路线可以为你节省时间少走弯路方向不对努力白费。
这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。
④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。
⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。
⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。
在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。
以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有
年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。
风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。
本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。
以上全套大模型资料如何领取