核心内容摘要
AIGlasses_for_navigation详细步骤:视频分割结果下载与后处理方法
Kimi K
5震撼发布视觉智能体革命多智能体并行让AI提速
5倍研究背景大语言模型LLM正在快速向智能体Agent方向演进。
像GPT-
5.
Claude Opus
5这些模型虽然在工具调用和推理上已经很强了但它们有个致命缺陷——所有任务都是串行执行的。
就像一个人再厉害也得一件事一件事地做遇到复杂任务就会陷入排队等待的困境延迟高得让人抓狂。
Moonshot AI团队推出的Kimi K
5要解决的就是这个痛点。
这篇论文提出了两个核心创新文本和视觉的联合优化不是简单地把视觉能力贴到语言模型上而是让两种模态从训练之初就相互促进、共同成长Agent Swarm智能体蜂群一个能动态分解任务、并行执行的多智能体框架把单线程变成多核处理器最牛的是Kimi K
5不仅在编程、视觉理解、推理等各个领域达到了业界顶尖水平在需要大规模搜索的任务上延迟降低了
5倍。
更重要的是他们把训练好的模型开源了让整个社区都能基于此进行研究和应用开发。
相关工作传统的多模态大模型训练思路是先训练一个强大的语言模型然后在训练后期加入大量视觉数据占比可能高达50%以上期望快速获得视觉能力。
这种先文本后视觉的策略看似合理但实际上存在两个问题第一模态冲突。
语言和视觉是两套完全不同的语言系统后期强行融合容易导致一方能力的退化。
就像一个专业翻译突然要兼职做摄影师很可能两头都做不好。
第二串行执行的瓶颈。
现有的智能体系统即使能进行数百步推理比如Kimi K2-Thinking但每一步都要等上一步完成遇到需要同时查询多个信息源、处理多个分支任务的场景等待时间会线性增长用户体验极差。
已有的一些方法尝试通过上下文管理比如丢弃工具结果、
总结历史来缓解这个问题但这些都是被动应对——相当于内存不够了就删东西而不是从根本上解决并行处理的问题。
核心方法文本视觉联合优化Kimi K
5的第一个核心洞察是给定固定的训练预算早期以较低比例引入视觉数据比后期集中灌入大量视觉数据效果更好。
他们做了一系列实验见表1发现在总token预算相同的情况下早期融合从训练0%时刻开始 低视觉比例10%中期融合从训练50%时刻开始 中视觉比例20%后期融合从训练80%时刻开始 高视觉比例50%结果是早期融合效果最好这完全颠覆了传统认知。
基于这个发现Kimi K
5采用了原生多模态预训练策略——从训练一开始就以恒定比例混合文本和视觉token让模型自然地发展出平衡的多模态表征。
MoonViT-3D图像视频共享的视觉编码器在架构上他们设计了MoonViT-3D视觉编码器。
这个编码器的巧妙之处在于原生分辨率处理不需要把图片切成小块再拼接直接处理原始分辨率图像视频参数共享把连续的4帧视频打包成一个时空体积用同一套参数处理。
这样图像理解的知识可以无缝迁移到视频理解Zero-Vision SFT用纯文本激活视觉能力更神奇的是零视觉监督微调Zero-Vision SFT。
传统方法需要大量人工标注的视觉推理链数据但K
5发现只用纯文本的监督微调数据就能激活模型的视觉和工具使用能力秘诀在于通过预训练阶段的联合训练视觉和文本已经建立了强对齐关系所以文本能力的提升可以自然地泛化到视觉任务。
他们把所有图像操作都代理成IPython中的程序化操作这样就能用丰富的文本数据来训练视觉智能体了。
联合多模态强化学习视觉提升文本最让人意外的发现是视觉强化学习不仅没有损害文本能力反而提升了文本性能如表2所示在进行视觉RL之后MMLU-Pro
8
7% →
8
4%
7%GPQA-Diamond
8
3% →
8
4%
1%LongBench v
2
7% →
5
9%
2%分析发现视觉RL增强了模型在需要结构化信息提取任务上的校准能力比如计数、OCR这些能力反过来帮助了文本推理。
这种双向增强验证了联合训练的优越性。
Agent Swarm——智能体蜂群并行框架第二个核心创新是Agent Swarm框架解决串行执行的效率瓶颈。
PARL并行智能体强化学习核心思想是训练一个编排者Orchestrator来动态创建和调度多个子智能体Sub-agents。
关键设计包括
解耦架构编排者是可训练的但子智能体是冻结的来自之前的检查点。
这样避免了端到端联合优化带来的两个难题信用分配模糊性任务成功了不知道该奖励哪个子智能体训练不稳定性多个智能体同时更新容易崩溃
PARL奖励函数r PARL ( x , y ) λ 1 ⋅ r parallel ⏟ 实例化奖励 λ 2 ⋅ r finish ⏟ 子任务完成率 r perf ( x , y ) ⏟ 任务级结果 r_{\text{PARL}}(x,y) \lambda_1 \cdot \underbrace{r_{\text{parallel}}}_{\text{实例化奖励}} \lambda_2 \cdot \underbrace{r_{\text{finish}}}_{\text{子任务完成率}} \underbrace{r_{\text{perf}}(x,y)}_{\text{任务级结果}}rPARL(x,y)λ1⋅实例化奖励rparallelλ2⋅子任务完成率rfinish任务级结果rperf(x,y)这个奖励包含三部分r parallel r_{\text{parallel}}rparallel鼓励创建子智能体防止退化成单智能体r finish r_{\text{finish}}rfinish奖励成功完成的子任务防止胡乱创建无意义的智能体r perf r_{\text{perf}}rperf最终任务的性能训练过程中λ 1 \lambda_1λ1和λ 2 \lambda_2λ2会逐渐衰减到0确保最终目标是优化任务性能。
关键步数Critical Steps在并行环境中执行时间不是看总步数而是看最长的那条路径。
定义为CriticalSteps ∑ t 1 T ( S main ( t ) max i S sub , i ( t ) ) \text{CriticalSteps} \sum_{t1}^{T}\left(S_{\text{main}}^{(t)} \max_i S_{\text{sub},i}^{(t)}\right)CriticalStepst1∑T(Smain(t)imaxSsub,i(t))这里S main ( t ) S_{\text{main}}^{(t)}Smain(t)是主智能体在第t tt阶段的步数S sub , i ( t ) S_{\text{sub},i}^{(t)}Ssub,i(t)是第i ii个子智能体的步数。
通过约束关键步数而非总步数框架明确激励有效的并行化。
主动式上下文管理Agent Swarm不仅是性能和速度的提升更是一种主动式的上下文管理策略。
传统的上下文管理方法如丢弃工具结果、
总结历史是被动的——等到上下文溢出了才去压缩或删除往往会丢失结构化信息。
而Agent Swarm通过显式编排实现主动控制长任务被分解成并行的、语义隔离的子任务每个子智能体维护独立的局部上下文和工作记忆只有任务相关的输出而非完整交互轨迹被选择性地返回给编排者这种设计实现了上下文分片而非上下文截断在保持模块性、信息局部性和推理完整性的同时沿着架构维度扩展了有效上下文长度。
Token高效强化学习Toggle算法为了在推理时做到既快又好K
5提出了Toggle训练启发式方法。
核心思路是在训练过程中交替两个阶段Phase 0预算限制阶段模型必须在任务相关的token预算内解决问题培养简洁推理的能力Phase 1标准扩展阶段模型可以生成到最大token限制充分利用计算资源预算是根据正确回答中token长度的某个百分位数估算的budget ( x ) Percentile ( { ∣ y j ∣ ∣ r ( x , y i ) 1 , i 1 , … , K } , ρ ) \text{budget}(x) \text{Percentile}\left(\{|y_j| \mid r(x,y_i)1, i1,\ldots,K\}, \rho\right)budget(x)Percentile({∣yj∣∣r(x,yi)1,i1,…,K},ρ)实验显示Toggle能在几乎不影响性能的情况下将输出token减少
%并且有很强的领域泛化能力。
实验效果综合基准测试Kimi K
5在几乎所有测试中都达到了顶尖水平见表4。
我们挑几个亮点推理和通用能力AIME 2025数学
9
1%接近GPT-
2的满分超过Claude Opus
4.
5
8%HMMT
2
4%展现出超强的数学推理深度HLE-Full带工具
5
2%显著超过Gemini 3 Pro
4
8%和GPT-
5.
2
5%GPQA-Diamond科学推理
8
6%处于第一梯队复杂编程和软件工程SWE-Bench Verified
7
8%在真实软件工程任务上表现出色SWE-Bench Multilingual
7
0%多语言代码能力强劲LiveCodeBench v
6
0%超过DeepSeek-V
3.
2
3%和Claude Opus
4.
5
2%智能体能力这是K
5最闪耀的地方BrowseComp
6
6%无上下文管理
7
9%带上下文管理
7
4%Agent Swarm——大幅超过GPT-
2的
6
8%WideSearch
7
7%单智能体
7
0%Agent Swarm——比Claude Opus
5的
7
2%还高DeepSearchQA
7
1%领先所有评估模型视觉理解MMMU-Pro
7
5%多学科多模态任务表现优异MathVision
8
2%视觉数学推理能力强OCRBench
9
3%文档理解能力顶尖OmniDocBench
1.
5
8%达到SOTA水平视频理解VideoMMMU
8
6%与顶级模型并驾齐驱LongVideoBench
7
8%长视频理解新纪录LVBench
7
9%全局SOTA计算机使用OSWorld-Verified
6
3%大幅超过开源模型Qwen3-VL
3
1%和OpenAI的Operator
4
9%WebArena
5
9%超过Operator
5
1%接近Claude Opus
4.
5
4%Agent Swarm的惊人加速效果表6展示了Agent Swarm在智能体任务上的优势基准K
5 Agent SwarmKimi K
5单智能体提升BrowseComp
7
4%
6
6%
1
8%WideSearch
7
0%
7
7%
3%In-house Swarm Bench
5
3%
4
6%
1
7%更震撼的是执行时间的节省在WideSearch基准上随着目标Item-F1从30%增加到70%单智能体的执行时间从基准的
8倍暴涨到7倍以上Agent Swarm始终保持在
6倍到
6倍之间最高实现了
5倍的加速这意味着在处理复杂任务时用户等待时间可以从几分钟缩短到几十秒。
动态子智能体创建涌现的专业化Agent Swarm不是预先定义好子智能体的角色而是让编排者自己学习创建什么样的智能体。
图6展示了在测试中动态实例化的各种专业化子智能体包括Award Researcher奖项研究员、“Historical Researcher”历史研究员、“Biography Investigator”传记调查员等等。
这些角色不是人为设计的而是模型根据任务需求自主创建的——这是真正的涌现智能。
Token效率表5对比了几个推理模型的性能和token消耗在AIME 2025上Kimi K
5用25k tokens达到
9
1%的准确率而Kimi K2 Thinking需要30k tokens才达到
9
5%。
在保持甚至提升性能的同时token消耗明显降低。
这对于推理时扩展至关重要——既要能解决难题需要长推理链又不能无限制地消耗计算资源。
论文
总结Kimi K
5的核心让视觉和语言从训练之初就相互促进并通过多智能体并行执行把AI从单核串行升级到多核并行从而在保持强大能力的同时实现了
5倍的速度提升。
这篇论文的意义不仅在于刷新了一堆基准测试的SOTA更在于展示了一条通往通用智能体系统的可行路径多模态不是拼接而应该是共生智能体的未来不是单打独斗而是协同作战