核心内容摘要
探索“久操操”的深层魅力:一场关于时间、情感与连接的沉浸式体验
杨植麟亲自出镜发布月之暗面迄今为止最强模型Kimi K
5。
Kimi K
5 在 Kimi K2 的基础上经过了约15万亿视觉与文本混合数据的持续预训练原生的多模态模型带来了顶尖的编程与视觉能力以及一种能够自我指导的智能体蜂群agent swarm范式。
对于复杂的任务Kimi K
5 可以自我指导一个由多达100个子智能体组成的蜂群以并行工作流的方式执行跨越多达1500个工具调用的并行工作流。
这种模式由 Kimi K
5 自动创建和协调无需任何预定义的子智能体或工作流程。
在三个智能体基准测试上包括 HLEHumanitys Last Exam人类最终考试、BrowseComp浏览器综合能力测试和 SWE-Verified软件工程验证测试Kimi K
5 以远低于竞争对手的成本实现了强劲的性能表现。
与 GPT-
2xhigh相比Kimi K
5 在 SWE-Verified 上节省了
1倍的成本在 BrowseComp 上节省了
2
1倍在 HLE 上节省了
1
1倍。
用户可以用更少的开销获得相近甚至更优的结果。
代码获得了视觉Kimi K
5 是目前开源模型中编程能力最强的之一尤其擅长前端开发。
它可以将简单的对话转化为完整的前端界面实现交互式布局和丰富的动画效果例如滚动触发的特效。
除了文本提示Kimi K
5 更擅长利用视觉进行编程。
通过对图像和视频的推理它提升了从图像或视频生成代码以及进行视觉调试的能力降低了用户通过视觉来表达意图的门槛。
例如Kimi K
5 可以通过观看一段视频来重建一个网站。
这种能力源于大规模的视觉与文本联合预训练。
当训练规模足够大时视觉和文本能力之间的权衡便不复存在它们会协同提升。
一个有趣的例子是 Kimi K
5 对一个迷宫谜题的解答。
找到从左上角到右下角的最短路径其中黑色代表道路看起来太恐怖了模型首先分析图像确认这是一个在网格上寻找路径的问题。
它将每个黑色像素视为一个节点相邻的黑色像素之间有边相连。
解决这类问题的标准算法是 A*A-star或戴克斯特拉Dijkstra算法但考虑到这是一个所有边权重相等的网格广度优先搜索BFS, Breadth-First Search同样有效且能保证找到最短路径。
模型制定了解决步骤加载图像将其转换为二进制迷宫以识别通路找到起点和终点然后实施广度优先搜索算法寻找最短路径最后将路径可视化地呈现在图像上。
这个过程完整地展示了 Kimi K
5 的视觉推理和代码执行能力。
它不仅理解了任务的视觉内容还能自主规划并执行一系列复杂的代码操作来解决问题最终给出了一个经过验证的、可视化的完美答案。
在真实的软件工程任务中Kimi K
5 同样表现出色。
Kimi Code Bench 内部编程基准测试涵盖了从构建、调试、重构到测试和编写脚本等多种端到端任务并支持多种编程语言。
在这个基准测试上Kimi K
5 在所有任务类型上都显示出比前代模型 K2 更为一致和显著的进步。
K
5 的得分为
5
4±
9而 K2 Thinking 为
4
7±
6K2 0905 为
3
6±
1。
从 K2 0905 到 K
5性能提升了约49%。
为了方便用户体验 Kimi K
5 的智能体编程能力官方提供了一个名为 K
5 Agent 的模式其中预设了一系列工具。
而对于更专业的软件工程应用场景官方推荐将 Kimi K
5 与其新的编程产品 Kimi Code 结合使用。
Kimi Code 可以在用户的终端环境中运行并能与多种集成开发环境IDE如 VSCode、Cursor、Zed 等集成。
它是一个开源工具支持图像和视频作为输入并且能够自动发现和迁移用户已有的技能和模型上下文协议MCP到其工作环境中。
一个展示 Kimi Code 能力的例子是它接受了将艺术家 Matisse 的名画《舞蹈》的美学风格转化为 Kimi 应用程序界面的任务。
利用视觉输入和查阅文档K
5 能够以视觉方式检查自己的输出并自主进行迭代最终端到端地创建了一个充满艺术感的网页。
这种能力被称为自主视觉调试autonomous visual debugging它让模型能够像一个有经验的前端开发者一样反复查看自己的作品发现问题然后修正直到满意为止。
智能体实现了蜂群协作Kimi K
5 Agent Swarm智能体蜂群则展示了从单个智能体向上扩展Scaling Up到自我指导、协调一致的蜂群式执行Scaling Out的转变。
通过并行智能体强化学习PARL, Parallel-Agent Reinforcement Learning的技术进行训练Kimi K
5 学会了如何自我指导一个由多达100个子智能体组成的蜂群执行跨越多达1500个协调步骤的并行工作流而这一切都无需预设角色或手动编排工作流程。
并行智能体强化学习使用一个可训练的编排器智能体orchestrator agent来将复杂任务分解为可并行的子任务。
每个子任务都由动态实例化且参数固定的子智能体frozen subagents来执行。
通过并行运行这些子任务相比于按顺序执行的单个智能体端到端的延迟时间得到了显著降低。
训练一个可靠的并行编排器充满挑战因为它从独立运行的子智能体那里收到的反馈是延迟的、稀疏的且不稳定的。
一个常见的失败模式是串行坍塌serial collapse即编排器虽然拥有并行的能力却退化为单智能体执行模式。
为了解决这个问题并行智能体强化学习采用了一种分阶段奖励塑造staged reward shaping的策略。
在训练初期该策略通过奖励来鼓励并行行为随着训练的深入逐渐将重点转移到任务的最终成功率上。
奖励函数的设计是这样的总奖励等于一个辅助奖励鼓励并行实例化和一个任务级结果奖励的加权和。
辅助奖励的权重从训练开始时的
1逐渐退火到
0。
在训练早期辅助奖励激励子智能体的实例化和并发执行促进对并行调度空间的探索。
随着训练的进行优化目标转向端到端的任务质量防止出现那种名义上并行但实际上无效的退化解决方案。
为了进一步促使并行策略的出现研究人员引入了一个计算瓶颈使得串行执行变得不切实际。
他们不再计算总步数而是使用一个名为关键步骤Critical Steps的指标来评估性能这个指标的灵感来源于并行计算中的关键路径概念。
关键步骤的计算方式是对于每个时间步将主智能体的步数与所有子智能体中最慢那个的步数相加然后对所有时间步求和。
主智能体的步数捕捉了编排的开销而最慢子智能体的步数则反映了每个阶段的瓶颈。
在这个度量标准下衍生出更多的子任务只有在能够缩短关键路径时才是有益的。
在并行智能体强化学习环境中训练过程呈现出两个有趣的趋势。
随着训练的进行奖励值平滑地增加从约35%提升到约65%。
与此同时训练期间的平均并行度也逐渐增加从约8提升到约14。
这说明模型在学习过程中逐渐掌握了如何更有效地利用并行能力来完成任务。
一个智能体蜂群的工作方式是这样的编排器智能体动态地创建专业化的子智能体例如人工智能研究员、物理学研究员、生命科学研究员、人类学研究员、事实核查员、网页开发者等。
编排器将复杂任务分解为可并行的子任务分配给这些子智能体执行。
每个子智能体独立工作完成后将结果返回给编排器。
编排器收集所有结果进行整合最终输出最终结果。
这个过程中编排器拥有一系列工具包括创建子智能体、分配任务、搜索、浏览器等。
在一个具体的例子中任务是找出100个不同细分领域中排名前三的油管YouTube创作者。
Kimi K
5 智能体蜂群首先研究并定义了每个领域然后自主创建了100个子智能体来进行并行搜索。
每个子智能体在其被分配的领域内识别出领先的创作者最终300个创作者的资料被汇总到一个结构化的电子表格中。
这个电子表格详细记录了每个领域的信息包括领域名称、创作者姓名、频道名称、订阅者数量、国家、语言等。
智能体蜂群通过并行化和专业化的执行方式提升了在复杂任务上的表现。
在内部评估中它使得端到端的运行时间减少了80%同时能够处理更复杂、更长周期的工作负载。
与单智能体执行相比智能体蜂群在广泛搜索场景中将达到目标性能所需的最小关键步骤减少了3到
5倍并且这种节省会随着目标数量的增加而扩大最终通过并行化转化为高达
5倍的实际时间缩短。
办公生产力提升Kimi K
5 将智能体带入了真实的知识工作领域。
K
5 Agent 能够端到端地处理高密度、大规模的办公任务。
它能够对海量、高密度的输入信息进行推理协调多步骤的工具使用并直接通过对话交付专家级别的输出包括文档、电子表格、PDF 文件和幻灯片。
为了衡量其在真实世界专业任务中的表现官方设计了两个内部的专家生产力基准测试。
其中人工智能办公室基准测试AI Office Benchmark评估端到端的办公软件输出质量而通用智能体基准测试General Agent Benchmark则将多步骤、生产级别的工作流程与人类专家的表现进行比较。
在这两个基准测试中Kimi K
5 相较于其前代 K2 Thinking 模型分别取得了
5
3%和
2
3%的性能提升这反映了其在真实世界任务中更强的端到端执行能力。
在 AI Office Bench 的详细数据中Kimi K
5 表现更优的情况占
7
2%两者表现相当的情况占
1
9%K2 Thinking 表现更优的情况仅占
1
9%。
在 General-Agent Bench 中Kimi K
5 表现更优的情况占
3
0%两者表现相当的情况占
4
3%K2 Thinking 表现更优的情况占
1
7%。
这些数据清晰地展示了 Kimi K
5 在办公生产力方面的显著进步。
K
5 Agent 支持多种高级任务例如在 Word 文档中添加注释使用数据透视表Pivot Tables构建财务模型以及在 PDF 文件中编写 LaTeX 数学公式。
同时它还能扩展到长篇内容的输出比如撰写长达一万字的论文或生成一百页的文档。
过去需要数小时甚至数天才能完成的任务现在可以在几分钟内完成。
一个具体的例子是Kimi K
5 能够在一个电子表格中根据简单的指令创建包含100个镜头的带有图像的故事板。
除了电子表格K
5 Agent 还能处理文档、PDF 和幻灯片等多种办公格式。
在文档处理方面它可以生成结构完整、格式规范的长篇报告包含标题、段落、列表、表格等元素。
在 PDF 处理方面它可以生成包含复杂数学公式的学术文档这些公式使用 LaTeX 语法编写渲染后清晰美观。
在幻灯片处理方面它可以生成专业的演示文稿包含文字、图表、图像等多种元素适合商务汇报或学术演讲。
基准测试数据官方在多个维度上进行了广泛的基准测试涵盖了推理与知识、图像与视频、编程、长上下文处理和智能体搜索等领域。
以下表格汇总了 Kimi K
5 与其他业界领先模型的性能对比数据。
在推理与知识领域Kimi K
5 展现了强劲的竞争力。
在 HLE-Full 配合工具使用的测试中Kimi K
5 以
5
2分领先于所有竞争对手包括 GPT-
2 的
4
5分、Claude
5 Opus 的
4
2分和 Gemini 3 Pro 的
4
8分。
在数学竞赛类测试中如 AIME 2025 和 HMMT 2025Kimi K
5 的表现也十分出色分别达到
9
1分和
9
4分仅略低于 GPT-
2。
在图像与视频领域Kimi K
5 的表现尤为突出。
MathVision 测试中Kimi K
5 以
8
2分超越了 GPT-
2 的
8
0分。
OmniDocBench
5 文档理解测试中Kimi K
5 以
8
8分位居前列。
OCRBench 光学字符识别测试中Kimi K
5 以
9
3分大幅领先于 GPT-
2 的
8
7分。
InfoVQA 信息视觉问答测试中Kimi K
5 以
9
6分同样遥遥领先。
SimpleVQA 测试中Kimi K
5 以
7
2分超越了所有竞争对手。
VideoMMMU 测试中得分
8
6在 LongVideoBench 长视频理解测试中得分
7
8均处于领先水平。
在编程领域Kimi K
5 展现了作为开源模型的强大竞争力。
SWE-Bench Multilingual 多语言软件工程测试中Kimi K
5 以
7
0分超越了 GPT-
2 的
7
0分和 Gemini 3 Pro 的
6
0分。
LiveCodeBench 实时编程测试中Kimi K
5 以
8
0分超越了 Claude
5 Opus 的
8
2分和 DeepSeek V
2 的
8
3分。
在长上下文处理方面Kimi K
5 同样表现出色。
AA-LCR 测试中Kimi K
5 以
7
0分超越了 Gemini 3 Pro 的
6
3分和 DeepSeek V
2 的
6
3分。
在智能体搜索领域Kimi K
5 的优势最为明显。
BrowseComp 浏览器综合能力测试中Kimi K
5 以
6
6分大幅领先于 Claude
5 Opus 的
3
0分和 Gemini 3 Pro 的
3
8分。
在配合上下文管理的 BrowseComp 测试中Kimi K
5 以
7
9分领先于 GPT-
2 的
6
8分。
而在智能体蜂群模式下Kimi K
5 更是达到了
7
4分的最高水平。
DeepSearchQA 深度搜索问答测试中Kimi K
5 以
7
1分领先于所有竞争对手。
Seal-0 测试中Kimi K
5 以
5
4分同样位居榜首。
WideSearch 广泛搜索测试中智能体蜂群模式将 Kimi K
5 的得分从
7
7分提升到了
7
0分提升了
7%。
Kimi K
5 在编码、智能体蜂群和办公生产力方面的进步为开源社区迈向通用人工智能提供了强大的地基。
参考资料https://www.kimi.com/blog/kimi-k2-