核心内容摘要
手把手教你认识树莓派插针定义(附实物对照)
温馨提示若页面不能正常显示数学公式和代码请阅读原文获得更好的阅读体验。
作者颜国强东南大学邮箱yangq
com编者按本文主要摘译自下文特此致谢SourceSimon Willison, 2025, Blog, 2025: The Year in LLMs. WebsiteTitle: 从 15 分钟到 5 小时2025 年大模型能力跃迁全景图Keywords: LLM, 大语言模型, 推理模型, 编码 Agent, Vibe Coding
引言2024 年底AI 能独立完成一个人类需要 15 分钟的编程任务2025 年底这个数字变成了5 小时。
这不是实验室演示而是真金白银的市场验证Claude Code 在 10 个月内实现10 亿美元年化收入OpenAI 图像编辑功能上线一周新增1 亿用户峰值每小时 100 万注册中国开源模型首次包揽全球排行榜前五。
2025 年的核心转变LLM 从聊天助手进化为能自己干活的同事——不只是回答问题而是能规划任务、调用工具、观察结果、动态调整直到完成目标。
推理模型让 AI 学会想一想再回答2025 年最重要的技术突破是推理模型Reasoning Models。
传统 LLM 直接输出答案推理模型则会生成中间步骤逐步推导结论。
打个比方传统模型像抢答选手推理模型像考试时会在草稿纸上演算的学生。
技术上这叫RLVR基于可验证奖励的强化学习让模型在数学题、编程谜题等有标准答案的环境中训练它会自发学会把问题拆解成小步骤来回尝试不同解法。
Andrej KarpathyOpenAI 联创、前特斯拉 AI 总监的解释是模型自发发展出看起来像推理的策略。
这种方法性价比极高以至于各大实验室把原本用于喂更多数据的算力转而用于更长的强化学习训练。
2025 年的能力进步主要来自训练方式的改变而非模型规模的增大。
OpenAI o12024 年 9 月开启这一方向2025 年推出 o
o4-mini中国的 DeepSeek R11 月 20 日紧随其后。
7 月推理模型首次在国际数学奥林匹克获得金牌水平9 月在国际大学生程序设计竞赛取得类似成绩——题目全新设计不可能出现在训练数据里且模型没用任何外部工具。
推理模型真正的价值不在于解谜题而在于驱动工具能规划多步任务、执行、观察结果、动态调整。
这直接催生了下一个话题。
编码 Agent自己写代码、自己跑、自己调什么是 Agent定义众说纷纭。
Simon Willison资深开发者、Django 联创给了一个实用的界定能通过循环调用工具来达成目标的 LLM 系统。
2025 年最火的 Agent 应用是编码 Agent——不是帮你补全代码而是自己写代码、自己运行、看到报错自己调试、反复迭代直到完成。
你只需要描述需求它来搞定实现。
2 月Anthropic 发布 Claude Code悄悄藏在 Claude
7 发布公告的角落里。
这是一个命令行工具能阅读你的整个代码库、理解项目结构、写代码改代码、跑测试、自动修 bug。
到12 月 2 日年化收入突破 10 亿美元——一个命令行工具做到这种规模前所未有。
随后各家跟进OpenAI Codex CLI、Google Gemini CLI、阿里 Qwen Code、Mistral Vibe。
5 月起异步版本上线——Claude Code for Web、Google Jules、OpenAI Codex Web——AI 在云端沙箱运行你提交任务后可以去做别的事它完成后自动提交代码。
这种模式规避了本地执行代码的安全风险还能同时跑多个任务。
一个有趣的现象是YOLO 模式开发者让 Agent 自由执行命令不再逐一确认Codex CLI 甚至把长参数名简写为--yolo。
Simon Willison 警告这是偏差常态化当人们反复冒险却没出事就会逐渐觉得这样做没问题。
这正是 1986 年挑战者号航天飞机灾难的根源——我们越久不出事离灾难就越近。
长任务之年能力每 7 个月翻一番METRAI 安全研究机构发布了一张关键图表《LLM 能独立完成的软件工程任务时长》。
2024 年底最强模型只能处理人类需要 30 分钟以内的任务。
到 2025 年底GPT-
Claude Opus
5 已能完成人类需要数小时的工作。
METR 的结论是AI 能处理的任务时长每 7 个月翻一番。
Simon Willison 不确定这趋势能否持续但它清晰展现了 Agent 能力的跃进——从辅助工具到能独立工作数小时的系统。
中国开源模型从追赶到领跑2025 年是中国 AI 实验室的突破之年。
Artificial Analysis权威评测机构12 月 30 日的开源模型排行榜前五名全是中国模型——GLM-
4.
Kimi K2 Thinking、MiMo-V2-Flash、DeepSeek V
3.
MiniMax-M
1。
排名最高的非中国模型是 OpenAI 的 gpt-oss-120B仅列第六。
1 月 20 日DeepSeek R1 发布引发轩然大波——性能接近 OpenAI 顶级模型但训练成本据称仅550 万美元。
消息一出NVIDIA 市值单日蒸发约5930 亿美元后回升市场担忧AI 不再是美国垄断。
主要玩家包括DeepSeekMIT 许可、阿里 Qwen3Apache
2.
月之暗面 Kimi K
智谱 GLM-
7MIT、MiniMax M
MetaStone AI XBai o4。
多数不仅开放模型权重还采用真正的开源许可证研究者可免费下载、本地运行、完全掌控数据隐私。
Vibe Coding用自然语言写代码Vibe Coding氛围编程是 Andrej Karpathy2 月提出的概念完全靠感觉编程——让 LLM 写所有代码你只说把侧边栏边距减半这种话出错了就把报错信息粘贴给它让它自己修不看代码细节不深究实现逻辑。
核心理念是忘记代码的存在专注于描述你想要什么。
Simon Willison 用这种方式在 2025 年创建了110 个小工具tools.simonwillison.net鸟类识别应用、社交媒体查看器、厨房计时器……更激进的是手机编程——他用 iPhone 上的 Claude 应用纯靠文字描述把一个 C 语言库移植成了 Python 版本。
不过Vibe Coding 很快被滥用成所有 AI 辅助编程的代名词。
Simon Willison 认为应该区分严肃的工程工作应该叫Vibe Engineering——最终目标是交付经过验证、确实能用的代码不管怎么写出来的。
温馨提示若页面不能正常显示数学公式和代码请阅读原文获得更好的阅读体验。