2024年最火十大“黄台”盘点:内容、互动与创新,谁是真正的王者?

核心内容摘要

青春悸动,初遇心动:大学生第一次的青涩与成长
亚洲aaaaa:古老东方韵味的现代新生与aaa的无限可能

9,1蓝莓:解锁城市角落的甜蜜宝藏,开启一场别致的“隐藏线路”之旅_2

大家好我是熬夜追新模型的袋鼠帝。

昨天晚上我正准备关电脑睡觉阿里突然甩出了一个重磅炸弹Qwen3-Max-Thinking 正式发布。

我看完反手就点赞在看不过说什么数字游民自由职业其实我的作息完全掌握 AI 手里。

AI一进化我就得起来干活。

吐槽归吐槽身体还是很诚实的。

毕竟作为国产模型之光千问每一次更新都挺让人期待的。

于是我立马不困了爬起来连夜实测看看这次能想会干比强更强到底怎么样。

Max都是旗舰级的闭源模型所以性能会更强劲这次Qwen3-Max-Thinking号称性能媲美 GPT-

2 和 Gemini 3 Pro特别是在数学、代码和长逻辑推理上有了质的飞跃。

最关键的是它的 Agent 能力大幅增强能像真人一样边用工具边思考而且幻觉更少。

那岂不是非常适合接入最近爆火的个人AI助手clawdbot中使用介绍clawdbot以及如何安装使用袋鼠帝公众号袋鼠帝AI客栈开源AI助手 ClawdBot 火爆全网已狂飙50K Star附喂饭级安装使用教程再给大家聊聊这次更新的核心技术亮点我觉得非常实用非常重要能看到阿里这次在 Reasoning推理路线上走出了一条非常独特的路径。

测试时扩展Test-Time Scaling从人海战术转向深度反思传统的推理增强往往采用并行采样Parallel Sampling策略即 Best-of-N通过生成多条推理路径再进行投票或打分。

这种方式虽然有效但计算冗余极高边际效应递减明显。

Qwen3-Max-Thinking 采用了一种“经验累积式迭代”策略。

它利用“经验提取Experience Extraction”机制将上一轮推理中的关键洞见Insight提炼出来注入到下一轮的 Context 中。

这使得模型能够在不增加 Token 消耗量级的情况下通过自我反思修正错误收敛至更优解。

就好比一些模型解难题就像是让 100 个普通学生同时做同一道题然后看谁的答案对人海战术浪费资源且容易大家都做错。

Qwen3-Max-Thinking像是一个资深学霸做题时会先打草稿发现第一步思路不对立刻

总结教训换个思路继续推导直到解出答案。

不是一直试错是在迭代。

自适应工具调用原生Agent的肌肉记忆大多数模型的工具调用依赖于 Prompt Engineering提示词工程即告诉模型你有xxx工具能干什么请使用它。

Qwen3-Max-Thinking这次通过大规模的RL强化学习后训练将工具调用内化为模型的原生能力。

它不再需要显式的Trigger而是基于对任务复杂度的感知自主决策何时挂起推理、调用 Search 获取实时信息、或调用 Python 解释器进行精确计算等。

这种边想边做的能力大幅降低了幻觉Hallucination也进一步提升了解决真实世界复杂任务的能力。

极致的生态兼容可丝滑接入Claude Code这一点对于开发者至关重要Qwen3-Max-Thinking 不仅兼容 OpenAI 协议更原生兼容了 Anthropic API 协议。

这意味着它可以丝滑接入 Claude Code。

只需修改 API地址 和 API Key。

现在Qwen3-Max-Thinking可以在网页使用https://chat.qwen.ai/也可以通过API使用接下来老规矩咱们直接上实测。

PSQwen3-Max-Thinking名字有点长下文就用Qwen或者Qwen3代替了~

网文圈《校花的贴身高手》由于联网搜索已经自动整合进深度思考由Agent自行判断是否需要联网所以只需要打开深度思考即可看见有读者在别的公众号评论区提问为什么没有联网搜索了这是一部连载了十多年的网络小说无数人从初中到大学毕业从乔布斯Iphone时代到LLM时代还在看这本小说然而此书作者依然还在日更。

书中剧情有一个关键节点就是登上天阶岛来问问Qwen是否能正确找到。

prompt在网络小说校花的贴身高手中主角是在哪一章登上天阶岛的有意思的是查看思维链可以看见Qwen3-Max-Thinking会有意识地交叉对比不同的结果防止被干扰并且思考后给出章节不同的原因和结论让人感觉非常可靠。

我去QQ阅读APP核实了一下是正确的接下来我又尝试让Qwen3-Max-Thinking用代码给我画个图看看能不能在超过2000万字的小说中找到主角实力晋升的曲线。

Qwen3在思维链中意识到两千万字还是太多了这个任务无法完成但是基于我的意图还是找到了具有代表性的章节和晋升节点给我画了出来完成任务

斩杀线热梗逻辑陷阱斩杀线最近非常火我给Qwen3造了一个逻辑陷阱还和豆包进行对比看看Qwen会不会陷进去prompt牢a是大a股买进去之后在坐牢吗Qwen3 完全正确一下子就意识到这是一个人的网名然后还告诉我这是常见的误解。

仔细看思维链能发现Qwen居然搜索了x和facebook但是豆包似乎都没触发网络搜索。

这下Qwen 3的Agent能力又赢了。

和Gemini 3 pro比较电影测评考验在海量信息中网络搜索真相这点完胜Gemini 3 pro前两天“重返寂静岭”上映第一时间就去看了没想到是烂片只能说被吓得莫名其妙剧情很莫名其妙看不懂前面两个女生抱在一起一个被吓得在刷小红书一个被吓得在玩微信小游戏我买的还是最中间的座位不舍得走但又一直被吓主要是剧情莫名其妙。

马上试试AI搜索到的结果是不是能符合我的真实体验。

先试了Gemini 3根本没提到最新上映的重返寂静岭。

而且搜索结果里似乎自相矛盾了阿凡达同时出现在“值得一看“和“建议避雷”里让人有点困惑。

又试了这回的Qwen 3因为交给Agnet自动判断是否需要网络查询了所以我们只要打开深度思考就好了。

Qwen3—Max甚合我意简直和我内心的意见一模一样每一场我都在电影院看过了AI和我的意见居然一样这些影评都是非常真实的。

我又点开思维链仔细看看Qwen3具体是如何做到这一点的。

可以看见Qwen 3在内置Agent的调度下一边搜索、整理、又搜索又整理进行了几轮的整理才有了最后的准确答案并且在思维链中可以逐一看见被Qwen3搜索过的每一个影评网站可以点击进去浏览能把海量信息汇总并且找到正确的信息确实不错。

记忆功能上新类似ChatGPT和Gemini这次千问也终于有了记忆点击头像就能在设置里面打开或者关闭记忆。

下面做了一个场景预设测试假如我是一个高考生平时就爱和AI介绍自己喜欢的事情。

那么假如已经到了高考报志愿的时候Qwen就可以根据我以往所有的聊天偏好对我进行分析找到最适合我的专业。

以下新开了一个聊天窗口进行测试可以看见不给任何上下文信息直接向Qwen 3 提问我适合什么专业。

Qwen 3 的回答是正确的。

因为这就是我本人的真实经历非常认同AI的判断。

视频

总结支持上传十分钟以内的视频大概十秒钟

总结很顺利比以前快多了查看思维链可以看见一步步梳理脉络

预测26年春晚具身智能机器人表演到什么程度时光匆匆又一年年味渐浓2026年春晚宇树科技将第三次登上春晚的舞台。

去年具身智能机器人表演的是《秧BOT》今年又会进展如何呢让Qwen3预测一下今年的具身智能机器人在春晚的舞台上会有什么样的表演。

到时候看Qwen3预测得准不准春晚就揭晓

公务员真题图形推理题Qwen思路和答案都完胜gemini 3 pro居然做错了纯图形题目对于只有文字输入的大模型来说是无解的但是这次Qwen 3 max是可以上传视频的来看看Qwen 3 实力如何。

下面是一道公务员考试真题如何判断这是一道好的公务员题目就在于每个人去看了答案都会觉得很简单但是让你自己在考场做就是做不出来。

这样的题目考验的正是公务员在为人民服务的过程中办理实事、处置突变事项、临场判断的综合素质而不是悠哉坐在办公室里的马后炮和键盘侠。

正强如Gemini 3 pro也做不出来我一点不意外。

但是让我很意外的是Qwen 3 max居然做出来了以下是Qwen 3 max的解题让我们点开思维链看看Qwen 3 max是如何思考的可以看见Qwen 3 的结构化思考完全就是一位真实的公务员考生先是分析图形变化规律、然后再尝试推导逻辑关系然后发现了找不到这个规律于是又返回上一层重新思考图形规律最后找到正确思路。

其实最后这一句注实为画龙点睛之笔让我啧啧称奇。

一年几百万公务员考生不断刷题、报班、看课就是为了找到题型规律让自己的脑子在考场上能适应“试题模式”从而拿高分。

然而Qwen 3 轻飘飘说出这一句于无声处听惊雷意味着已经完全把公务员考试的出题逻辑尽在掌握。

以下是Gemini 3 pro思考了接近4分钟后不仅被这道题目逼出了母语英文还给出了错误答案。

特地翻译出来看看gemini 3到底怎么错的。

其实Gemini 3 pro一度接近正确思路但是不知为何突然开始混乱了也许是因为还没有Qwen 3 pro一样能懂得公务员考试的出题套路。

代码类会喷火的旋转六边形小球似乎代码能力并没有那么好试了一下GLM

7能顺利跑出来的caseQwen 3还是有瑕疵。

prompt用 HTML、CSS 和 JavaScript 实现这样一个效果一个小球被困在一个旋转的六边形内部。

小球受到地球重力的作用并与六边形内壁产生摩擦。

小球的弹跳需要看起来逼真自然。

优点是Qwen 3 自动帮我考虑到了可调节参数能让我调节旋转速度、重置位置、暂停旋转等下面还有参数显示。

缺点是这个明显还有缺陷小球会喷火。

写在最后虽然 Qwen3-Max-Thinking 在代码场景下还有瑕疵但整体表现还是非常不错的。

特别是在逻辑推理、信息检索和中文语境的理解上它给人的感觉非常扎实。

不知道Qwen在春节还有没有什么压箱底的大招再放出来我们可以一起期待一下。

毕竟阿里的技术还是非常强劲的~我是袋鼠帝一个在这个AI时代持续分享AI实践干货陪你一起进化的数字游民。

谢谢你耐心看完我的文章~

Zoom与人性Zoom21区别-Zoom与人性Zoom21区别应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123