核心内容摘要
孙尚香2024:破茧成蝶,能量满格的巾帼风采
在这个大模型卷翻天的时代写代码的技术门槛已经无限趋近于零。
只要会打字配合现在的 AI 编程工具大家都能在几分钟内开发一个功能完整的应用。
不过相对应的问题也随之而来我们发现 AI 生成的网页几乎都是千篇一律的布局和色调。
这种一眼就看穿的廉价感被众多开发者戏称为 “AI 味”。
说实话现在的 AI 已经不缺实现功能的能力稀缺的是定义美感的能力。
就在昨天这一块关键的拼图被 Kimi 刚开源的Kimi
5模型补全了带来全新的解题思路。
既然用 Prompt 难以描述清楚什么是 “美”那就干脆不用我们描述直接让模型去 “看懂” 美。
这次 K
5 模型提供了像素级的视频理解能力我们只需要随手上传一段自己喜欢的网站视频。
它就能理解其中的色彩搭配、排版逻辑和动画交互并像素级地复刻出来。
今天就带大家一起上手实测看看具体效果如何。
上手实测我们先小试牛刀用大白话简单描述一下需求做一个「科技感十足的机械键盘购物网站」然后即可发送提示词直接一把过生成的网站效果还挺有赛博朋克风格的并且还加上了一些动画交互甚至还额外实现了购买弹窗。
看来这些基础的前端能力对 K
5 来说简直是小菜一碟轻松驾驭并且自我审美在线。
接下来我们重点实测它的视频理解能力。
我准备了一条长网页视频里面包含大量的图标和配图其中还有一部分文字带有动态效果。
操作非常简单直接拖拽上传视频并附上一句提示词「帮我复刻视频当中的网站」说真的第一次使用的时候K
5 对视频的理解能力确实惊艳到我了。
它几乎能完美复刻出原视频效果就同那部分带动效的文字K
5 也能精准识别还原原视频K
5 复刻不过在我看来上面的测试还是相对简单基本都是静态网页内容。
如果页面带有点击操作或过渡动画K
5 是否依然能理解并实现于是我找来了这段视频一个鞋类产品页用户可以点击切换到不同款式且带有丝滑的过渡动画。
同样只需要拖拽视频上传并使用跟前面一样的提示词这次切换到了「K
5 Agent」模式在这个模式下我们可以清晰地看到 K
5 对视频进行分析、理解和实现的整全过程。
接收到视频后它会先调用脚本对视频进行关键帧提取和分析以便更精准地理解内容此外我还发现 K
5 在开发完成后会进行“自我测试” 与 “修复 Bug”看到这一幕给我第一个感觉是K
5 真像一位靠谱的开发工程师。
果真也没让我失望这次的复刻堪称完美我甚至觉得它写出来的交互比原视频还要好最后我们继续加大难度。
找来一段小人举哑铃的视频看看 K
5 能否观察识别到这些细微的肢体动画交互实话说这次真的有点难到 K
5 了。
第一次动画交互没有完美复刻而且生成的小人差入有点大于是我又截了一张图发送给 K
5并提醒它这个小人在做一个举重的动作。
经过提醒后K
5 迅速理解了意图重新绘制素材并实现了相应举重的动作。
最后效果如下虽然离完美复刻视频的效果还有一点距离但能改到这个程度已经相当不错了:进阶玩法Kimi Code这一次 Kimi 除了发布 K
5 模型之外还正式发布Kimi Code编程工具一个当之无愧的「开发神器」。
上手使用非常简单无需复杂的配置打开终端输入一行命令即可curl -LsSf https://code.kimi.com/install.sh | bash安装完成后在项目目录下输入kimi即可开启编程对话。
注意首次使用需要输入/login登录。
在终端里Kimi Code 同样具备强大的多模态识别能力。
我们可以直接把图片或视频文件拖拽到窗口或者把文件放在项目目录下告诉 Kimi 读取即可。
为了测试它的极限我把此前一段爆火的「手势控制 3D 粒子运动」视频放在了项目根目录下然后发送指令简单描述一下让 Kimi 帮我复刻它。
Kimi 立马读取视频文件并开始了深度解析Kimi 的视频分析
总结也出乎意料的好。
它精准理解了视频里是一个 3D 粒子手势控制应用甚至识别出粒子的具体形状、颜色以及各种手势交互的逻辑。
紧接着它自动规划了技术框架和任务步骤并开始逐步写代码实现没过多久开发完成并为我们
总结已实现的功能和运行方式还会贴心讲解其中的核心技术点。
来看下 Kimi 第一次实现的效果三种粒子的形状、颜色基本对上并且成功实现了两种交互手势。
虽然还有一些细节需要调整但这是在没告诉它任何其他信息下它自己对视频分析、理解和识别实现的可以说已经相当强了。
从“看懂视频”到“代码落地”Kimi Code 让这种曾经需要几天开发周期的交互原型变成了“一杯咖啡时间”的即兴创作确实有点强。
写在最后实测完 K
5给我们最大的冲击并不是它有多炫酷而是它彻底打破了我们对“开源模型”的刻板印象。
以前大家总觉得想用最好的模型就得花大价钱去调用那些主流的闭源模型而开源的只能当个 “备胎”。
但这一次 K
5 确实有点猛它在考察 AI “智商天花板” 的 Humanitys Last Exam 以及开发者最看重的代码生成评测里实打实地跑赢了 Google 的 Gemini 3 Pro。
这意味着现在的国产开源模型已经具备了和世界顶尖闭源编程模型 “掰手腕”的实力了。
目前Kimi K
5 已经在官网、App、Kimi Code 以及 API 开放平台全面上线 。
Kimi 地址https://www.kimi.com/这里我强烈建议大家去体验一下绝对能够刷新你对国产编程模型的认知。