核心内容摘要
6080yy新视觉:点燃你的观影热情,探索无限精彩
5分钟上手Open-AutoGLM小白也能玩转AI手机Agent你有没有想过让AI替你点外卖、刷短视频、填验证码、批量关注博主不是靠写脚本也不是靠录屏回放——而是像人一样“看懂”手机屏幕再用自然语言下指令“打开小红书搜美食”它就真的能理解界面、规划步骤、点击输入、完成任务。
Open-AutoGLM 就是这样一个让梦想落地的工具。
它不是概念Demo而是智谱AI开源的、已在真实安卓设备上稳定运行的手机端AI Agent框架。
没有复杂模型训练不需写一行ADB命令连“adb devices”都只用输一次——5分钟真能跑通第一条指令。
这篇文章不讲原理、不堆参数、不画架构图。
我们只做一件事带你从零开始在自己电脑真机上亲手让AI第一次接管你的手机。
全程无需GPU服务器、不碰云部署、不配vLLM服务所有操作都在本地完成适合完全没接触过ADB或Agent概念的新手。
准备好了吗我们直接开始。
为什么说这是“小白友好”的第一步很多AI Agent教程一上来就要求租A
配vLLM、搭API服务、调prompt工程……对新手来说光是看到“CUDA版本冲突”四个字就想关网页。
而 Open-AutoGLM 的本地控制端Open-AutoGLM设计初衷就是把AI能力“封装进一个命令行”里。
它的核心逻辑非常清晰你负责连好手机、装好ADB、写一句中文指令它负责截图→理解当前界面→拆解任务→生成操作序列→调用ADB执行→循环直到完成整个过程你不需要知道什么是VLM、什么是Action Space、什么是Thought-Action-Observation循环。
就像给朋友发微信“帮我搜一下‘北京烤鸭’截个图发我”朋友照做——AI就是那个“听得懂人话、干得了实事”的朋友。
更关键的是它不依赖你本地有显卡。
模型推理走云端官方提供免费试用接口你本地只跑轻量级控制逻辑。
这意味着——一台2018年的MacBook Air也能跑Windows笔记本不用装WSL或Docker手机只要Android
7.
能开USB调试就行下面这四步就是你和AI手机助手的第一次握手。
四步极简准备连手机、装工具、下代码、配环境
1 连上你的安卓手机3分钟搞定这不是“插上线就行”而是要让电脑真正“认出”并“信任”你的手机。
按顺序来避免反复授权开启开发者模式手机「设置」→「关于手机」→连续点击「版本号」7次 → 弹出“您现在处于开发者模式”。
开启USB调试返回「设置」→「系统与更新」→「开发者选项」→ 打开「USB调试」。
有些品牌如小米、华为还需额外打开「USB调试安全设置」。
用数据线连接电脑插上后手机弹出“允许USB调试吗”→ 勾选「始终允许」→ 点击「确定」。
验证是否成功在电脑终端输入adb devices应看到类似输出List of devices attached 1234567890abcdef device小贴士如果显示unauthorized说明授权失败。
拔掉重插手机重新点“允许”如果根本没反应换一根支持数据传输的USB线很多充电线只能供电。
2 装好ADB工具1分钟Windows/macOS通用ADBAndroid Debug Bridge是电脑和安卓设备通信的“翻译官”。
你不需要懂它怎么工作只需要让它能运行。
Windows用户下载 platform-tools选zip包解压到任意文件夹比如C:\adb右键「此电脑」→「属性」→「高级系统设置」→「环境变量」→ 在「系统变量」中找到Path→「编辑」→「新建」→ 粘贴C:\adb→「确定」macOS用户在终端执行路径按你实际解压位置调整echo export PATH$PATH:~/Downloads/platform-tools ~/.zshrc source ~/.zshrc验证终端输入adb version看到版本号即成功。
3 安装ADB Keyboard1分钟关键这是Open-AutoGLM能“打字”的前提。
没有它AI可以点图标但无法输入文字比如搜索关键词、填密码。
下载 ADBKeyboard.apk传到手机并安装需在「设置」→「安全」中允许“未知来源应用”启用为默认输入法「设置」→「语言和输入法」→「默认输入法」→ 选择「ADB Keyboard」验证打开任意输入框如微信聊天长按输入框 →「输入法」→ 应能看到「ADB Keyboard」被选中。
4 下载并安装Open-AutoGLM控制端1分钟这一步你只是把“遥控器”拿到手不涉及模型下载或编译# 克隆代码无需git基础复制粘贴即可 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装Python依赖自动跳过已安装项 pip install -r requirements.txt # 注册为可调用模块让命令行能直接识别phone_agent pip install -e .验证输入python -c import phone_agent; print(OK)输出OK即成功。
到这里你已完成全部前置准备。
没有配置文件、没有端口映射、没有防火墙设置——只有四步干净利落的操作。
第一条指令让AI打开抖音并搜索博主现在我们执行那句最经典的指令“打开抖音搜索抖音号为dycwo11nt61d 的博主并关注他”注意这不是演示这是你马上就能复现的真实操作。
1 获取你的设备ID只需一次回到终端确保手机已连接且adb devices显示device状态然后运行adb devices你会看到类似这样的输出List of devices attached 8675309123456789 device记下那一串字母数字组合如8675309123456789这就是你的--device-id。
2 直接运行不改任何配置Open-AutoGLM 提供了官方托管的免费推理服务autoglm-phone-9b模型你无需自己部署模型。
只需一条命令python main.py \ --device-id 8675309123456789 \ --base-url https://autoglm-phone-api.zhipuai.com/v1 \ --model autoglm-phone-9b \ 打开抖音搜索抖音号为dycwo11nt61d 的博主并关注他替换说明--device-id填你刚才查到的ID其余参数保持原样--base-url和--model已指向官方可用服务最后引号内的中文就是你下达的自然语言指令你会看到终端开始滚动日志[INFO] 截取屏幕... [INFO] VLM理解中当前界面为桌面含抖音图标 [INFO] 规划动作点击抖音图标 [INFO] 执行ADBtap 200 400 [INFO] 截取屏幕... [INFO] VLM理解中当前界面为抖音首页搜索框可见 [INFO] 规划动作点击搜索框 → 输入dycwo11nt61d → 点击搜索 ...同时你的手机会真实发生这些动作自动点亮屏幕 → 打开抖音 → 点击搜索栏 → 输入ID → 点击搜索 → 进入博主主页 → 点击“关注”。
整个过程约20–40秒取决于网络和手机响应速度。
这不是模拟不是录屏不是预设脚本——AI在实时观察每一帧画面动态决定下一步该做什么。
3 如果第一次没成功三个高频原因自查现象最可能原因一句话解决终端报错Connection refused或卡在VLM理解中网络未连通官方API检查是否能访问 https://autoglm-phone-api.zhipuai.com 浏览器打开试试手机无反应或只点了图标但没后续ADB Keyboard未启用回到手机「设置」→「语言和输入法」→ 确认「ADB Keyboard」是默认输入法终端报错device not foundADB连接断开重新执行adb devices若无设备拔插USB线并重新授权这些问题90%以上都能在1分钟内解决。
别担心我们不是在调试一个黑盒系统而是在校准一个“人机协作流程”。
举一反三5个真实可用的指令模板学会第一条指令你就掌握了全部逻辑。
下面这些你随时可以复制粘贴运行
1 日常效率类python main.py --device-id YOUR_ID --base-url https://autoglm-phone-api.zhipuai.com/v1 --model autoglm-phone-9b 打开微信给备注为‘老板’的人发消息‘方案已发邮箱请查收’
2 信息获取类python main.py --device-id YOUR_ID --base-url https://autoglm-phone-api.zhipuai.com/v1 --model autoglm-phone-9b 打开高德地图搜索‘最近的星巴克’截图结果页面
3 社交互动类python main.py --device-id YOUR_ID --base-url https://autoglm-phone-api.zhipuai.com/v1 --model autoglm-phone-9b 打开小红书搜索‘健身餐食谱’点赞前3篇笔记
4 电商购物类python main.py --device-id YOUR_ID --base-url https://autoglm-phone-api.zhipuai.com/v1 --model autoglm-phone-9b 打开淘宝搜索‘无线降噪耳机’按销量排序截图第一页商品列表
5 自动化验证类适合测试python main.py --device-id YOUR_ID --base-url https://autoglm-phone-api.zhipuai.com/v1 --model autoglm-phone-9b 打开计算器输入‘123456’截图结果关键技巧指令越具体越好明确APP名、操作对象、动作目标避免模糊词如“那个”“这个”“上面”AI看不到你的手指指向中文标点用全角如“”而非“:”更稳定你不需要背指令格式。
记住一个心法把它当成对真人助理说话——你说得清楚它就做得明白。
进阶提示让AI更听话、更安全、更可控Open-AutoGLM 不是“全自动永动机”它内置了多重保障机制让你既能放手又保有掌控权。
1 敏感操作人工确认默认开启当AI识别到以下动作时会自动暂停并等待你确认点击“支付”“确认付款”“删除联系人”等高风险按钮尝试输入手机号、身份证号、银行卡号等敏感字段进入银行类、金融类APP的深度操作流程此时终端会显示[ALERT] 检测到潜在敏感操作点击「确认支付」按钮 请在手机上手动确认或按 CtrlC 中断执行。
你只需看着手机觉得没问题就点一下AI继续觉得不对劲就按CtrlC终止。
安全边界由你定义不是由代码硬编码。
2 登录/验证码场景无缝人工接管很多APP首次登录需要短信验证码或需要人脸识别。
Open-AutoGLM 的设计哲学是AI负责“导航”人负责“临门一脚”。
当你运行指令如“打开闲鱼登录我的账号”AI会自动打开闲鱼 → 点击“我的” → 点击“登录” → 输入你预设的手机号若已配置然后停在验证码输入框终端提示[WAIT] 请在手机上查看短信验证码并手动输入到输入框中 输入完成后按任意键继续...你输入完验证码回车AI立刻接管后续操作如点击“登录”按钮。
整个过程丝滑毫无割裂感。
3 WiFi远程控制摆脱USB线束缚不想一直插着线Open-AutoGLM 支持WiFi ADB让手机和电脑在同一个局域网内无线协作。
只需两步USB连接时运行adb tcpip 5555断开USB用手机WiFi IP连接如
192.
168.
100adb connect
192.
168.
100:5555验证adb devices应显示
192.
168.
100:5555 device之后所有--device-id参数直接填
192.
168.
100:5555即可。
手机放桌上你在沙发上发指令它照样执行。
6.
总结你刚刚完成了什么你不是在“跑一个Demo”而是在自己的设备上亲手激活了一个具备真实行动力的AI伙伴。
回顾这5分钟你让AI第一次“看见”了你的手机屏幕你用一句中文指挥它完成了跨APP、多步骤、带输入的复杂任务你验证了它的可靠性自动暂停敏感操作、灵活性支持WiFi无线、易用性零模型部署Open-AutoGLM 的价值不在于它有多大的参数量而在于它把前沿的多模态理解、任务规划、自动化执行压缩成了一条命令、一句中文、一次点击。
接下来你可以 把常用指令保存为Shell脚本一键执行 用Python API集成到自己的工具链中参考文档里的phone_agent.adb模块 尝试更复杂的指令比如“对比美团和饿了么上‘宫保鸡丁’的价格截图最低价那家”技术从来不该是门槛而应是杠杆。
你已经握住了支点。