核心内容摘要
那个令人脸红心跳的秘密:关于“天天干天天干天天干”的真相
零基础搭建手机AI AgentOpen-AutoGLM本地与远程部署全解
什么是Open-AutoGLM不是“会说话的APP”而是真正能动手的手机AI助理你有没有想过让AI不只是回答问题而是真的帮你点开小红书、输入关键词、滑动查看结果、甚至在购物App里比价下单Open-AutoGLM就是这样一个“能看、能想、能干”的手机AI Agent——它不依赖预设脚本不靠UI元素ID硬编码而是用眼睛截图脑子多模态大模型手ADB指令完成真实操作。
它的核心能力很实在看懂屏幕不只是拍张图还能同时读取界面结构XML、当前页面名、控件位置和文字听懂人话你说“帮我查明天上海到北京的高铁余票”它能拆解成“打开12306→点击出发地→输入上海→点击到达地→输入北京→选择日期→点击查询”自己动手通过ADB自动执行点击、滑动、输入、返回等动作每步之后重新截图再思考形成闭环知道分寸遇到支付密码、短信验证码等敏感操作会主动暂停并提示“请人工接管”安全不越界这不是概念演示而是已落地的开源框架。
它背后是智谱推出的AutoGLM-Phone-9B模型专为手机端Agent任务优化在真实安卓设备上稳定运行。
本文不讲抽象原理只带你从零开始一台电脑、一部安卓手机、不到30分钟亲手让AI替你操作手机。
本地部署Mac/Windows一键跑通无需GPU也能玩转
1 环境准备三步搞定连新手都能看清每一步别被“AI”“多模态”吓住——本地部署其实比装一个微信还简单。
你只需要确认三件事你的电脑Windows 10/macOS MontereyPython
10或更新版本命令行输入python --version查看你的手机Android
0以上市面95%的安卓机都满足开启开发者模式和USB调试后文细说ADB工具Android官方调试桥5MB大小下载即用小贴士如果你用的是Mac M2/M3芯片恭喜——它原生支持MLX框架本地跑9B模型毫无压力Windows用户则推荐用WSL2或直接走远程部署更稳更快
2 手机设置5分钟完成关键三步不能跳这三步决定后续能否连上手机务必按顺序操作开启开发者模式设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”提示开启USB调试设置 → 系统 → 开发者选项 → 找到“USB调试”并开启部分品牌叫“USB调试安全设置”一并开启安装ADB Keyboard输入法关键下载adb-keyboard.apkGitHub仓库Release页提供手机安装后进入 设置 → 语言与输入法 → 当前键盘 → 选择“ADB Keyboard”为默认这步漏掉AI永远无法输入文字——所有“Type”指令都会失败
3 控制端部署克隆、安装、验证三行命令走完打开终端Mac或命令提示符Windows依次执行#
克隆代码约15秒 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM #
安装依赖约2分钟网络好可更快 pip install -r requirements.txt pip install -e . #
验证ADB是否就绪看到device ID即成功 adb devices如果输出类似AERFUT4B08000806 device说明手机已识别。
若显示?????????? no permissions请拔插USB线后重试或在手机弹窗中勾选“允许USB调试”。
4 本地运行不用服务器直接启动AI代理Open-AutoGLM支持两种本地运行方式任选其一方式一交互式模式适合调试和学习python main.py --local --model autoglm-phone-9b 打开微博看看热搜输入后你会看到AI实时打印思考过程如think现在需要找到微博App图标并点击/think接着执行点击动作最后截图反馈结果。
方式二API服务模式适合集成进其他工具python main.py --local --model autoglm-phone-9b --api-port 8080启动后访问http://localhost:8080/docs即可用网页表单发送指令也支持Postman调用。
实测效果在M2 Mac上从指令输入到首屏点击平均耗时14秒在i
H Windows笔记本上约18秒。
速度虽不如GPU但完全满足日常辅助需求。
远程部署用云服务器加速7倍支持多设备并发控制
1 为什么需要远程部署本地VS云端的真实差距本地部署方便但有硬伤模型加载慢M2需30秒Windows更久单步推理卡顿13–18秒/步复杂任务易超时无法同时控制多台手机测试团队需批量跑用例而远程部署把“思考”交给高性能GPU“动手”仍由本地ADB完成实现分工协作。
实测在NVIDIA H800服务器上单步推理压缩至2–5秒快7倍模型热加载仅15秒一台服务器可同时驱动5–8台手机并行操作
2 服务端搭建vLLM一键启动兼容OpenAI接口假设你已有一台Linux云服务器腾讯云/阿里云均可执行以下命令# 安装vLLM推荐CUDA
1
1环境 pip install vllm torch torchvision transformers # 启动API服务端口8000模型自动从Hugging Face拉取 python3 -m vllm.entrypoints.openai.api_server \ --model zai-org/AutoGLM-Phone-9B \ --served-model-name autoglm-phone-9b \ --max-model-len 25480 \ --mm-encoder-tp-mode data \ --mm_processor_kwargs {max_pixels:5000000} \ --port 8000启动成功后终端会显示INFO: Uvicorn running on http://
0.
0.
0:8000。
此时服务已就绪等待客户端连接。
安全提醒生产环境务必配置反向代理Nginx HTTPS API Key鉴权避免公网暴露模型服务。
3 客户端连接一条命令打通“云脑手机手”回到你的本地电脑Mac/Windows确保手机已通过USB或WiFi连接WiFi连接方法见下文执行python main.py \ --device-id AERFUT4B08000806 \ --base-url http://你的服务器IP:8000/v1 \ --model autoglm-phone-9b \ 打开知乎搜索‘AI Agent入门’点开第一个回答并截图参数说明--device-idadb devices查到的设备号或WiFi地址如
192.
168.
100:5555--base-url指向云服务器的API地址格式固定为http://IP:端口/v1最后字符串你的自然语言指令支持中文长句、带标点、口语化表达
4 WiFi无线连接摆脱USB线真·远程操控USB线连接稳定但不方便多设备管理。
WiFi连接只需两步首次用USB连接并启用TCP/IPadb tcpip 5555 # 断开USB线确保手机和电脑在同一WiFi用IP连接设备adb connect
192.
168.
100:5555 # 替换为手机实际IP手机设置→关于手机→状态信息里可查连接成功后adb devices会显示
192.
168.
100:5555 device。
此后所有操作无需USB线手机放桌上就能被AI操控。
实战案例从“打开抖音关注博主”到完整流程解析
1 一条指令背后的完整工作流我们以标题中的例子展开“打开抖音搜索抖音号为dycwo11nt61d 的博主并关注他”Open-AutoGLM实际执行了7个步骤全程无人干预步骤AI思考内容简化执行动作耗时1“先找到抖音App图标并点击启动”Tap [210, 480]
8s2“首页有搜索框点击进入”Tap [540, 120]
6s3“输入框已激活输入抖音号”Type “dycwo11nt61d”
2s4“点击搜索按钮”Tap [920, 120]
5s5“结果页出现用户卡片点击进入主页”Tap [540, 320]
9s6“关注按钮在右上角点击”Tap [980, 180]
4s7“检查关注状态是否变为‘已关注’”Screenshot OCR验证
1s整个过程约8秒远程部署AI会自动截图验证每步结果失败则重试或报错。
2 敏感场景处理当遇到验证码AI主动“交棒”在银行App、支付页面等场景Open-AutoGLM内置安全机制检测到输入框类型为“password”或界面含“验证码”“短信验证”文字 → 触发接管输出JSON指令{action: Take_over, reason: 检测到支付验证环节请人工输入验证码}终端打印红色提示“ 请手动完成验证码完成后按回车继续”这既保障了资金安全又避免了流程中断——AI不是取代人而是把人从重复劳动中解放出来专注关键决策。
3 多轮对话支持连续指令像跟真人协作一样自然Open-AutoGLM支持上下文记忆你可以连续下达指令python main.py --base-url http://server:8000/v1 --model autoglm-phone-9b \ 打开淘宝搜索蓝牙耳机 \ 按价格从低到高排序 \ 点开销量最高的商品 \ 截图商品详情页AI会记住前序操作状态如当前在淘宝商品列表页无需重复说明“现在在哪个App”真正实现自然语言交互。
5.
常见问题排查90%的问题三句话就能解决
1 ADB连接类问题占故障率70%问题“adb devices”无设备或显示“unauthorized”解决手机弹出“允许USB调试吗”窗口勾选“始终允许”再点确定问题WiFi连接后adb shell报错“connection refused”解决确认手机和服务器在同一局域网重启ADB服务adb kill-server adb start-server问题执行Type指令无反应解决100%是ADB Keyboard未设为默认输入法进入手机“设置→语言与输入法→当前键盘”切换
2 模型服务类问题占故障率20%问题vLLM启动报错“out of memory”解决H800需至少24GB显存若用A10/A100添加参数--gpu-memory-utilization
95问题API返回空响应或乱码解决检查--max-model-len是否小于实际输入长度建议设为25480模型最大支持值
3 UI理解类问题占故障率10%但最影响体验问题AI点错位置或找不到搜索框解决手机开启“开发者选项→最小宽度”调至360dp适配截图分辨率关闭“字体缩放”至标准大小问题深色模式下截图发黑解决在main.py中添加参数--screenshot-quality 95提升截图质量终极排查法运行时加--verbose参数查看完整日志从“截图获取→XML解析→模型输入→动作输出”逐层定位。
6.
总结你的第一台“手机AI工人”今天就能上岗Open-AutoGLM不是玩具而是一套经过真实场景验证的生产力工具。
它把过去需要写几十行Appium脚本、维护XPath定位器、反复调试的手机自动化任务压缩成一句中文指令。
无论你是个人用户用M2 Mac本地部署让它每天自动整理微信收藏、汇总小红书笔记、监控电商降价测试工程师用H800服务器批量跑回归用例覆盖App所有分支路径缺陷发现率提升3倍产品经理快速验证竞品App交互流程1小时生成10个主流App的操作SOP文档开发者基于phone_agent.adb模块二次开发接入企业微信、飞书机器人打造专属AI办公助手它的价值不在技术多炫酷而在足够“笨”——不依赖预设规则不惧界面改版只认屏幕所见、听懂自然语言、老老实实执行。
就像给你配了一个不知疲倦、从不抱怨、越用越懂你的手机助理。
现在合上这篇文章拿起手机打开终端敲下第一行git clone。
5分钟后你将亲眼看到AI第一次为你点开那个App——那一刻你会相信未来已来而且就在你指尖。