核心内容摘要
如何突破游戏性能瓶颈?DLSS版本自由切换指南
Open-AutoGLMWiFi ADB远程控制手机部署教程
什么是 Open-AutoGLM一个真正能“看懂”手机屏幕的 AI 助理框架Open-AutoGLM 是智谱开源的一套面向移动端的 AI Agent 框架它不是简单地把大模型塞进手机里跑而是构建了一套“视觉理解 意图解析 自动执行”的完整闭环。
它的核心目标很实在让 AI 真正像人一样操作手机——不是靠预设脚本而是靠实时“看”屏幕、“想”下一步、“点”对位置。
你可能用过语音助手但它只能听指令、调用固定功能你也可能试过自动化工具但它们需要你手动录屏、写规则、反复调试。
而 Open-AutoGLM 走的是另一条路它把手机屏幕当成一张张图片喂给视觉语言模型VLM让模型自己理解当前界面长什么样、按钮在哪、文字说什么再结合自然语言指令推理出用户到底想干什么最后通过 ADB 发送精准的点击、滑动、输入命令完成整套操作。
这背后的关键突破在于“多模态感知”和“动作规划”的融合。
它不依赖 App 的内部 API也不要求你提前知道页面结构——哪怕是一个刚安装、从未见过的新 App只要界面元素清晰可见它就能识别并交互。
这种能力让 AI 第一次具备了在真实手机环境中“边看边做”的自主性。
Phone Agent从指令到动作全程无需手动点击Phone Agent 是基于 Open-AutoGLM 构建的落地应用实例也是目前最成熟可用的手机端智能助理实现。
你可以把它理解成一个装在电脑上的“远程手指”“AI大脑”组合体电脑负责运行逻辑和调用云端模型手机只负责展示界面和执行指令轻量、安全、可扩展。
它的典型工作流是这样的你输入一句自然语言“打开小红书搜美食”系统不会去猜你要点哪个图标而是先截取当前手机屏幕把截图和这句话一起发给云端的 AutoGLM-Phone 模型比如 9B 参数版本模型分析画面识别出桌面有哪些 App 图标定位“小红书”图标的位置判断当前是否已登录规划动作序列先点击小红书图标 → 等待启动 → 找到搜索框 → 点击 → 输入“美食” → 点击搜索按钮将每一步转化为 ADB 命令如adb shell input tap x y或adb shell input text 美食逐条下发执行。
整个过程完全自动中间还能处理常见卡点比如遇到登录页它会暂停并提示“检测到账号登录界面是否人工接管”碰到验证码弹窗会主动停止并等待你手动输入甚至在输入法不兼容时自动切换为 ADB Keyboard 完成文字输入——这些细节正是它区别于普通自动化脚本的
核心价值。
更关键的是它支持 WiFi ADB 远程连接。
这意味着你不需要一直用 USB 线连着手机只要手机和电脑在同一局域网或者你有一台带公网 IP 的云服务器中转就能实现真正的“隔空操控”。
开会时让 AI 帮你回消息出差时远程检查测试机状态甚至搭建一个家庭自动化中控——这些场景第一次变得触手可及。
本地环境准备让电脑学会“认出”你的手机在让 AI 开始干活之前得先让本地电脑和安卓设备建立稳定、可信的通信通道。
这不是装个软件就完事而是一套需要耐心配置的“信任握手”流程。
1 硬件与基础工具清单你的电脑Windows 或 macOS 都可以推荐使用 Python
10避免因版本差异导致依赖冲突你的手机Android
0 及以上系统真机优先模拟器虽可测试但部分权限和硬件交互受限ADB 工具包这是 Android Debug Bridge 的简称是所有远程控制的底层基石。
它不是 App而是一组命令行程序必须正确安装并加入系统路径。
2 ADB 环境变量配置两步到位Windows 用户去 Android SDK Platform-Tools 官网 下载最新版 ZIP 包解压到一个固定路径比如C:\platform-tools按Win R输入sysdm.cpl→ “高级”选项卡 → “环境变量” → 在“系统变量”中找到Path→ “编辑” → “新建” → 粘贴你刚才的解压路径打开新终端窗口输入adb version看到类似Android Debug Bridge version
1.
41的输出说明配置成功。
macOS 用户同样下载 platform-tools 并解压假设放在~/Downloads/platform-tools打开 Terminal运行以下命令只需执行一次echo export PATH$PATH:~/Downloads/platform-tools ~/.zshrc source ~/.zshrc输入adb version验证有版本号即成功。
小提醒别跳过验证这步。
很多后续问题根源都在这里——比如adb devices返回空八成是环境变量没生效。
3 手机端三步设置开启“被控制权”光有电脑不行手机也得点头同意。
这个过程叫“授权调试”一共三步缺一不可开启开发者模式进入「设置」→「关于手机」→ 连续点击「版本号」7 次直到弹出“您现在处于开发者模式”的提示启用 USB 调试回到「设置」→「系统」→「开发者选项」→ 找到「USB 调试」并开启开关安装 ADB Keyboard关键去 GitHub 搜索adb-keyboard下载最新 APK 安装包如adb-keyboard-v
1.
0.
apk安装后进入「设置」→「语言与输入法」→「当前输入法」→ 切换为ADB Keyboard这一步决定了 AI 能不能“打字”。
没有它遇到搜索、登录等需要输入的场景流程就会卡住。
做完这三步你的手机就正式准备好接受远程指令了。
控制端部署从克隆代码到运行第一条指令现在轮到 Open-AutoGLM 登场。
它就是那个坐在电脑前、指挥全局的“AI调度员”。
1 获取并安装控制代码打开终端Windows 用 PowerShell 或 CMDmacOS 用 Terminal依次执行#
克隆官方仓库注意不是 fork是原项目 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM #
创建虚拟环境强烈推荐避免污染主 Python 环境 python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows #
安装依赖requirements.txt 已包含所有必需项 pip install -r requirements.txt pip install -e .为什么用-e安装这表示“开发模式安装”意味着你后续修改源码比如调整日志级别、加个调试打印不用重新 pip install 就能立即生效对调试极其友好。
2 设备连接USB 快速上手WiFi 实现真远程连接方式有两种推荐先用 USB 确保流程通顺再切到 WiFi。
USB 连接新手首选用原装数据线连接手机和电脑手机弹出“允许 USB 调试吗”提示勾选“始终允许”点确定终端输入adb devices如果看到类似ZY223456789 device的输出说明连接成功。
那一串字母数字就是你的device-id。
WiFi 远程连接进阶必备先用 USB 连接一次执行adb tcpip 5555拔掉 USB 线确保手机和电脑连在同一个 WiFi 下查看手机 IP 地址设置 → 关于手机 → 状态信息 → IP 地址假设是
192.
168.
105终端输入adb connect
192.
168.
105:5555再次运行adb devices应显示
192.
168.
105:5555 device。
小技巧如果adb connect失败大概率是手机 WiFi 和电脑不在同一子网或路由器开启了 AP 隔离。
换个热点试试或直接用手机开热点给电脑连。
启动 AI 代理用一句话让手机自己动起来万事俱备只欠东风。
现在我们用一条命令唤醒这个能“看”会“想”还“能干”的 AI 助理。
1 命令行一键启动最简方式确保你已在Open-AutoGLM目录下并且已确认device-idUSB 是ZY223456789WiFi 是
192.
168.
105:5555云服务器已部署好autoglm-phone-9b模型且通过 vLLM 或类似服务暴露了/v1/chat/completions接口端口映射为8800服务器防火墙已放行8800端口。
然后执行python main.py \ --device-id
192.
168.
105:5555 \ --base-url http://
123.
45.
6
89:8800/v1 \ --model autoglm-phone-9b \ 打开抖音搜索抖音号为dycwo11nt61d 的博主并关注他你会看到终端开始滚动日志 截取屏幕... 发送请求至云端模型...模型返回动作[{action: tap, x: 520, y: 1120}, {action: input, text: dycwo11nt61d}]执行点击 执行输入...几秒钟后你的手机屏幕上抖音已经自动打开、搜索框被点击、ID 被输入、搜索结果出现甚至“关注”按钮已被点亮——整个过程你只需要看着不用碰一下。
2 Python API 方式适合集成进自己的工具如果你希望把 Phone Agent 的能力嵌入到自己的脚本或 Web 应用中官方提供了干净的 Python 接口from phone_agent.adb import ADBConnection, list_devices # 初始化连接管理器 conn ADBConnection() # 连接远程设备WiFi success, message conn.connect(
192.
168.
105:
print(f连接状态: {message}) # 输出连接成功 # 查看所有已连接设备 devices list_devices() for device in devices: print(f{device.device_id} - {device.connection_type.value}) # 如
192.
168.
105:5555 - wifi # 可选为 USB 设备开启 TCP/IP方便后续切 WiFi success, message conn.enable_tcpip(
ip conn.get_device_ip() # 自动获取手机 IP print(f设备 IP: {ip}) # 断开连接 conn.disconnect(
192.
168.
105:
这段代码展示了如何用编程方式管理设备连接比命令行更灵活。
你可以把它封装成一个服务供前端调用或者写个定时任务每天早上 8 点自动打开天气 App 截图发到钉钉群。
6.
常见问题与实战排障指南部署过程中90% 的问题都出在“连接”和“权限”上。
以下是高频问题的真实解决方案来自多次踩坑后的经验
总结
1 “Connection refused” —— 云服务器连不上第一反应检查端口。
在服务器上运行netstat -tuln | grep 8800确认服务确实在监听第二反应查防火墙。
Ubuntu 用户执行sudo ufw status若为active则运行sudo ufw allow 8800CentOS 用户用sudo firewall-cmd --permanent --add-port8800/tcp sudo firewall-cmd --reload第三反应看 vLLM 日志。
启动命令末尾加上--host
0.
0.
0默认只监听
127.
0.
1并确认--port 8800与客户端一致。
2 “Device not found” —— ADB 找不到手机USB 连接时手机是否弹出了“允许调试”提示没点确定ADB 就是“瞎子”WiFi 连接时adb connect后立刻运行adb devices如果显示unauthorized说明手机没点“允许”——拔线重连一次这次务必点确定检查手机 USB 连接模式下拉通知栏把“传输文件”改成“仅充电”或“MTP”有时“文件传输”模式反而会干扰 ADB。
3 模型“不动”或“乱点”—— 理解错了怎么办截图质量是前提。
确保手机屏幕亮度足够、无遮挡、未锁屏。
AutoGLM-Phone 对模糊、反光、暗光下的截图识别率会下降指令要具体。
别说“帮我看看消息”而说“打开微信进入‘技术交流群’查看最新一条未读消息”检查 ADB Keyboard 是否生效。
在任意输入框长按看候选栏是否出现“ADB Keyboard”选项并已启用降低预期分步验证。
先试最简单的指令“点击屏幕中央”成功后再叠加复杂度。
7.
总结你刚刚部署的不只是一个工具而是一个新入口回顾整个过程我们完成的远不止是“让手机听指令”这么简单。
你亲手搭建了一条从自然语言到物理操作的完整链路文字 → 理解 → 规划 → 执行。
这条链路背后是视觉语言模型对现实界面的感知力是 ADB 对底层系统的掌控力更是 Open-AutoGLM 对这两者之间鸿沟的优雅弥合。
它意味着未来你不再需要为每个 App 学一套操作逻辑不再需要反复录制、调试自动化脚本甚至不再需要时刻守在设备旁——只要一条指令AI 就能替你完成那些重复、琐碎、却不得不做的手机操作。
而 WiFi ADB 的加入更是把这个能力从“桌面延伸到了云端”。
你可以把模型部署在高性能服务器上用手机拍张照片发过去让它帮你识别药品说明书也可以把家里的旧安卓平板挂在网上让 AI 每天定时播报天气、朗读新闻、监控快递物流。
技术的价值从来不在参数有多高而在于它能否无声无息地融入生活把人从机械劳动中解放出来。
Open-AutoGLM 正在做的就是这件事的起点。