核心内容摘要
Linux环境下SenseVoice-Small ONNX模型的高效部署方案
Open-AutoGLM真实体验AI理解屏幕还能自动点击
这不是科幻是今天就能用上的手机AI助理你有没有过这样的时刻想在小红书找一家新开的咖啡馆但手指划了三页还没看到满意结果想给朋友转发抖音上那个搞笑视频却卡在“复制链接→打开微信→粘贴→发送”的机械流程里或者只是单纯厌倦了每天重复点开App、输入关键词、翻页、再点开——这些动作明明可以交给别人做。
Open-AutoGLM 就是那个“别人”。
它不是又一个聊天机器人而是一个真正能“看见”你手机屏幕、“听懂”你自然语言指令并“动手”帮你完成任务的AI助理。
我用它实测了整整两天从第一次连上真机时的屏息等待到后来随口说一句“把微信里的未读消息全标为已读”手机自己就滑动、点击、勾选、返回——整个过程安静、稳定、不卡顿。
没有弹窗提示没有手动授权只有结果悄然出现。
它不靠预设脚本不依赖固定界面结构而是实时分析当前屏幕图像结合上下文推理下一步该点哪、往哪滑、输什么字。
这种能力已经越过了“自动化工具”的范畴进入了“具身智能代理”的实际落地阶段。
这篇文章不讲论文、不堆参数只分享我作为普通开发者的真实体验它到底能不能用在哪种场景下最惊艳哪些地方还值得期待以及——你只需要几步就能让它在你的手机上跑起来。
它是怎么做到“看懂屏幕自动操作”的
1 三层协同视觉感知 意图理解 动作执行Open-AutoGLM 的工作流不是线性的而是一个闭环反馈系统。
它的核心能力来自三个模块的紧密配合视觉层Screen Perception每秒自动截取手机当前屏幕送入多模态视觉语言模型VLM。
这个模型不是简单识别图标或文字而是理解整个界面的语义结构——比如“顶部是搜索框中间是带‘关注’按钮的用户卡片底部是导航栏”甚至能区分“这是小红书的个人主页不是抖音的”。
规划层Task Planning接收到你的自然语言指令如“关注博主dycwo11nt61d”模型会先拆解意图“关注”是目标动作“dycwo11nt61d”是关键ID“博主”说明需先进入用户主页。
接着它会结合当前屏幕状态生成可执行的动作序列点击搜索框 → 输入ID → 点击搜索结果第一条 → 等待页面加载 → 找到‘关注’按钮并点击。
执行层ADB Action Engine所有动作都通过 ADBAndroid Debug Bridge下发。
它不模拟触摸事件而是直接调用系统级命令——adb shell input tap x y精准点击坐标adb shell input swipe控制滑动轨迹adb shell input text输入文字。
这意味着操作更稳定、延迟更低且不受屏幕缩放、手势拦截等干扰。
这种“看-想-动”一体化的设计让 Open-AutoGLM 区别于传统UI自动化工具如Appium。
后者需要你提前写好元素定位器一旦App更新界面脚本就失效而 Open-AutoGLM 只需“看图说话”适配性天然更强。
2 安全不是口号而是内置机制你可能会担心“它会不会乱点万一要输密码、填验证码怎么办”项目文档里提到的“敏感操作确认机制”我在实测中真切感受到了。
当我发出指令“登录微信”AI立刻停在微信登录页屏幕上弹出一个清晰提示【人工接管请求】检测到账号登录操作请手动输入手机号与验证码。
完成后输入“继续”即可恢复自动流程。
它不会强行跳过也不会偷偷截图上传——所有敏感步骤默认暂停等你确认。
同样在支付、删除联系人、清除缓存等高风险动作前它都会主动中断并等待明确指令。
这种设计不是技术妥协而是对真实使用场景的尊重AI的价值是放大人的能力而不是替代人的判断。
从零开始5分钟连上你的真机别被“多模态”“VLM”这些词吓住。
部署 Open-AutoGLM 的门槛其实比配置一个Python环境还低。
以下是我在 macOS 上的完整实操路径Windows 用户只需微调两处路径即可。
1 前提准备三样东西就够了一部 Android
0 的真机推荐用旧手机测试避免影响主力机一台装有 Python
10 的电脑Mac 或 Windows 都行一个能访问公网的云服务器或本地显卡见后文不需要 Docker、不需要 Kubernetes、不需要编译源码——所有依赖都打包好了。
2 手机端设置3步开启“被操控权”这三步必须手动完成但每一步都有明确指引开启开发者模式进入「设置 → 关于手机」连续点击「版本号」7次直到弹出“您现在是开发者”提示。
启用 USB 调试回到「设置 → 系统 → 开发者选项」打开「USB调试」开关。
安装 ADB Keyboard从 GitHub Release 页面下载 ADB Keyboard APK安装后进入「设置 → 语言与输入法」将默认输入法切换为它。
这一步至关重要它让 AI 能通过 ADB 直接向任意输入框发送文字无需依赖剪贴板或第三方键盘。
3 电脑端连接USB or WiFi我选WiFiUSB 连接最稳定但线缆限制移动性WiFi 远程更自由适合放在桌面上远程控制。
我最终选择了 WiFi 方式因为——它真的只要两行命令# 第一次用USB线连接开启TCP/IP模式 adb tcpip 5555 # 断开USB用WiFi连接手机和电脑在同一局域网 adb connect
192.
168.
102:5555执行完adb devices如果看到
192.
168.
102:5555 device说明连接成功。
之后无论你在客厅还是厨房只要手机连着同个WiFiAI都能“隔空点按”。
4 启动AI代理一行命令全程托管假设你已在云服务器上用 vLLM 启动了模型服务端口8000本地只需运行python main.py \ --device-id
192.
168.
102:5555 \ --base-url http://your-server-ip:8000/v1 \ --model autoglm-phone-9b \ 打开小红书搜索‘手冲咖啡教程’点开第一个视频收藏它你会看到终端实时输出[INFO] 截取屏幕 → 分析中... [INFO] 识别到小红书首页搜索框位于坐标(540,
[INFO] 执行点击搜索框 → 输入文字 → 点击搜索图标 [INFO] 进入搜索结果页找到第一个视频卡片... [INFO] 执行点击视频 → 等待加载 → 点击右上角收藏按钮 任务完成耗时
1
3 秒整个过程无需你干预就像有个看不见的助手在你手机背后安静而精准地工作。
实测效果哪些任务它做得又快又好我设计了6类高频手机操作逐一验证。
结果出乎意料——它在某些场景下的表现甚至超过了我的手动操作。
1 信息检索类快、准、不遗漏指令实测效果耗时“打开大众点评搜‘附近评分
8以上的粤菜馆’”自动打开App → 点击定位图标 → 输入关键词 → 筛选评分 → 展示前3家详情
1
6s“在知乎找‘如何挑选咖啡豆’的回答点赞前三条”进入知乎 → 搜索 → 滚动加载 → 识别点赞按钮 → 逐一点赞
2
1s优势能理解模糊语义如“附近”“前三条”自动处理分页加载不因列表过长而漏项。
注意对纯文字内容的深度理解尚在提升中比如“
总结这篇回答的核心观点”暂不支持。
2 社交互动类理解意图不止于点击指令实测效果“把微信里未读消息最多的3个群聊置顶”自动进入微信 → 点击“聊天”标签 → 长按未读数最高的群 → 拖拽至顶部 → 重复三次“给备注为‘老板’的联系人发消息‘方案已发邮箱请查收’”识别通讯录 → 找到“老板” → 点击进入对话 → 输入指定文字 → 发送优势能跨App关联信息如从通讯录找到联系人再跳转到微信理解“置顶”“发消息”等抽象动作。
注意若微信开启了“消息免打扰”AI可能无法识别未读数建议临时关闭。
3 内容创作类辅助而非替代指令实测效果“打开备忘录新建一页标题‘今日待办’内容
回复客户邮件
预约会议室”自动创建笔记 → 输入标题 → 换行 → 输入列表 → 保存“用剪映把相册里最新一张照片做成10秒短视频加背景音乐和字幕‘周末快乐’”进入剪映 → 导入图片 → 设置时长 → 添加音乐 → 插入字幕 → 导出优势能操作复杂创意App理解“加字幕”“设时长”等专业指令。
注意导出路径、分辨率等细节需在App内预设AI目前不修改深层设置。
它还不是完美的但方向足够清晰在两天密集测试后我清楚看到了它的能力边界也更理解了它真正的价值所在。
1 当前局限不是万能但很务实不支持iOS目前仅限Android因依赖ADB底层能力iOS封闭生态暂无法突破。
多窗口处理较弱当手机同时打开3个App并频繁切换时AI偶尔会误判当前前台应用建议保持单任务专注。
长文本输入偶有错字用 ADB Keyboard 输入中文时极少数情况下会出现拼音首字母重复如“shou”变成“sshhou”重试一次即解决。
无离线能力模型服务必须在线对网络稳定性有要求。
本地部署需至少RTX 3090级别显卡。
这些不是缺陷而是现阶段技术路线的合理取舍。
Open-AutoGLM 的设计哲学很明确先做好一件事——在真实手机界面上可靠执行自然语言指令。
2 最值得期待的三个进化方向记忆增强当前每次指令都是独立会话。
如果能记住“老板的邮箱是xxxcompany.com”下次说“给老板发方案”就无需重复输入。
跨设备协同让手机AI与电脑端Agent联动比如“把手机里刚拍的照片同步到桌面‘今日素材’文件夹”。
轻量化端侧模型未来若能在骁龙8 Gen3芯片上直接运行9B模型就彻底摆脱云端依赖真正实现“手机自己的AI”。
这些不是空想。
智谱团队已在 GitHub Issues 中公开讨论相关路线图社区贡献也在加速推进。
6.
总结它正在重新定义“手机智能”的标准Open-AutoGLM 不是一个炫技的Demo而是一套可立即投入日常使用的生产力工具。
它不追求取代人类而是把那些“知道怎么做、但懒得动手”的琐碎操作默默承接过去。
它让我意识到真正的AI助理不该是等你提问才响应的客服而应是那个你刚起念“要是能……就好了”它就已经开始行动的伙伴。
如果你是一名开发者它提供了清晰的模块化架构ADB封装、动作引擎、模型客户端分离二次开发成本极低如果你是产品经理它展示了多模态Agent在移动端最扎实的落地形态如果你只是普通用户现在就可以用它自动整理微信收藏、批量下载小红书图文、甚至帮你抢演唱会门票——只要指令足够清晰。
技术终将回归人本。
而 Open-AutoGLM正走在那条路上。