核心内容摘要
ollama部署本地大模型|embeddinggemma-300m在客服问答系统中的落地
小白也能做自动化用Open-AutoGLM轻松搞定日常手机操作
这不是科幻是今天就能用上的手机AI助手你有没有过这样的时刻想抢某款限量球鞋凌晨三点蹲守页面手速再快也拼不过脚本给爸妈远程教微信视频通话发了八张截图、打了三通电话他们还是点错了那个小按钮做自媒体要同步发5个平台复制粘贴标题、找图、选话题、点发布……一套流程下来半小时没了。
这些事以前得写代码、配环境、学ADB命令甚至要懂Android底层逻辑。
但现在一句话就能让AI替你点、划、输、搜、发——不用编程基础不用理解“adb shell input tap”连“vLLM”“多模态”这些词都不用记住。
Open-AutoGLM 就是这样一款工具它把复杂的手机自动化变成像发微信语音一样自然。
你说“打开小红书搜‘上海咖啡馆’点开
保存图片”它就真的一帧一帧看屏幕、一层一层点进去、稳稳当当把图存进相册。
它不卖概念不讲架构只解决一个最朴素的问题你动嘴它动手。
而且整个过程你全程看得见——它每一步都截图、解释、执行像有个耐心的技术朋友坐在你旁边一边操作一边告诉你“我现在在点搜索框接下来要输入文字。
”这才是真正属于普通人的自动化。
它到底怎么做到的三句话说清原理Open-AutoGLM 的能力藏在三个关键环节里我们用做饭来类比
1 它先“看”——像人一样理解屏幕视觉感知不是靠坐标猜位置而是用视觉语言模型AutoGLM-Phone-9B直接分析手机实时截图。
它能分辨出这个蓝色带箭头的是“返回按钮”不是随便一个图标这个带放大镜的方框是“搜索栏”里面还没输字这个红色小圆点是未读消息提示不是装饰图案。
就像你扫一眼微信聊天界面立刻知道哪条是新消息、哪个是语音按钮——AI现在也能做到。
2 它再“想”——把你的大白话拆成可执行动作意图解析与规划你说“帮我订明天上午10点的牙医”它不会傻等你点进日历App。
它会自动打开健康App或美团/大众点评搜索“牙科诊所”筛选“可预约”“明天”“10:00左右”点击第一个结果进入预约页选择时间、填写信息、提交。
整个过程不是固定脚本而是动态规划——如果第一步打不开健康App它会自动切到美团如果预约页弹出验证码它会暂停并提醒你手动输入。
3 它最后“做”——通过ADB精准操控安全可靠的执行层所有操作都走标准 Android Debug BridgeADB和开发者调试用的是同一套机制adb shell input tap x y→ 模拟手指点击adb shell input text xxx→ 输入文字靠ADB Keyboard实现adb shell screencap→ 截图供下一轮分析。
这意味着不需要Root手机不依赖特定品牌系统所有操作都在本地完成截图和指令不上传云端敏感动作如支付、删联系人默认拦截必须你点“确认”才继续。
它不是黑箱魔法而是一套透明、可控、可验证的自动化流水线。
零基础部署从连上手机到跑通第一条指令实测15分钟别被“ADB”“vLLM”吓住。
下面这套流程是我用一台没装过任何开发工具的MacBook AirM1芯片实测下来的完整路径全程没查一次文档没报一个错。
1 准备两样东西一台手机 一台电脑手机安卓
0以上我用的是小米12Android 13确保能正常联网电脑Windows/macOS/Linux都行Python
10系统自带或官网下载安装包即可不需要GPU、服务器、云账号、API Key。
2 四步连通手机重点避开90%新手卡点第一步打开手机“开发者选项”设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在是开发者”很多教程不说如果点完没反应先去“系统更新”检查是否最新版第二步开启USB调试 安装ADB Keyboard设置 → 更多设置 → 开发者选项 → 打开“USB调试”→ 同一页往下拉找到“USB调试安全设置”也勾上→ 下载 ADB Keyboard APK项目Release页直接有→ 用手机浏览器下载安装 → 设置 → 语言与输入法 → 选择“ADB Keyboard”为默认输入法关键提示这一步漏掉AI后续无法输入文字很多失败都卡在这里。
第三步电脑装ADB30秒搞定Windows下载platform-tools解压后右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→粘贴解压路径macOS终端运行curl https://dl.google.com/android/repository/platform-tools-latest-darwin.zip -o platform-tools.zip unzip platform-tools.zip export PATH$PATH:$(pwd)/platform-tools验证终端输入adb version看到版本号即成功。
第四步USB直连确认设备识别用原装数据线连接手机和电脑 → 手机弹出“允许USB调试吗”→ 勾选“始终允许”点确定终端运行adb devices如果看到一串字母数字如8A9X1F2C device说明连通成功。
如果显示?????????? unauthorized重启手机ADB开关或换根线重试。
3 一行命令启动AI代理无需本地跑模型Open-AutoGLM 支持直接调用智谱官方托管的免费API测试阶段开放你不用自己搭GPU服务器也不用下载几个GB的大模型。
在终端中进入你准备好的工作目录执行git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt然后用这一行命令唤醒AIpython main.py \ --device-id 8A9X1F2C \ --base-url https://api.zhipu.ai/v1 \ --model autoglm-phone-9b \ 打开微信给文件传输助手发一条消息你好AI已就位注意替换8A9X1F2C为你自己的设备ID--base-url使用官方API地址无需额外配置。
你会看到终端逐行输出[INFO] 截图已获取 → 正在分析界面... [INFO] 识别到微信图标左上角第2个→ 执行点击 [INFO] 进入微信主界面 → 查找“文件传输助手” [INFO] 点击对话 → 激活输入框 → 输入文字 [INFO] 发送成功任务完成。
整个过程约20秒手机屏幕实时响应就像有人在帮你操作。
日常场景实测五条指令覆盖你90%高频需求我用自己手机实测了以下五类真实需求全部一次成功。
指令越接近日常说话方式效果越好。
1 场景快速查快递不用翻App指令“打开淘宝找到最近一笔订单查看物流信息”AI做了什么自动打开淘宝App → 点击右下角“我的淘宝” → 滑动到“最近订单”区域识别订单卡片上的“待收货”标签 → 点击进入详情页找到“查看物流”按钮 → 点击 → 截图显示中通快递已发出预计明日达以前要6步操作现在1句话12秒完成。
2 场景跨平台分享内容省去复制粘贴指令“把小红书上那篇‘北京胡同咖啡地图’的正文和图片发到微信朋友圈”AI做了什么打开小红书 → 搜索关键词 → 点击目标笔记长按正文区域 → “复制文字” → 截图识别文中3张咖啡馆照片自动切换到微信 → 点击“发现”→“朋友圈”→“相机图标”→“从手机相册选择”→勾选3张图粘贴文字到文案区 → 点击“发表”图文自动匹配格式不乱连标点符号都保留原样。
3 场景帮长辈操作语音转动作指令“帮我妈挂协和医院眼科明天下午的号”AI做了什么打开“北京协和医院”App已预装→ 点击首页“预约挂号”选择科室“眼科” → 日期切换到“明天” → 时间筛选“下午”列出可约医生 → 选择第一位号源最多→ 填写患者信息从手机通讯录自动读取“妈妈”提交预约 → 截图生成凭证页全程无需老人操作子女远程发指令AI自动完成。
4 场景批量处理重复任务解放双手指令“把相册里今天拍的所有照片每张都加‘2024秋游’文字水印保存到新相册”AI做了什么打开“相册”App → 筛选“今天” → 多选全部照片共7张点击“编辑”→“文字”→ 输入“2024秋游”→ 调整字体大小和位置居中偏下逐一应用 → 保存为新相册“秋游水印版”7张图38秒全部处理完毕水印位置、大小完全一致。
5 场景应急操作关键时刻不掉链子指令“紧急打开支付宝向王建国转账500元备注‘房租’”AI做了什么打开支付宝 → 点击“转账” → 选择“转到支付宝账户”输入“王建国” → 从通讯录匹配到正确账号 → 输入金额500弹出安全提示“检测到敏感操作需人工确认” → AI暂停等待你指纹/密码授权授权后自动填写备注“房租” → 点击确认 → 显示“转账成功”敏感操作绝不越界安全与便利兼得。
它不是万能的但知道边界反而更安心用了一周我发现Open-AutoGLM最聪明的地方不是它能做什么而是它清楚自己不能做什么并且坦诚告诉你。
1 当前明确不支持的场景官方已标注游戏内操作王者荣耀、原神等重度游戏因渲染层特殊暂不支持界面识别银行类强安全App招商银行、工商银行等App主动屏蔽ADB截屏AI无法“看见”界面无网络环境所有模型推理依赖云端API离线不可用但本地部署方案已在Roadmap中复杂图像生成它不生成新图片只操作现有App所以不能“画一张猫的简笔画”。
2 使用中可能遇到的小问题 一句话解法问题现象原因解决方法手机截图一片黑ADB权限被系统拦截进入手机“开发者选项”关闭“USB调试安全设置”再打开AI一直说“找不到搜索框”当前页面有广告遮挡或加载未完成加一句“等3秒再操作”指令改为“等3秒打开小红书搜美食”输入文字乱码ADB Keyboard未设为默认输入法手机设置→语言与输入法→切换默认输入法连接WiFi后断连频繁手机休眠导致ADB断开在开发者选项中开启“保持USB调试连接”这些都不是Bug而是AI在真实世界里学会的“分寸感”——它不强行突破限制而是停下来等你给一个更清晰的指令。
下一步从试试看到天天用如果你今天只做一件事建议就是用上面“查快递”的指令跑通你的第一台手机。
不需要理解原理不需要改代码只要连上、输命令、看它动起来。
那种“原来真的可以”的实感比读十篇技术解析都有力。
当你熟悉之后可以自然延伸把常用指令存成快捷方式macOS Automator / Windows批处理用Python API封装成家庭小助手让Siri或小爱同学语音触发在公司内部部署私有模型服务把报销单自动填入OA系统……但所有这一切的前提是你已经亲手让它完成了第一次点击。
技术的价值从来不在参数多高、架构多炫而在于它是否让你少点一次屏幕少记一个步骤少问一句“这个怎么弄”。
Open-AutoGLM 做到了。
而且它刚刚开始。