核心内容摘要
糖沁logo视频:不止于形,更在于“心”的流动艺术
亲测Open-AutoGLM让AI帮你自动刷抖音关注博主本文基于智谱AI开源项目 Open-AutoGLM 的实操经验全程不写一行模型代码、不调参、不部署服务器只用一台电脑一部安卓手机15分钟内跑通“打开抖音→搜索指定博主→点击主页→完成关注”全流程。
所有步骤均经本人真机验证小米13Android 14附避坑指南和效果实录。
这不是概念演示是能立刻上手的手机AI助理你有没有过这样的时刻想批量关注一批优质抖音博主但手动点开、搜索、进主页、点关注重复操作20次后手指发麻看到小红书种草的美食探店想立刻在美团搜同款却要来回切换App、反复输入关键词朋友发来一个微信链接你得先复制、再切回微信、再粘贴、再点开——三步操作卡在第二步忘了粘贴。
这些不是“懒”而是人机交互效率的断层。
Open-AutoGLM 就是来填平这个断层的。
它不是另一个“AI写文案”工具而是一个真正能看懂你手机屏幕、听懂你自然语言、替你动手点击滑动的AI助理。
我用它完成了标题里的任务手机连电脑后终端里输入一行命令AI自动识别抖音首页界面 → 点击搜索框 → 输入“dycwo11nt61d” → 点击搜索结果 → 进入博主主页 → 定位“关注”按钮 → 点击完成全程无需我碰手机耗时47秒成功率100%连续测试5次关键在于你不需要懂ADB、不需会Python、不需部署大模型。
它把所有技术细节封装成清晰的命令行接口小白也能当天上手。
准备工作三步搞定硬件与环境比装微信还简单别被“ADB”“vLLM”吓退——实际只需做三件事全部有傻瓜式指引。
1 手机端开启开发者权限3分钟这是唯一需要你在手机上操作的步骤其他全在电脑端打开开发者模式设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您已处于开发者模式”启用USB调试返回设置 → 系统与更新 → 开发者选项 → 打开“USB调试”务必勾选否则后续全失败安装ADB Keyboard关键下载地址https://github.com/senzhk/ADBKeyBoard/releases安装APK后进入手机“设置 → 语言与输入法 → 当前输入法” → 切换为“ADB Keyboard”为什么必须装ADB原生命令不支持中文输入这个工具通过广播发送UTF-8文本让你的“dycwo11nt61d”能准确输入不乱码。
验证是否成功用USB线连接手机和电脑 → 打开命令行 → 输入adb devices→ 若显示一串设备ID如8A2X000000000000 device说明连接成功。
若显示unauthorized请在手机弹窗点“允许”。
2 电脑端装好控制端5分钟无需配置复杂环境只要Python基础运行环境Windows/macOS均可Linux同理Python
10官网下载安装包勾选“Add Python to PATH”Git用于克隆代码官网下载安装即可执行以下命令复制粘贴逐行回车#
克隆项目约15秒 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM #
安装依赖约1分钟网络正常情况下 pip install -r requirements.txt pip install -e . #
验证安装看到版本号即成功 python -c import phone_agent; print(OK)常见报错处理ModuleNotFoundError: No module named torch→ 运行pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118NVIDIA显卡或pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu无显卡ERROR: Could not find a version that satisfies...→ 升级pippython -m pip install --upgrade pip
3 云服务接入用现成API零部署成本Open-AutoGLM 的核心是视觉语言模型AutoGLM-Phone-9B但你不需要自己租GPU、部署模型、调vLLM。
项目官方提供了公开可用的API服务免费额度足够日常使用API地址http://autoglm-phone-api.zai.org/v1模型名autoglm-phone-9bAPI KeyEMPTY留空即可为什么推荐用云API本地部署9B模型需24GB显存RTX 4090勉强够而云服务直接调用笔记本也能跑官方API已针对手机Agent场景优化响应快、准确率高后续可无缝切换为自建服务架构完全兼容。
实战一条命令让AI替你刷抖音关注博主现在进入最激动人心的部分——执行任务。
整个过程分三步确认设备、构造指令、运行命令。
1 确认你的设备ID10秒保持手机USB连接电脑运行adb devices输出类似List of devices attached 8A2X000000000000 device其中8A2X000000000000就是你的设备ID不同手机不同。
把它记下来后面要用。
2 构造自然语言指令关键用对描述才准Open-AutoGLM 的强大在于它理解人类语言而非编程指令。
但描述质量直接影响成功率。
根据我的实测最佳写法是“打开抖音搜索抖音号为dycwo11nt61d 的博主进入他的主页点击关注按钮。
”为什么这样写明确App名“抖音”而非“某短视频App”避免AI误判为快手或B站强调唯一标识“抖音号为xxx”比“搜索xxx”更精准昵称可能重复抖音号唯一动作链完整从“打开”→“搜索”→“进入主页”→“点击关注”覆盖全流程❌ 避免模糊词“找一下那个博主”“点那个关注”——AI无法定位“那个”❌ 避免缩写“抖”“博”等非正式简称AI可能识别为其他App。
3 执行命令见证奇迹的时刻在Open-AutoGLM目录下运行以下命令替换YOUR_DEVICE_ID为你自己的设备IDpython main.py \ --device-id 8A2X000000000000 \ --base-url http://autoglm-phone-api.zai.org/v1 \ --model autoglm-phone-9b \ 打开抖音搜索抖音号为dycwo11nt61d 的博主进入他的主页点击关注按钮。
你会看到实时输出节选[Step 1] 截取屏幕... ✓ [Step 1] 当前应用系统桌面 think用户想关注抖音博主需先启动抖音App/think answerdo(actionLaunch, app抖音)/answer [Step 2] 截取屏幕... ✓ [Step 2] 当前应用抖音 think抖音已启动首页有搜索框需点击进入搜索/think answerdo(actionTap, element[500, 120])/answer [Step 3] 截取屏幕... ✓ [Step 3] 当前应用抖音搜索页 think搜索框已激活需输入抖音号dycwo11nt61d/think answerdo(actionType, textdycwo11nt61d)/answer [Step 4] 截取屏幕... ✓ [Step 4] 当前应用抖音搜索结果页 think搜索结果中第一个是目标博主需点击进入主页/think answerdo(actionTap, element[500, 450])/answer [Step 5] 截取屏幕... ✓ [Step 5] 当前应用抖音博主主页 think主页顶部有“关注”按钮坐标约在(500,
点击即可/think answerdo(actionTap, element[500, 280])/answer [Step 6] 截取屏幕... ✓ [Step 6] 当前应用抖音博主主页 think关注按钮已变为“已关注”任务完成/think answerfinish(message已成功关注博主 dycwo11nt61d)/answer任务完成手机屏幕上你亲眼看到抖音自动完成所有操作最后显示“已关注”。
整个过程47秒AI的思考过程think和动作answer实时打印像有个技术专家在你耳边解说每一步。
实测技巧首次运行建议加--verbose参数python main.py --verbose ...查看详细日志便于排查问题如果某步卡住检查手机是否锁屏需保持亮屏、USB调试是否被系统自动关闭部分国产机有此bug关注按钮坐标微调不同机型UI略有差异若第5步点击失败可观察截图中“关注”按钮位置手动调整element[x,y]中的y值±50像素内尝试。
超越抖音这些高频场景AI都能一键搞定Open-AutoGLM 的能力远不止关注博主。
它内置了50主流App的包名映射微信、淘宝、美团、小红书、B站等且支持复杂多步任务。
以下是我在真实场景中验证过的用法
1 社交与内容获取省时80%场景自然语言指令示例效果批量加微信好友“打开微信点击右上角‘’选择‘添加朋友’输入手机号138****1234点击‘添加到通讯录’发送验证消息‘你好我是XXX’”自动完成搜索、添加、发消息三步耗时12秒小红书种草采集“打开小红书搜索‘上海咖啡馆’下滑加载3次截取前5个笔记的封面图和标题保存到相册”AI自动滑动、识别图文、调用系统截图需授权B站视频下载“打开B站搜索‘大模型入门’点击播放量最高的视频长按分享按钮选择‘下载’”精准定位UI元素规避反爬机制
2 电商与生活服务操作零失误场景自然语言指令示例效果美团抢优惠券“打开美团搜索‘海底捞’进入最近门店主页点击‘领券’选择‘满300减50’券点击‘立即领取’”在优惠券页面刷新时AI能等待元素出现再操作不手忙脚乱12306抢票“打开12306登录账号查询今天北京到上海的G101次列车选择二等座提交订单”登录环节触发人工接管Take_over后续自动填充信息淘宝比价“打开淘宝搜索‘iPhone 15 Pro’记录前3个商品的价格和店铺名生成表格发到微信文件传输助手”AI识别价格数字调用微信发送文本
3 效率与自动化替代重复劳动场景自然语言指令示例效果日报生成“打开钉钉进入‘我的日报’点击‘新建日报’填写今日工作
完成XX项目需求评审
编写接口文档
与设计同步UI稿。
提交”自动填充文本跳过所有点击流程跨App信息同步“从微信聊天中复制‘会议时间明天10点’打开日历App创建新事件标题‘项目会议’时间设为明天10:00保存”AI自动识别微信中的文字并跨App粘贴需开启无障碍权限手机清理“打开手机管家点击‘垃圾清理’等待扫描完成点击‘全选’点击‘清理’”解决老年人不会操作手机清理的痛点所有场景均实测有效关键在于指令必须包含App名如“微信”“美团”不能只说“打开那个聊天软件”动作动词用中文“点击”“输入”“下滑”不用英文tap/type/swipe涉及敏感操作支付、登录会自动暂停提示你手动完成保障安全。
效果实录AI操作的精准度与稳定性如何光说不练假把式。
我用同一台小米13Android 14连续测试了10个不同任务统计结果如下任务类型测试次数成功率平均耗时主要失败原因抖音关注博主10100%47秒无微信添加好友10100%12秒无美团领优惠券1090%28秒2次因网络延迟导致页面未加载完AI自动重试后成功小红书搜索收藏10100%35秒无淘宝比价1080%52秒2次因商品列表动态加载AI误判为“无结果”调整指令为“等待3秒后下滑”后100%成功直观效果对比以抖音关注为例人工操作解锁手机 → 找到抖音图标 → 点击打开 → 等待加载 → 点击搜索框 → 输入“dycwo11nt61d” → 点击搜索 → 找到结果 → 点击进入 → 滑动到关注按钮 → 点击 → 等待反馈 → 共12个动作耗时约90秒。
AI操作USB连接 → 终端输入命令 → 观看屏幕自动执行 → 完成 → 共1个动作耗时47秒且手指完全不动。
AI的“思考”有多准在第3步输入抖音号时AI不仅点击了搜索框还自动清空了搜索框原有内容即使你没说“先清空”在第5步点击关注它给出的坐标[500, 280]与我手动测量的按钮中心点误差仅±3像素点击100%成功。
这背后是视觉语言模型对UI元素的精准空间理解而非简单坐标记忆。
6.
常见问题与避坑指南血泪
总结基于我踩过的所有坑整理出最实用的解决方案
1 连接类问题占失败率70%现象根本原因一招解决adb devices显示?????????? no permissionsUSB调试未授权或驱动未安装重启手机开发者选项关再开或安装小米USB驱动adb devices无输出USB线不支持数据传输仅充电换一根原装USB线或使用带“数据传输”标识的线WiFi连接失败adb connect
192.
x.x:5555手机与电脑不在同一WiFi或防火墙拦截改用USB连接更稳定或关闭电脑防火墙
2 操作类问题占失败率25%现象根本原因一招解决AI点击位置偏差大如该点搜索框却点了返回键屏幕分辨率未被正确识别在phone_agent/adb/screenshot.py中将width1080, height2400改为你的手机真实分辨率设置 → 显示 → 屏幕分辨率中文输入乱码或不显示ADB Keyboard未启用或未设为默认进入手机“设置 → 语言与输入法”确认“ADB Keyboard”在列表中且被勾选任务卡在某一步不动AI等待页面加载但超时未触发在命令中添加--max-steps 20默认100减少步数可加快失败反馈
3 安全与权限占失败率5%现象根本原因一招解决进入支付页面时黑屏AI提示Take_overAndroid系统禁止敏感页面截图这是安全保护AI会暂停并提示你手动操作完成后按回车继续微信登录时无法自动填密码微信键盘加密ADB无法注入接受人工接管这是合规设计非Bug终极建议首次使用务必从最简单的任务开始如“打开抖音”成功后再叠加步骤。
就像学骑车先学会平衡再学转弯。
7.
总结这不是玩具而是下一代人机交互的起点亲测Open-AutoGLM后我最大的感受是它第一次让我相信AI Agent可以走出实验室走进每个人的日常生活。
它没有炫技式的“多模态融合”术语只有实实在在的一句“打开抖音关注XXX”手机就自动干活一条“把微信里的会议时间同步到日历”跨App信息流转不再需要手动复制一次设置永久解放双手——那些曾让我们烦躁的重复操作终于有了终结者。
它的价值不在于技术多前沿虽然视觉语言模型确实硬核而在于把前沿技术变成了谁都能用的工具。
不需要你懂Prompt Engineering不需要你调模型参数甚至不需要你记住命令格式——你只需要像对朋友说话一样告诉它你想做什么。
当然它还有提升空间比如对动画中UI元素的识别稍弱、对极小按钮的点击精度待优化。
但这些不是缺陷而是真实世界落地的必经之路。
当一个项目能让小白在15分钟内完成“AI刷抖音”它就已经赢了90%的竞品。
如果你也厌倦了在手机上重复点击如果你想把每天1小时的机械操作换成喝杯咖啡的时间——现在就是开始的最佳时机。
打开终端输入那行命令然后看着你的AI第一次真正为你工作。