Open-AutoGLM:开源手机智能助理框架,支持50+主流App的自动操作

本站所有内容均由自动化程序抓取自第三方网站,部分内容未及时审核,如有侵权,违规,请联系我们第一时间删除!QQ:3963907323

Clash 小火箭 v2ray节点购买

好用的梯子,海外网络,快速稳定

Google

Open-AutoGLM:让你的手机秒变 AI 助理

开源项目亮点

Open-AutoGLM 是一个专为移动端设计的智能助理框架,它基于 AutoGLM 构建,能够多模态理解手机屏幕内容,并通过自动化操作实现用户意图。只需一句自然语言命令,系统便能分析当前界面、规划操作路径,并模拟人类点击、滑动、输入等行为,高效完成任务。

无论是“打开小红书搜索美食”或“查找微信联系人”,Phone Agent 都能准确理解指令,自动执行流程,并在敏感环节触发人工确认或接管机制,确保使用安全。

全流程自动化体验

系统通过 Android Debug Bridge (ADB) 控制设备,配合视觉语言模型进行界面感知,再结合任务规划模块,完整执行从识别到点击的每一个步骤。支持 WiFi 网络远程调试,让你随时随地控制设备,开发者亦可通过 API 接入,快速构建智能操作场景。

多语言模型,适配多类应用

提供两款模型可选:

  • AutoGLM-Phone-9B:专为中文应用优化
  • AutoGLM-Phone-9B-Multilingual:支持英文等多语言应用场景

模型下载地址:

覆盖50+主流App场景

Phone Agent 支持包括社交、电商、外卖、出行、娱乐等在内的50多个常用应用,例如:

  • 社交通讯:微信、QQ、微博
  • 购物平台:淘宝、京东、拼多多
  • 外卖平台:美团、饿了么、肯德基
  • 出行工具:滴滴出行、携程、12306
  • 视频音频:抖音、B站、爱奇艺、网易云音乐
  • 本地生活:大众点评、高德地图、小红书、知乎等

运行 python main.py --list-apps 即可查看完整支持清单。

支持的操作能力

Phone Agent 可执行包括点击、输入、滑动在内的常见手机操作:

操作类型 功能描述
Launch 启动指定App
Tap 点击坐标点
Type 自动输入文字内容
Swipe 上下左右滑动屏幕
Back 返回上一步
Home 返回手机桌面
Long Press 模拟长按操作
Double Tap 模拟双击动作
Wait 页面加载等待
Take_over 请求人工接管(如验证码)

开源地址与应用场景

项目仓库地址:GitHub – Open-AutoGLM

无论你是开发者、AI爱好者,还是在寻找自动化方案的运营者,Open-AutoGLM 都能帮助你打造一个真正智能、可控的手机自动化助手。

本文链接:

相关文章

评论(0)
游客的头像
表情
全部评论
最新