导读:就在昨夜(12月9日),智谱AI毫无预警地抛出了一枚重磅炸弹——正式开源其核心AI Agent模型 AutoGLM。这不仅是国产大模型在“Computer Use”领域的有力回击,更让开发者们拥有了能够“看懂”屏幕、像人一样操作手机和网页的底层能力。
🚀 核心大事件:AutoGLM 开源意味着什么?
在Anthropic发布Claude 3.5 Computer Use引发全球热议后,国内的大模型厂商一直在暗中角力。而智谱AI选择了最硬核的方式——开源。
此次开源的 AutoGLM 模型,被业界视为全球首个具备 "Phone Use"(手机操作) 能力的开源AI Agent。这意味着:
- 打破封闭:此前类似“豆包手机”的演示多为闭源产品,而现在,任何开发者都可以在自己的设备上复现一个能点外卖、发微信的AI助手。
- 端侧革命:硬件厂商(手机、平板)和RPA开发者可以直接集成该能力,无需等待大厂API。
- 全能操作:不仅支持Web网页浏览,更核心的是对安卓原生App(Android App)的理解和操作。
💡 AutoGLM 的核心能力解析
AutoGLM 基于智谱最新的 GLM-4V 多模态大模型微调而来,它不只是“聊天”,而是“行动”。
1. Phone Use:手机操作专家
这是本次开源的最大亮点。AutoGLM 能够理解安卓手机屏幕上的UI元素(按钮、输入框、图标),并模拟人类的点击、滑动和输入。
- 跨应用协作:例如,它可以从微信接收指令,然后打开大众点评找餐厅,最后跳转到美团完成下单。
- 复杂长流程:官方数据显示,它能稳定完成长达数十步的复杂操作流程。
- 覆盖场景:目前已支持微信、淘宝、抖音、美团等超过 50个高频中文App 的核心场景。
2. Web Use:网页冲浪能手
除了手机,AutoGLM 在Web端的表现同样强悍。它采用了类似于Chrome插件的形态,能够解析DOM树和屏幕截图,完成信息检索、表单填写和后台管理任务。
🛠️ 技术探秘:它如何“看懂”屏幕?
为了满足技术读者的好奇心,我们简要剖析其Github仓库(THUDM/AutoGLM)透露的技术细节:
- 视觉-语言对齐:通过大量的UI截图和操作轨迹数据训练,模型学会了将“帮我点一杯拿铁”转化为“坐标(x,y)点击”的具体指令。
- CoT(思维链)决策:AutoGLM 在执行每一步操作前,会进行“观察-思考-行动”的循环,自我纠错能力显著提升。
- 轻量化部署:虽然基于大模型,但开源版本提供了不同尺寸的权重,适配从云端到端侧的不同算力需求。
💻 开发者指南:如何快速上手?
目前 AutoGLM 的代码和模型权重已托管至 GitHub 和 Hugging Face。
环境要求:
- Python 3.10+
- 支持 CUDA 的 GPU(推荐)
安装示例(伪代码预览):
Bash
# 克隆仓库
git clone https://github.com/THUDM/AutoGLM.git
cd AutoGLM
# 安装依赖
pip install -r requirements.txt
# 启动 Web Agent 演示
python web_demo.py --model_path "THUDM/autoglm-4b"
注意:具体的运行参数请参照官方 README 文档,建议在虚拟环境中运行以避免依赖冲突。
📝 总结与展望
智谱 AutoGLM 的深夜开源,不仅是对 OpenAI 和 Anthropic 的一次技术亮剑,更是给了国产开发者一把打开“万物互联”大门的钥匙。当AI开始真正拥有了“手”和“眼”,我们的数字生活将被彻底重写。
下一步行动: 你想尝试部署 AutoGLM 吗?访问 GitHub 仓库一探究竟,或者在评论区告诉我们你最想用它来实现什么自动化操作!