Peekaboo 是一款开源的 macOS 命令行工具,由 OpenClaw 团队开发。它的核心能力很简单:让 AI 代理能够像人一样「看见」屏幕内容,并执行点击、输入、拖拽等操作。
简单来说,Peekaboo 把 macOS 的无障碍(Accessibility)和屏幕截图 API 包装成一套 CLI 工具,AI 可以通过自然语言指令驱动它完成复杂的桌面自动化任务。项目地址:github.com/openclaw/Peekaboo,最新版本为 v3.0.0(2026年5月9日发布)。

核心功能一览
| 功能 | 说明 |
|---|---|
see |
捕获屏幕/窗口截图,返回带标注的 UI 元素 ID |
click / type |
模拟点击和键盘输入 |
move |
移动鼠标光标 |
menu |
读取和点击应用菜单 |
dialog |
驱动系统对话框(打开/保存文件等) |
image |
截图模式,支持 --analyze 调用 AI 分析 |
agent |
自然语言多步自动化(AI 自主决策) |
mcp |
作为 MCP 服务器运行,供 Claude/Cursor 等使用 |
run |
执行 .peekaboo.json 自动化脚本 |
dock |
操作 Dock 图标(启动、右键、隐藏等) |
安装方式
方式一:Homebrew(推荐)
brew tap steipete/tap
brew install peekaboo
方式二:直接下载
从 GitHub Releases 下载对应版本的二进制文件,目前 macOS 版包名为 peekaboo-macos-universal.tar.gz,同时支持 ARM64 和 x86_64。
方式三:作为 MCP 使用(Node.js)
npx -y @steipete/peekaboo
快速上手
1. 截图并查看 UI 元素
peekaboo see --app Safari
这会捕获 Safari 窗口,返回带有元素 ID 标注的截图,比如 B1、T1 这样的标识符,后续操作就靠这些 ID 精确定位。
2. 用 AI 分析截图内容
peekaboo image --app Safari --analyze "总结这个网页的内容"
3. 截图 + AI 分析组合
peekaboo image --app "Safari" --analyze "Summarize this webpage"
4. 执行自动化任务(自然语言模式)
peekaboo agent "打开 Safari,访问 fluxbbs.com,然后在搜索框输入 AI 新闻"
agent 命令会自主规划多步操作,无需手动拆分指令。
5. 模拟点击操作
先截图拿到快照 ID,再执行点击:
SNAPSHOT=$(peekaboo see --app Safari --json | jq -r '.data.snapshot_id')
peekaboo click --on "Reload this page" --snapshot "$SNAPSHOT"
6. 设置文本输入框的值
peekaboo set-value --on T1 --value "hello" --snapshot "$SNAPSHOT"
7. 执行无障碍动作
peekaboo perform-action --on B1 --action AXPress --snapshot "$SNAPSHOT"
配置 AI 分析功能
Peekaboo 截图本身不需要任何配置,但如果要使用 --analyze 功能,需要配置 AI 提供商。
方式一:OpenAI API
peekaboo config add openai
# 按提示输入 API Key
方式二:Ollama 本地模型(免费)
# 先启动 Ollama
ollama serve
# 然后配置 Peekaboo
peekaboo config add ollama
v3.0 已支持 Ollama 视觉模型分析截图。
权限说明
首次运行会要求授权以下 macOS 权限:
- 屏幕录制(Screen Recording) — 截图功能必需
- 辅助功能(Accessibility) — 点击、输入操作必需
peekaboo permissions status
MCP 模式 vs CLI 模式
作者 Peter奔驰 在 2.0 版本的博客中解释了为什么转向 CLI 优先:
AI 代理调用 CLI 的能力实际上比调用 MCP 好得多(better at calling CLIs),所以不需要每次都在上下文里加载 MCP,工具可以按需取用。
简单说:
- CLI 模式:轻量、按需调用、不污染 AI 上下文
- MCP 模式:适合深度集成到特定 AI 编码环境(Claude Code、Cursor 等)
典型使用场景
- AI 桌面助手:让 AI 完成「打开某应用 → 操作某功能 → 截图确认」这类需要视觉反馈的工作流
- 自动化测试:通过自然语言驱动 UI 测试
- 批量处理:自动执行重复性桌面操作
- 无障碍辅助:为需要自动化操作的用户提供 AI 控制层
总结
Peekaboo 解决了一个核心问题:AI 不知道屏幕发生了什么,也无法执行桌面操作。通过将 macOS 的 UI 控制能力封装成 CLI,它让任何 AI 代理都能真正「看见」并「操作」你的电脑。
从 v1 的 MCP only,到 v2 的 CLI first,再到 v3.0 的架构升级(引入 Peekaboo Bridge socket host 模型),这个工具在持续快速迭代。如果你对 AI + 桌面自动化感兴趣,Peekaboo 是目前 macOS 上最成熟的解决方案之一。
