Peekaboo:让 AI 真正「看见」并控制你的 Mac(详解 + 使用教程)

2026-05-15 12 0

Peekaboo 是一款开源的 macOS 命令行工具,由 OpenClaw 团队开发。它的核心能力很简单:让 AI 代理能够像人一样「看见」屏幕内容,并执行点击、输入、拖拽等操作

简单来说,Peekaboo 把 macOS 的无障碍(Accessibility)和屏幕截图 API 包装成一套 CLI 工具,AI 可以通过自然语言指令驱动它完成复杂的桌面自动化任务。项目地址:github.com/openclaw/Peekaboo,最新版本为 v3.0.0(2026年5月9日发布)。

Peekaboo banner

核心功能一览

功能 说明
see 捕获屏幕/窗口截图,返回带标注的 UI 元素 ID
click / type 模拟点击和键盘输入
move 移动鼠标光标
menu 读取和点击应用菜单
dialog 驱动系统对话框(打开/保存文件等)
image 截图模式,支持 --analyze 调用 AI 分析
agent 自然语言多步自动化(AI 自主决策)
mcp 作为 MCP 服务器运行,供 Claude/Cursor 等使用
run 执行 .peekaboo.json 自动化脚本
dock 操作 Dock 图标(启动、右键、隐藏等)

安装方式

方式一:Homebrew(推荐)

brew tap steipete/tap
brew install peekaboo

方式二:直接下载

GitHub Releases 下载对应版本的二进制文件,目前 macOS 版包名为 peekaboo-macos-universal.tar.gz,同时支持 ARM64 和 x86_64。

方式三:作为 MCP 使用(Node.js)

npx -y @steipete/peekaboo

快速上手

1. 截图并查看 UI 元素

peekaboo see --app Safari

这会捕获 Safari 窗口,返回带有元素 ID 标注的截图,比如 B1T1 这样的标识符,后续操作就靠这些 ID 精确定位。

2. 用 AI 分析截图内容

peekaboo image --app Safari --analyze "总结这个网页的内容"

3. 截图 + AI 分析组合

peekaboo image --app "Safari" --analyze "Summarize this webpage"

4. 执行自动化任务(自然语言模式)

peekaboo agent "打开 Safari,访问 fluxbbs.com,然后在搜索框输入 AI 新闻"

agent 命令会自主规划多步操作,无需手动拆分指令。

5. 模拟点击操作

先截图拿到快照 ID,再执行点击:

SNAPSHOT=$(peekaboo see --app Safari --json | jq -r '.data.snapshot_id')
peekaboo click --on "Reload this page" --snapshot "$SNAPSHOT"

6. 设置文本输入框的值

peekaboo set-value --on T1 --value "hello" --snapshot "$SNAPSHOT"

7. 执行无障碍动作

peekaboo perform-action --on B1 --action AXPress --snapshot "$SNAPSHOT"

配置 AI 分析功能

Peekaboo 截图本身不需要任何配置,但如果要使用 --analyze 功能,需要配置 AI 提供商。

方式一:OpenAI API

peekaboo config add openai
# 按提示输入 API Key

方式二:Ollama 本地模型(免费)

# 先启动 Ollama
ollama serve
# 然后配置 Peekaboo
peekaboo config add ollama

v3.0 已支持 Ollama 视觉模型分析截图。

权限说明

首次运行会要求授权以下 macOS 权限:

  • 屏幕录制(Screen Recording) — 截图功能必需
  • 辅助功能(Accessibility) — 点击、输入操作必需
peekaboo permissions status

MCP 模式 vs CLI 模式

作者 Peter奔驰 在 2.0 版本的博客中解释了为什么转向 CLI 优先:

AI 代理调用 CLI 的能力实际上比调用 MCP 好得多(better at calling CLIs),所以不需要每次都在上下文里加载 MCP,工具可以按需取用。

简单说:

  • CLI 模式:轻量、按需调用、不污染 AI 上下文
  • MCP 模式:适合深度集成到特定 AI 编码环境(Claude Code、Cursor 等)

典型使用场景

  • AI 桌面助手:让 AI 完成「打开某应用 → 操作某功能 → 截图确认」这类需要视觉反馈的工作流
  • 自动化测试:通过自然语言驱动 UI 测试
  • 批量处理:自动执行重复性桌面操作
  • 无障碍辅助:为需要自动化操作的用户提供 AI 控制层

总结

Peekaboo 解决了一个核心问题:AI 不知道屏幕发生了什么,也无法执行桌面操作。通过将 macOS 的 UI 控制能力封装成 CLI,它让任何 AI 代理都能真正「看见」并「操作」你的电脑。

从 v1 的 MCP only,到 v2 的 CLI first,再到 v3.0 的架构升级(引入 Peekaboo Bridge socket host 模型),这个工具在持续快速迭代。如果你对 AI + 桌面自动化感兴趣,Peekaboo 是目前 macOS 上最成熟的解决方案之一。

Peekaboo social preview

相关文章