想让 AI 控制浏览器,今天已经不是一件难事。
难的是,方案太多了。
你一搜 GitHub,会同时看到 playwright-mcp、chrome-devtools-mcp、agent-browser、browser-use、stagehand 这些名字。它们看起来都和“浏览器控制”有关,但真正上手后很快会发现,很多项目不是痛一类东西。这篇文章,我把这些方案分别解释,希望能帮助你理清思路,找到适合自己的那个。
10 个方案,至少要分成 3 类
第一类是面向 Agent 的浏览器工具类。这类项目本质上都在做同一件事,就是给 Cursor、Claude Code、Codex 这类 AI 编程工具,或者更通用的 coding agent,提供浏览器自动化能力。区别不在于是不是给 Agent 用,而在于它们是通过 MCP 暴露,还是通过 CLI + skill 暴露。
第二类是内容提取层。这类项目不追求完整自动化,而是更强调复用你已经登录好的浏览器环境,把网页内容直接拿出来。
第三类是Agent 框架层。这类项目解决的问题不再是“怎么点页面”,而是“怎么让浏览器变成 AI Agent 的执行环境”。
1. 面向 Agent 的浏览器工具类
这部分是最容易被混着看的,也是我觉得最值得先讲清楚的。
CLI 和 MCP,本质上是一类问题的两种交付形态
MCP 的优势是标准化。你可以把浏览器能力注册成一个标准工具,接进支持 MCP 的客户端里,形式统一,声明也清晰。
但 MCP 的问题也很直接:它通常更重。浏览器本来就是高状态、高噪音的能力,如果再把整套工具描述一并放进上下文,会暂用较大的上下文容量,获取到的 dom 信息也太多,对 token 不够友好。
CLI 这条路,是随着模型代码能力和 shell 能力变强之后真正兴起的。模型现在已经很会写命令、拼脚本、拆步骤、串流程了,所以很多浏览器能力没必要非做成 MCP 工具。直接让 Agent 调用 CLI,往往更轻,也更省 token。
更重要的是,CLI 往往可以通过 skill 或命令分层按需加载,而不是一开始把所有能力都塞进上下文。这一点在长任务和复杂任务里非常关键。
所以如果没有特别原因,我会更建议优先考虑 agent-browser 这类 CLI 工具。
playwright-mcp
playwright-mcp 是什么?
微软出品的 Playwright MCP Server,属于现在最稳妥的 MCP 浏览器工具之一。
主要特性:
- 基于 Playwright
- 支持导航、点击、输入、截图等常见浏览器操作
- 适合接入 MCP 客户端
- 结构化能力强,比较适合让 AI 稳定调用
最适合谁:
已经明确要走 MCP 工作流的人。
最大亮点:
它最像 MCP 路线里的默认答案。
注意点:
它是工具层,不是高层 Agent 框架。如果你想一句话让它自己规划很多步,还得往上搭。
chrome-devtools-mcp
chrome-devtools-mcp 是什么?
Chrome DevTools 官方路线,比普通浏览器自动化更偏调试。
主要特性:
- 能操作页面
- 能看 console、network、performance
- 很适合调试型工作流
最适合谁:
前端开发者,或者希望让 AI 在操作网页时顺带读调试信息的人。
最大亮点:
不只是“能点页面”,而是能把 DevTools 视角一起带进来。
注意点:
如果你的需求只是普通浏览器操作,它会比 playwright-mcp 更重一点。
selenium-mcp
selenium-mcp 是什么?
把 Selenium 路线接到 MCP 上的过渡型方案。
主要特性:
- 对 Selenium / WebDriver 用户更熟悉
- 更适合已有资产迁移
最适合谁:
已经有 Selenium 体系,不想马上换栈的团队。
最大亮点:
迁移心智成本低。
注意点:
如果是新项目,这条路线的优先级并不高。
agent-browser
agent-browser 是什么?
Vercel Labs 做的浏览器控制 CLI,也是我觉得这批项目里最值得优先看的一个。基于 Rust 语言编写,性能和稳定性都不错。
主要特性:
- 基于 Playwright
- 面向 Agent 和终端工作流设计
- 支持快照、元素定位、点击、填表、截图等完整链路
- 也支持通过 CDP 方式连接用户的浏览器,更好复用登录态
最适合谁:
想让 Agent 长期、低成本、稳定地调用浏览器能力的人。
最大亮点:
它不是把浏览器功能硬塞进 CLI,而是真的把 CLI 当成 Agent 工作流的一部分来设计。
注意点:
它依然是工具层,不会替你做好任务规划。
playwright-cli
playwright-cli 是什么?
Playwright 的 CLI 形态尝试。活跃度不如 agent-browser,但也有参考价值。
主要特性:
- 包含 Playwright 功能的 CLI 版本
- 对理解这条路线怎么演化过来有帮助
注意点:
不是很推荐,官方活跃度低,今天不建议作为新项目选择。
bb-browser
bb-browser 是什么?
把 CLI 使用方式和浏览器自动化揉在一起的尝试型项目。既提供了部分 agent-browser 那样的 CLI 功能,也提供了 opencli 那样的内容提取能力。但是它的成熟度还在提升中,社区活跃度也不算高。
主要特性:
- 供了部分 agent-browser 那样的 CLI 功能
- 也提供了 opencli 那样的内容提取能力
- 更像新工具探索
注意点:
网上相关的讨论和使用案例不多,不适合直接当默认主力。
2. 内容提取类
这类项目很容易被低估。
很多人以为自己需要的是浏览器 Agent,但真实问题常常只是:
我已经在浏览器里登录了,能不能把内容直接拿出来?
opencli
opencli 是什么?
利用本地浏览器环境和登录状态,快速获取网页内容并生成结构化结果。可以理解为,针对热门网站已经定制好了一套“内容提取脚本”,你直接调用就能拿到结构有好的结果。
主要特性:
- 复用真实浏览器环境
- 对登录态友好
- 更适合“取内容”,不是“跑完整自动化流程”
最适合谁:
需要从登录后页面拿资料、拿内容、做结构化整理的人。
最大亮点:
它绕开了最烦人的一层问题:登录、Cookie、会话环境。
注意点:
如果你要的是想要自动化控制浏览器执行多步流程,它不是一个好的选择,但是可以作为一个很好的补充工具。
3. Agent 框架类
这类项目不是“补一个浏览器工具”,而是直接把浏览器放进 AI Agent 的执行链路。需要特别注意的是,这类产品都提供了官方的付费服务,要获得最佳体验,通常需要使用官方的 AI 服务。
browser-use
browser-use 是什么?
当前最火的开源浏览器 Agent 路线之一。
主要特性:
- 围绕 AI Agent 任务执行设计
- 适合快速做 Demo 和 PoC
- 社区热度很高
最适合谁:
想最快搭一个浏览器 Agent 原型的人。
最大亮点:
起步快,资料多,最容易“先跑起来”。
注意点:
如果你追求的是极强的本地可控性,它未必是最优。
stagehand
stagehand 是什么?
把代码可控性和 AI 灵活性结合起来的一层框架。
主要特性:
- 支持代码和自然语言结合
- 适合把 AI 步骤嵌进现有自动化流程
- 更偏长期维护和生产可用性
最适合谁:
想保留工程控制力,又希望利用 AI 提升效率的团队。
最大亮点:
不是把所有事情都交给模型,而是允许你决定边界。
注意点:
它更像框架,不是开箱即用的一把梭工具。
HyperAgent
HyperAgent 是什么?
更偏平台化和产品化思路的浏览器 Agent 方案。
主要特性:
- 提供更高层的 AI action / extract 接口
- 本地能力和云能力结合更紧
- 很明显在往平台方向走
最适合谁:
准备做产品,而不只是写脚本的人。
最大亮点:
API 设计很面向 Agent 产品。
注意点:
更强体验通常会依赖它背后的官方服务。
怎么选,一张表先看懂
| 项目 | 类型 | 最适合谁 | 上手难度 | 最大亮点 | 注意点 |
|---|---|---|---|---|---|
| playwright-mcp | MCP 工具 | 已深度使用 MCP 的用户 | 低 | 稳妥默认 | 更偏工具层 |
| chrome-devtools-mcp | MCP 工具 | 前端调试用户 | 中 | DevTools 能力强 | 更重 |
| selenium-mcp | MCP 工具 | Selenium 老用户 | 中 | 迁移友好 | 新项目优先级低 |
| agent-browser | CLI 工具 | 想低 token 成本使用浏览器的 Agent 用户 | 低 | 更轻、更省 token | 需自己编排 |
| playwright-cli | CLI 工具 | 想了解历史的人 | 低 | 历史参考价值 | 已于 2021-01-29 归档 |
| bb-browser | CLI 工具 | 愿意尝鲜的人 | 中 | 路线有意思 | 成熟度待观察 |
| opencli | 内容提取 | 需要复用登录态的人 | 低 | 登录态友好 | 不是完整自动化框架 |
| browser-use | Agent 框架 | 想快速做原型的人 | 低 | 起步最快 | 更偏 Agent 产品路线 |
| stagehand | Agent 框架 | 想兼顾 AI 与可控性的人 | 中 | 框架边界清晰 | 更像框架 |
| HyperAgent | Agent 框架 | 想做平台化产品的人 | 中 | 面向产品 API | 官方服务依赖更强 |
最后的选型建议
如果你只是想给 Agent 配一个浏览器能力,我的建议很直接:
优先看 CLI,再看 MCP。
所以如果你没有被 MCP 工作流强绑定,默认优先看 agent-browser。
如果你已经深度依赖 MCP 客户端,或者就是想走标准 MCP 路线,那么 playwright-mcp 依然是最稳妥的选择。
如果你还想顺带拿到 console、network、performance 这些调试能力,就看 chrome-devtools-mcp。
如果你要解决的是登录后页面内容提取,而不是完整自动化,别把问题搞重,先看 opencli。
如果你要做的是浏览器 Agent 原型,先看 browser-use。
如果你要做长期维护、边界更清晰的生产工作流,优先看 stagehand。
项目网址:
- https://github.com/microsoft/playwright-mcp
- https://github.com/ChromeDevTools/chrome-devtools-mcp
- https://github.com/pshivapr/selenium-mcp
- https://github.com/vercel-labs/agent-browser
- https://github.com/microsoft/playwright-cli
- https://github.com/epiral/bb-browser
- https://github.com/jackwener/opencli
- https://github.com/browser-use/browser-use
- https://github.com/browserbase/stagehand
- https://github.com/hyperbrowserai/HyperAgent
