10 个浏览器自动化控制方案横评：从 playwright-mcp 到 browser-use，到底该怎么选？

想让 AI 控制浏览器，今天已经不是一件难事。

难的是，方案太多了。

你一搜 GitHub，会同时看到 playwright-mcp、chrome-devtools-mcp、agent-browser、browser-use、stagehand 这些名字。它们看起来都和“浏览器控制”有关，但真正上手后很快会发现，很多项目不是痛一类东西。这篇文章，我把这些方案分别解释，希望能帮助你理清思路，找到适合自己的那个。

10 个方案，至少要分成 3 类

第一类是面向 Agent 的浏览器工具类。这类项目本质上都在做同一件事，就是给 Cursor、Claude Code、Codex 这类 AI 编程工具，或者更通用的 coding agent，提供浏览器自动化能力。区别不在于是不是给 Agent 用，而在于它们是通过 MCP 暴露，还是通过 CLI + skill 暴露。

第二类是内容提取层。这类项目不追求完整自动化，而是更强调复用你已经登录好的浏览器环境，把网页内容直接拿出来。

第三类是Agent 框架层。这类项目解决的问题不再是“怎么点页面”，而是“怎么让浏览器变成 AI Agent 的执行环境”。

1. 面向 Agent 的浏览器工具类

这部分是最容易被混着看的，也是我觉得最值得先讲清楚的。

CLI 和 MCP，本质上是一类问题的两种交付形态

MCP 的优势是标准化。你可以把浏览器能力注册成一个标准工具，接进支持 MCP 的客户端里，形式统一，声明也清晰。

但 MCP 的问题也很直接：它通常更重。浏览器本来就是高状态、高噪音的能力，如果再把整套工具描述一并放进上下文，会暂用较大的上下文容量，获取到的 dom 信息也太多，对 token 不够友好。

CLI 这条路，是随着模型代码能力和 shell 能力变强之后真正兴起的。模型现在已经很会写命令、拼脚本、拆步骤、串流程了，所以很多浏览器能力没必要非做成 MCP 工具。直接让 Agent 调用 CLI，往往更轻，也更省 token。

更重要的是，CLI 往往可以通过 skill 或命令分层按需加载，而不是一开始把所有能力都塞进上下文。这一点在长任务和复杂任务里非常关键。

所以如果没有特别原因，我会更建议优先考虑 agent-browser 这类 CLI 工具。

playwright-mcp

playwright-mcp 是什么？
微软出品的 Playwright MCP Server，属于现在最稳妥的 MCP 浏览器工具之一。

主要特性：

基于 Playwright
支持导航、点击、输入、截图等常见浏览器操作
适合接入 MCP 客户端
结构化能力强，比较适合让 AI 稳定调用

最适合谁：
已经明确要走 MCP 工作流的人。

最大亮点：
它最像 MCP 路线里的默认答案。

注意点：
它是工具层，不是高层 Agent 框架。如果你想一句话让它自己规划很多步，还得往上搭。

chrome-devtools-mcp

chrome-devtools-mcp 是什么？
Chrome DevTools 官方路线，比普通浏览器自动化更偏调试。

主要特性：

能操作页面
能看 console、network、performance
很适合调试型工作流

最适合谁：
前端开发者，或者希望让 AI 在操作网页时顺带读调试信息的人。

最大亮点：
不只是“能点页面”，而是能把 DevTools 视角一起带进来。

注意点：
如果你的需求只是普通浏览器操作，它会比 playwright-mcp 更重一点。

selenium-mcp

selenium-mcp 是什么？
把 Selenium 路线接到 MCP 上的过渡型方案。

主要特性：

对 Selenium / WebDriver 用户更熟悉
更适合已有资产迁移

最适合谁：
已经有 Selenium 体系，不想马上换栈的团队。

最大亮点：
迁移心智成本低。

注意点：
如果是新项目，这条路线的优先级并不高。

agent-browser

agent-browser 是什么？
Vercel Labs 做的浏览器控制 CLI，也是我觉得这批项目里最值得优先看的一个。基于 Rust 语言编写，性能和稳定性都不错。

主要特性：

基于 Playwright
面向 Agent 和终端工作流设计
支持快照、元素定位、点击、填表、截图等完整链路
也支持通过 CDP 方式连接用户的浏览器，更好复用登录态

最适合谁：
想让 Agent 长期、低成本、稳定地调用浏览器能力的人。

最大亮点：
它不是把浏览器功能硬塞进 CLI，而是真的把 CLI 当成 Agent 工作流的一部分来设计。

注意点：
它依然是工具层，不会替你做好任务规划。

playwright-cli

playwright-cli 是什么？
Playwright 的 CLI 形态尝试。活跃度不如 agent-browser，但也有参考价值。

主要特性：

包含 Playwright 功能的 CLI 版本
对理解这条路线怎么演化过来有帮助

注意点：
不是很推荐，官方活跃度低，今天不建议作为新项目选择。

bb-browser

bb-browser 是什么？
把 CLI 使用方式和浏览器自动化揉在一起的尝试型项目。既提供了部分 agent-browser 那样的 CLI 功能，也提供了 opencli 那样的内容提取能力。但是它的成熟度还在提升中，社区活跃度也不算高。

主要特性：

供了部分 agent-browser 那样的 CLI 功能
也提供了 opencli 那样的内容提取能力
更像新工具探索

注意点：
网上相关的讨论和使用案例不多，不适合直接当默认主力。

2. 内容提取类

这类项目很容易被低估。

很多人以为自己需要的是浏览器 Agent，但真实问题常常只是：
我已经在浏览器里登录了，能不能把内容直接拿出来？

opencli

opencli 是什么？
利用本地浏览器环境和登录状态，快速获取网页内容并生成结构化结果。可以理解为，针对热门网站已经定制好了一套“内容提取脚本”，你直接调用就能拿到结构有好的结果。

主要特性：

复用真实浏览器环境
对登录态友好
更适合“取内容”，不是“跑完整自动化流程”

最适合谁：
需要从登录后页面拿资料、拿内容、做结构化整理的人。

最大亮点：
它绕开了最烦人的一层问题：登录、Cookie、会话环境。

注意点：
如果你要的是想要自动化控制浏览器执行多步流程，它不是一个好的选择，但是可以作为一个很好的补充工具。

3. Agent 框架类

这类项目不是“补一个浏览器工具”，而是直接把浏览器放进 AI Agent 的执行链路。需要特别注意的是，这类产品都提供了官方的付费服务，要获得最佳体验，通常需要使用官方的 AI 服务。

browser-use

browser-use 是什么？
当前最火的开源浏览器 Agent 路线之一。

主要特性：

围绕 AI Agent 任务执行设计
适合快速做 Demo 和 PoC
社区热度很高

最适合谁：
想最快搭一个浏览器 Agent 原型的人。

最大亮点：
起步快，资料多，最容易“先跑起来”。

注意点：
如果你追求的是极强的本地可控性，它未必是最优。

stagehand

stagehand 是什么？
把代码可控性和 AI 灵活性结合起来的一层框架。

主要特性：

支持代码和自然语言结合
适合把 AI 步骤嵌进现有自动化流程
更偏长期维护和生产可用性

最适合谁：
想保留工程控制力，又希望利用 AI 提升效率的团队。

最大亮点：
不是把所有事情都交给模型，而是允许你决定边界。

注意点：
它更像框架，不是开箱即用的一把梭工具。

HyperAgent

HyperAgent 是什么？
更偏平台化和产品化思路的浏览器 Agent 方案。

主要特性：

提供更高层的 AI action / extract 接口
本地能力和云能力结合更紧
很明显在往平台方向走

最适合谁：
准备做产品，而不只是写脚本的人。

最大亮点：
API 设计很面向 Agent 产品。

注意点：
更强体验通常会依赖它背后的官方服务。

怎么选，一张表先看懂

项目	类型	最适合谁	上手难度	最大亮点	注意点
playwright-mcp	MCP 工具	已深度使用 MCP 的用户	低	稳妥默认	更偏工具层
chrome-devtools-mcp	MCP 工具	前端调试用户	中	DevTools 能力强	更重
selenium-mcp	MCP 工具	Selenium 老用户	中	迁移友好	新项目优先级低
agent-browser	CLI 工具	想低 token 成本使用浏览器的 Agent 用户	低	更轻、更省 token	需自己编排
playwright-cli	CLI 工具	想了解历史的人	低	历史参考价值	已于 2021-01-29 归档
bb-browser	CLI 工具	愿意尝鲜的人	中	路线有意思	成熟度待观察
opencli	内容提取	需要复用登录态的人	低	登录态友好	不是完整自动化框架
browser-use	Agent 框架	想快速做原型的人	低	起步最快	更偏 Agent 产品路线
stagehand	Agent 框架	想兼顾 AI 与可控性的人	中	框架边界清晰	更像框架
HyperAgent	Agent 框架	想做平台化产品的人	中	面向产品 API	官方服务依赖更强

最后的选型建议

如果你只是想给 Agent 配一个浏览器能力，我的建议很直接：

优先看 CLI，再看 MCP。

所以如果你没有被 MCP 工作流强绑定，默认优先看 agent-browser。

如果你已经深度依赖 MCP 客户端，或者就是想走标准 MCP 路线，那么 playwright-mcp 依然是最稳妥的选择。
如果你还想顺带拿到 console、network、performance 这些调试能力，就看 chrome-devtools-mcp。

如果你要解决的是登录后页面内容提取，而不是完整自动化，别把问题搞重，先看 opencli。
如果你要做的是浏览器 Agent 原型，先看 browser-use。
如果你要做长期维护、边界更清晰的生产工作流，优先看 stagehand。

项目网址：

真诚邀请您走进我的知识小宇宙，关注我个人的公众号，在这里，我将不时为您献上独家原创且极具价值的技术内容分享。每一次推送，都倾注了我对技术领域的独特见解与实战心得，旨在与您共享成长过程中的每一份收获和感悟。您的关注和支持，是我持续提供优质内容的最大动力，让我们在学习的道路上并肩同行，共同进步，一起书写精彩的成长篇章!

10 个浏览器自动化控制方案横评：从 playwright-mcp 到 browser-use，到底该怎么选？

10 个方案，至少要分成 3 类

1. 面向 Agent 的浏览器工具类

CLI 和 MCP，本质上是一类问题的两种交付形态

playwright-mcp

chrome-devtools-mcp

selenium-mcp

agent-browser

playwright-cli

bb-browser

2. 内容提取类

opencli

3. Agent 框架类

browser-use

stagehand

HyperAgent

怎么选，一张表先看懂

最后的选型建议

Further Reading

为了更方便找到心仪的域名，我开发了一个基于 AI 的域名挖掘神器: FastDomainCheck-MCP-Server

写了第二个 MCP-Server：用于生成网页截图的 webshot-mcp

Claude Code 实战指南：从入门到精通

Trending Tags