Posts 10 个浏览器自动化控制方案横评:从 playwright-mcp 到 browser-use,到底该怎么选?
Post
Cancel

10 个浏览器自动化控制方案横评:从 playwright-mcp 到 browser-use,到底该怎么选?

想让 AI 控制浏览器,今天已经不是一件难事。

难的是,方案太多了。

你一搜 GitHub,会同时看到 playwright-mcpchrome-devtools-mcpagent-browserbrowser-usestagehand 这些名字。它们看起来都和“浏览器控制”有关,但真正上手后很快会发现,很多项目不是痛一类东西。这篇文章,我把这些方案分别解释,希望能帮助你理清思路,找到适合自己的那个。

10 个方案,至少要分成 3 类

第一类是面向 Agent 的浏览器工具类。这类项目本质上都在做同一件事,就是给 Cursor、Claude Code、Codex 这类 AI 编程工具,或者更通用的 coding agent,提供浏览器自动化能力。区别不在于是不是给 Agent 用,而在于它们是通过 MCP 暴露,还是通过 CLI + skill 暴露。

第二类是内容提取层。这类项目不追求完整自动化,而是更强调复用你已经登录好的浏览器环境,把网页内容直接拿出来。

第三类是Agent 框架层。这类项目解决的问题不再是“怎么点页面”,而是“怎么让浏览器变成 AI Agent 的执行环境”。

1. 面向 Agent 的浏览器工具类

这部分是最容易被混着看的,也是我觉得最值得先讲清楚的。

CLI 和 MCP,本质上是一类问题的两种交付形态

MCP 的优势是标准化。你可以把浏览器能力注册成一个标准工具,接进支持 MCP 的客户端里,形式统一,声明也清晰。

但 MCP 的问题也很直接:它通常更重。浏览器本来就是高状态、高噪音的能力,如果再把整套工具描述一并放进上下文,会暂用较大的上下文容量,获取到的 dom 信息也太多,对 token 不够友好。

CLI 这条路,是随着模型代码能力和 shell 能力变强之后真正兴起的。模型现在已经很会写命令、拼脚本、拆步骤、串流程了,所以很多浏览器能力没必要非做成 MCP 工具。直接让 Agent 调用 CLI,往往更轻,也更省 token。

更重要的是,CLI 往往可以通过 skill 或命令分层按需加载,而不是一开始把所有能力都塞进上下文。这一点在长任务和复杂任务里非常关键。

所以如果没有特别原因,我会更建议优先考虑 agent-browser 这类 CLI 工具

playwright-mcp

playwright-mcp 是什么?
微软出品的 Playwright MCP Server,属于现在最稳妥的 MCP 浏览器工具之一。

主要特性:

  • 基于 Playwright
  • 支持导航、点击、输入、截图等常见浏览器操作
  • 适合接入 MCP 客户端
  • 结构化能力强,比较适合让 AI 稳定调用

最适合谁:
已经明确要走 MCP 工作流的人。

最大亮点:
它最像 MCP 路线里的默认答案。

注意点:
它是工具层,不是高层 Agent 框架。如果你想一句话让它自己规划很多步,还得往上搭。

chrome-devtools-mcp

chrome-devtools-mcp 是什么?
Chrome DevTools 官方路线,比普通浏览器自动化更偏调试。

主要特性:

  • 能操作页面
  • 能看 console、network、performance
  • 很适合调试型工作流

最适合谁:
前端开发者,或者希望让 AI 在操作网页时顺带读调试信息的人。

最大亮点:
不只是“能点页面”,而是能把 DevTools 视角一起带进来。

注意点:
如果你的需求只是普通浏览器操作,它会比 playwright-mcp 更重一点。

selenium-mcp

selenium-mcp 是什么?
把 Selenium 路线接到 MCP 上的过渡型方案。

主要特性:

  • 对 Selenium / WebDriver 用户更熟悉
  • 更适合已有资产迁移

最适合谁:
已经有 Selenium 体系,不想马上换栈的团队。

最大亮点:
迁移心智成本低。

注意点:
如果是新项目,这条路线的优先级并不高。

agent-browser

agent-browser 是什么?
Vercel Labs 做的浏览器控制 CLI,也是我觉得这批项目里最值得优先看的一个。基于 Rust 语言编写,性能和稳定性都不错。

主要特性:

  • 基于 Playwright
  • 面向 Agent 和终端工作流设计
  • 支持快照、元素定位、点击、填表、截图等完整链路
  • 也支持通过 CDP 方式连接用户的浏览器,更好复用登录态

最适合谁:
想让 Agent 长期、低成本、稳定地调用浏览器能力的人。

最大亮点:
它不是把浏览器功能硬塞进 CLI,而是真的把 CLI 当成 Agent 工作流的一部分来设计。

注意点:
它依然是工具层,不会替你做好任务规划。

playwright-cli

playwright-cli 是什么?
Playwright 的 CLI 形态尝试。活跃度不如 agent-browser,但也有参考价值。

主要特性:

  • 包含 Playwright 功能的 CLI 版本
  • 对理解这条路线怎么演化过来有帮助

注意点:
不是很推荐,官方活跃度低,今天不建议作为新项目选择。

bb-browser

bb-browser 是什么?
把 CLI 使用方式和浏览器自动化揉在一起的尝试型项目。既提供了部分 agent-browser 那样的 CLI 功能,也提供了 opencli 那样的内容提取能力。但是它的成熟度还在提升中,社区活跃度也不算高。

主要特性:

  • 供了部分 agent-browser 那样的 CLI 功能
  • 也提供了 opencli 那样的内容提取能力
  • 更像新工具探索

注意点:
网上相关的讨论和使用案例不多,不适合直接当默认主力。

2. 内容提取类

这类项目很容易被低估。

很多人以为自己需要的是浏览器 Agent,但真实问题常常只是:
我已经在浏览器里登录了,能不能把内容直接拿出来?

opencli

opencli 是什么?
利用本地浏览器环境和登录状态,快速获取网页内容并生成结构化结果。可以理解为,针对热门网站已经定制好了一套“内容提取脚本”,你直接调用就能拿到结构有好的结果。

主要特性:

  • 复用真实浏览器环境
  • 对登录态友好
  • 更适合“取内容”,不是“跑完整自动化流程”

最适合谁:
需要从登录后页面拿资料、拿内容、做结构化整理的人。

最大亮点:
它绕开了最烦人的一层问题:登录、Cookie、会话环境。

注意点:
如果你要的是想要自动化控制浏览器执行多步流程,它不是一个好的选择,但是可以作为一个很好的补充工具。

3. Agent 框架类

这类项目不是“补一个浏览器工具”,而是直接把浏览器放进 AI Agent 的执行链路。需要特别注意的是,这类产品都提供了官方的付费服务,要获得最佳体验,通常需要使用官方的 AI 服务。

browser-use

browser-use 是什么?
当前最火的开源浏览器 Agent 路线之一。

主要特性:

  • 围绕 AI Agent 任务执行设计
  • 适合快速做 Demo 和 PoC
  • 社区热度很高

最适合谁:
想最快搭一个浏览器 Agent 原型的人。

最大亮点:
起步快,资料多,最容易“先跑起来”。

注意点:
如果你追求的是极强的本地可控性,它未必是最优。

stagehand

stagehand 是什么?
把代码可控性和 AI 灵活性结合起来的一层框架。

主要特性:

  • 支持代码和自然语言结合
  • 适合把 AI 步骤嵌进现有自动化流程
  • 更偏长期维护和生产可用性

最适合谁:
想保留工程控制力,又希望利用 AI 提升效率的团队。

最大亮点:
不是把所有事情都交给模型,而是允许你决定边界。

注意点:
它更像框架,不是开箱即用的一把梭工具。

HyperAgent

HyperAgent 是什么?
更偏平台化和产品化思路的浏览器 Agent 方案。

主要特性:

  • 提供更高层的 AI action / extract 接口
  • 本地能力和云能力结合更紧
  • 很明显在往平台方向走

最适合谁:
准备做产品,而不只是写脚本的人。

最大亮点:
API 设计很面向 Agent 产品。

注意点:
更强体验通常会依赖它背后的官方服务。

怎么选,一张表先看懂

项目类型最适合谁上手难度最大亮点注意点
playwright-mcpMCP 工具已深度使用 MCP 的用户稳妥默认更偏工具层
chrome-devtools-mcpMCP 工具前端调试用户DevTools 能力强更重
selenium-mcpMCP 工具Selenium 老用户迁移友好新项目优先级低
agent-browserCLI 工具想低 token 成本使用浏览器的 Agent 用户更轻、更省 token需自己编排
playwright-cliCLI 工具想了解历史的人历史参考价值已于 2021-01-29 归档
bb-browserCLI 工具愿意尝鲜的人路线有意思成熟度待观察
opencli内容提取需要复用登录态的人登录态友好不是完整自动化框架
browser-useAgent 框架想快速做原型的人起步最快更偏 Agent 产品路线
stagehandAgent 框架想兼顾 AI 与可控性的人框架边界清晰更像框架
HyperAgentAgent 框架想做平台化产品的人面向产品 API官方服务依赖更强

最后的选型建议

如果你只是想给 Agent 配一个浏览器能力,我的建议很直接:

优先看 CLI,再看 MCP

所以如果你没有被 MCP 工作流强绑定,默认优先看 agent-browser

如果你已经深度依赖 MCP 客户端,或者就是想走标准 MCP 路线,那么 playwright-mcp 依然是最稳妥的选择。
如果你还想顺带拿到 console、network、performance 这些调试能力,就看 chrome-devtools-mcp

如果你要解决的是登录后页面内容提取,而不是完整自动化,别把问题搞重,先看 opencli
如果你要做的是浏览器 Agent 原型,先看 browser-use
如果你要做长期维护、边界更清晰的生产工作流,优先看 stagehand

项目网址:


真诚邀请您走进我的知识小宇宙,关注我个人的公众号,在这里,我将不时为您献上独家原创且极具价值的技术内容分享。每一次推送,都倾注了我对技术领域的独特见解与实战心得,旨在与您共享成长过程中的每一份收获和感悟。您的关注和支持,是我持续提供优质内容的最大动力,让我们在学习的道路上并肩同行,共同进步,一起书写精彩的成长篇章!

This post is licensed under CC BY 4.0 by the author.

4 个高性能开源终端:Ghostty、WezTerm、Kaku、cmux 到底该怎么选

-

Trending Tags