浏览器使用服务器
简介
这是一个用于网页浏览器自动化操作的MCP(Middleware Communication Protocol)服务器。它支持多种功能,包括网页截图、HTML获取、JavaScript执行以及控制台日志获取,并可以通过命令进行多步骤操作。
主要功能
1. 截图
- 参数:
url
:必填项,目标网页的URL。
full
:可选项,默认为false
,若设置为true
则捕获完整页面截图。
steps
:可选项,以逗号分隔的操作步骤或指令。
2. 获取HTML
- 参数:
url
:必填项,目标网页的URL。
steps
:可选项,以逗号分隔的操作步骤或指令。
3. 执行JavaScript
- 参数:
url
:必填项,目标网页的URL。
script
:必填项,需要执行的JavaScript代码。
steps
:可选项,以逗号分隔的操作步骤或指令。
4. 获取控制台日志
- 参数:
url
:必填项,目标网页的URL。
steps
:可选项,以逗号分隔的操作步骤或指令。
安装指南
前置条件
- 安装Xvfb(用于无头浏览器环境):
sudo apt-get install xvfb
- 安装Miniconda 或 Anaconda,并创建Conda环境:
conda create -n browser-use python=3.8
conda activate browser-use
通过Smithy安装
- 克隆仓库:
git clone https://github.com/browser-use/server.git
cd server
- 安装依赖项并构建服务器:
npm install
npm run build
MCP配置
{
"browser-use": {
"llm-providers": [
"glhf",
"ollama",
"groq",
"openai",
"openrouter",
"github",
"deepseek",
"gemini"
],
"vision-support": false,
"use-xvfb": true
}
}
使用说明
服务器运行
npm start
示例用法
示例1:网页元素修改
将页面上的文字颜色改为红色:
browser.use.steps(
"打开浏览器",
"访问网址 http://example.com",
"找到所有段落元素并设置颜色为红色"
)
配置选项
- LLM 提供商:支持多种大型语言模型,具体包括:
glhf
:使用 deepseek-ai/DeepSeek-V3 模型
ollama
:使用 qwen2.5:32b-instruct-q4_K_M 模型,上下文长度为32k
groq
:使用 deepseek-r1-distill-llama-70b 模型
openai
:使用 gpt-4o-mini 模型
openrouter
:使用 deepseek/deepseek-chat 模型
github
:使用 gpt-4o-mini 模型
deepseek
:使用 deepseek-chat 模型
gemini
:使用 gemini-2.0-flash-exp 模型
错误处理
服务器会在控制台输出详细的错误信息,便于排查问题。
调试工具
npm run debug
使用场景
- 网页自动化测试
- 数据抓取与分析
- 动态网页交互操作
- 多步骤任务执行
许可证
MIT License