Anycrawl MCP Server

AnyCrawl MCP Server是一个基于模型上下文协议（MCP）的网页爬取和抓取服务器，支持单页抓取、网站爬取和搜索引擎集成，提供多种输出格式和引擎选择。

研究与数据搜索工具 #网页爬取 #数据抓取 #MCP服务 #搜索引擎 .TypeScript

评分 : 2分

下载量 : 4.4K

更新时间 : 2025-09-25

打开站点

什么是AnyCrawl MCP Server?

AnyCrawl MCP Server是一个专业的网页内容提取工具，专门为AI助手和聊天机器人设计。它能够智能地从网页中提取文本、图片和结构化数据，让AI能够'看到'和理解网页内容。

如何使用AnyCrawl MCP Server?

只需获取API密钥，配置到支持的AI客户端中，即可在对话中直接使用网页抓取功能。支持单页抓取、整站爬取和搜索引擎集成。

适用场景

适用于内容分析、市场调研、竞品分析、学术研究、新闻聚合等需要从网页获取信息的场景。

主要功能

网页抓取

从单个URL提取内容，支持多种输出格式包括Markdown、HTML、文本和截图

整站爬取

自动爬取整个网站，可配置爬取深度和页面数量限制

搜索引擎集成

直接通过搜索引擎查找信息并自动抓取相关网页

多引擎支持

支持Playwright、Cheerio和Puppeteer三种抓取引擎，适应不同网页类型

异步操作

非阻塞的爬取任务，支持状态监控和进度查询

多模式部署

支持STDIO、HTTP和SSE三种通信模式，适应不同客户端需求

优势

简单易用：无需编程知识，直接在AI对话中使用

功能强大：支持复杂网页和动态内容抓取

免费额度：新用户赠送1500次抓取额度

多格式输出：提供AI友好的Markdown格式

可靠稳定：专业的错误处理和重试机制

局限性

需要网络连接：依赖AnyCrawl云服务

有使用限制：受API调用次数限制

技术限制：某些反爬虫网站可能无法抓取

延迟问题：复杂爬取任务需要等待时间

如何使用

获取API密钥

访问anycrawl.dev网站注册账号，在控制台中获取免费的API密钥

配置AI客户端

根据使用的AI客户端（Cursor、Claude等）添加MCP服务器配置

开始使用

在AI对话中直接使用抓取命令，如"请抓取这个网页的内容"

使用案例

新闻内容分析

快速抓取多个新闻网站的最新报道，进行内容对比和分析

产品调研

收集竞品网站的产品信息、价格和用户评价

学术研究

抓取学术论文摘要和研究报告内容

常见问题

需要付费吗？

支持哪些AI客户端？

抓取速度如何？

如何处理JavaScript渲染的网页？

有抓取限制吗？

🚀 AnyCrawl MCP Server

🚀 AnyCrawl MCP Server 是一款强大的网页抓取和爬取工具，它通过模型上下文协议（MCP）为 Cursor、Claude 等大语言模型（LLM）客户端提供支持。

🚀 快速开始

AnyCrawl MCP Server 可助力你高效地进行网页抓取和爬取工作。以下是使用前的准备步骤：

获取 API 密钥：访问 AnyCrawl 网站，注册或登录账号。注册后可免费获得 1500 个积分，足以爬取近 1500 个页面。打开仪表盘，点击 “API Keys”，复制你的密钥。
设置环境变量：将获取的 API 密钥设置为 ANYCRAWL_API_KEY 环境变量。示例：export ANYCRAWL_API_KEY="your-api-key-here"。
选择安装方式：你可以选择使用 npx 运行，或者手动安装。

✨ 主要特性

网页抓取：从单个 URL 提取内容，支持多种输出格式。
网站爬取：可对整个网站进行爬取，支持配置爬取深度和限制。
搜索引擎集成：支持在网络上搜索，并可选择对搜索结果进行抓取。
多引擎支持：支持 Playwright、Cheerio 和 Puppeteer 等多种抓取引擎。
灵活输出：支持 Markdown、HTML、文本、截图和结构化 JSON 等多种输出格式。
异步操作：支持非阻塞式爬取任务，并可进行状态监控。
错误处理：具备强大的错误处理和日志记录功能。
多模式支持：支持 STDIO（默认）、MCP(HTTP)、SSE 等模式，可通过 Nginx 代理实现云端部署。

📦 安装指南

使用 npx 运行

ANYCRAWL_API_KEY=YOUR-API-KEY npx -y anycrawl-mcp

手动安装

npm install -g anycrawl-mcp-server

ANYCRAWL_API_KEY=YOUR-API-KEY anycrawl-mcp

配置环境变量

设置必需的环境变量：

export ANYCRAWL_API_KEY="your-api-key-here"

可选设置自定义基础 URL：

export ANYCRAWL_BASE_URL="https://api.anycrawl.dev"  # 默认值

💻 使用示例

可用模式

AnyCrawl MCP Server 支持以下部署模式，默认模式为 STDIO（无需设置环境变量），可通过设置 ANYCRAWL_MODE 进行切换。

模式	描述	适用场景	传输方式
`STDIO`	通过标准输入输出实现标准 MCP（默认）	命令型 MCP 客户端、本地工具	标准输入输出
`MCP`	可流式传输的 HTTP（JSON，有状态）	Cursor（可流式传输的 HTTP）、API 集成	HTTP + JSON
`SSE`	服务器发送事件	网页应用、浏览器集成	HTTP + SSE

快速启动命令

# 开发环境（本地）
npm run dev            # STDIO（默认）
npm run dev:mcp          # MCP 模式（JSON /mcp）
npm run dev:sse          # SSE 模式 (/sse)

# 生产环境（构建输出）
npm start              # STDIO（默认）
npm run start:mcp
npm run start:sse

# 环境变量示例
ANYCRAWL_MODE=MCP ANYCRAWL_API_KEY=YOUR-KEY npm run dev:mcp
ANYCRAWL_MODE=SSE ANYCRAWL_API_KEY=YOUR-KEY npm run dev:sse

Docker Compose（MCP + SSE 搭配 Nginx）

本仓库提供了一个生产就绪的镜像，可在同一容器中通过 Nginx 前端在端口 3000 运行 MCP（JSON），在端口 3001 运行 SSE。Nginx 还支持以 API 密钥为前缀的路径 /{API_KEY}/mcp 和 /{API_KEY}/sse，并通过 x-anycrawl-api-key 头转发密钥。

docker compose build
docker compose up -d

Docker 镜像中使用的环境变量：

ANYCRAWL_MODE: MCP_AND_SSE（Compose 中的默认值），或 MCP、SSE
ANYCRAWL_MCP_PORT: 默认值为 3000
ANYCRAWL_SSE_PORT: 默认值为 3001
CLOUD_SERVICE: 设置为 true 可从 /{API_KEY}/... 或头信息中提取 API 密钥
ANYCRAWL_BASE_URL: 默认值为 https://api.anycrawl.dev

在 Cursor 上运行

配置 Cursor（需要 Cursor v0.45.6+ 版本）。

对于 Cursor v0.48.6 及更高版本，将以下内容添加到 MCP Servers 设置中：

{
  "mcpServers": {
    "anycrawl-mcp": {
      "command": "npx",
      "args": ["-y", "anycrawl-mcp"],
      "env": {
        "ANYCRAWL_API_KEY": "YOUR-API-KEY"
      }
    }
  }
}

对于 Cursor v0.45.6 版本：

打开 Cursor 设置 → 功能 → MCP Servers → "+ 添加新的 MCP 服务器"
名称："anycrawl-mcp"（或你喜欢的名称）
类型："命令"
命令：

env ANYCRAWL_API_KEY=YOUR-API-KEY npx -y anycrawl-mcp

在 Windows 系统上遇到问题时：

cmd /c "set ANYCRAWL_API_KEY=YOUR-API-KEY && npx -y anycrawl-mcp"

在 VS Code 上运行

手动安装时，将以下 JSON 添加到 VS Code 的用户设置（JSON）中（命令面板 → 首选项：打开用户设置（JSON））：

{
  "mcp": {
    "inputs": [
      {
        "type": "promptString",
        "id": "apiKey",
        "description": "AnyCrawl API 密钥",
        "password": true
      }
    ],
    "servers": {
      "anycrawl": {
        "command": "npx",
        "args": ["-y", "anycrawl-mcp"],
        "env": {
          "ANYCRAWL_API_KEY": "${input:apiKey}"
        }
      }
    }
  }
}

可选地，将以下内容放置在工作区的 .vscode/mcp.json 中以共享配置：

{
  "inputs": [
    {
      "type": "promptString",
      "id": "apiKey",
      "description": "AnyCrawl API 密钥",
      "password": true
    }
  ],
  "servers": {
    "anycrawl": {
      "command": "npx",
      "args": ["-y", "anycrawl-mcp"],
      "env": {
        "ANYCRAWL_API_KEY": "${input:apiKey}"
      }
    }
  }
}

在 Windsurf 上运行

将以下内容添加到 ./codeium/windsurf/model_config.json 中：

{
  "mcpServers": {
    "mcp-server-anycrawl": {
      "command": "npx",
      "args": ["-y", "anycrawl-mcp"],
      "env": {
        "ANYCRAWL_API_KEY": "YOUR_API_KEY"
      }
    }
  }
}

使用 SSE 服务器模式

SSE（服务器发送事件）模式为 MCP 通信提供了基于 Web 的界面，适用于网页应用、测试以及与基于 Web 的 LLM 客户端集成。

快速启动

# 开发模式
ANYCRAWL_API_KEY=YOUR-API-KEY npx -y anycrawl-mcp

# 或使用 npm 脚本
ANYCRAWL_API_KEY=YOUR-API-KEY npm run dev:sse

服务器配置

可选的服务器设置（显示默认值）：

export ANYCRAWL_PORT=3000
export ANYCRAWL_HOST=0.0.0.0

健康检查

curl -s http://localhost:${ANYCRAWL_PORT:-3000}/health
# 响应：ok

通用 MCP/SSE 客户端配置

对于支持 SSE 传输的其他 MCP/SSE 客户端，使用以下配置：

{
  "mcpServers": {
    "anycrawl": {
      "type": "sse",
      "url": "https://mcp.anycrawl.dev/{API_KEY}/sse",
      "name": "AnyCrawl MCP 服务器",
      "description": "网页抓取和爬取工具"
    }
  }
}

或

{
  "mcpServers": {
    "AnyCrawl": {
      "type": "streamable_http",
      "url": "https://mcp.anycrawl.dev/{API_KEY}/mcp"
    }
  }
}

环境设置：

# 使用 API 密钥启动 SSE 服务器
ANYCRAWL_API_KEY=your-api-key-here npm run dev:sse

Cursor 配置（HTTP 模式，可流式传输的 HTTP）

配置 Cursor 以连接到你的 HTTP MCP 服务器。

本地 HTTP 可流式传输服务器：

{
  "mcpServers": {
    "anycrawl-http-local": {
      "type": "streamable_http",
      "url": "http://127.0.0.1:3000/mcp"
    }
  }
}

云端 HTTP 可流式传输服务器：

{
  "mcpServers": {
    "anycrawl-http-cloud": {
      "type": "streamable_http",
      "url": "https://mcp.anycrawl.dev/{API_KEY}/mcp"
    }
  }
}

注意：对于 HTTP 模式，需在服务器进程环境或 URL 中设置 ANYCRAWL_API_KEY（以及可选的主机/端口）。使用 streamable_http 时，Cursor 不需要你的 API 密钥。

可用工具

1. 抓取工具 (`anycrawl_scrape`)

从单个 URL 抓取内容并以多种格式提取。

适用场景：

从单个页面提取内容
快速数据提取
测试特定 URL

参数：

url（必需）：要抓取的 URL
engine（必需）：抓取引擎（playwright、cheerio、puppeteer）
formats（可选）：输出格式（markdown、html、text、screenshot、screenshot@fullPage、rawHtml、json）
proxy（可选）：代理 URL
timeout（可选）：超时时间（毫秒，默认值：300000）
retry（可选）：失败时是否重试（默认值：false）
wait_for（可选）：页面加载等待时间
include_tags（可选）：要包含的 HTML 标签
exclude_tags（可选）：要排除的 HTML 标签
json_options（可选）：JSON 提取选项

示例：

{
  "name": "anycrawl_scrape",
  "arguments": {
    "url": "https://example.com",
    "engine": "cheerio",
    "formats": ["markdown", "html"],
    "timeout": 30000
  }
}

2. 爬取工具 (`anycrawl_crawl`)

启动爬取任务以从网站抓取多个页面。默认情况下，使用 SDK 的 client.crawl 等待任务完成并返回聚合结果（默认：每 3 秒轮询一次，60 秒后超时）。

适用场景：

从多个相关页面提取内容
全面的网站分析
批量数据收集

参数：

url（必需）：要爬取的基础 URL
engine（必需）：抓取引擎
max_depth（可选）：最大爬取深度（默认值：10）
limit（可选）：最大页面数（默认值：100）
strategy（可选）：爬取策略（all、same-domain、same-hostname、same-origin）
exclude_paths（可选）：要排除的 URL 模式
include_paths（可选）：要包含的 URL 模式
scrape_options（可选）：单个页面抓取选项
poll_seconds（可选）：等待时的轮询间隔秒数（默认值：3）
timeout_ms（可选）：等待的总超时毫秒数（默认值：60000）

示例：

{
  "name": "anycrawl_crawl",
  "arguments": {
    "url": "https://example.com/blog",
    "engine": "playwright",
    "max_depth": 2,
    "limit": 50,
    "strategy": "same-domain",
    "poll_seconds": 3,
    "timeout_ms": 60000
  }
}

返回结果：{ "job_id": "...", "status": "completed", "total": N, "completed": N, "creditsUsed": N, "data": [...] }。

3. 爬取状态工具 (`anycrawl_crawl_status`)

检查爬取任务的状态。

参数：

job_id（必需）：爬取任务 ID

示例：

{
  "name": "anycrawl_crawl_status",
  "arguments": {
    "job_id": "7a2e165d-8f81-4be6-9ef7-23222330a396"
  }
}

4. 爬取结果工具 (`anycrawl_crawl_results`)

获取爬取任务的结果。

参数：

job_id（必需）：爬取任务 ID
skip（可选）：要跳过的结果数（用于分页）

示例：

{
  "name": "anycrawl_crawl_results",
  "arguments": {
    "job_id": "7a2e165d-8f81-4be6-9ef7-23222330a396",
    "skip": 0
  }
}

5. 取消爬取工具 (`anycrawl_cancel_crawl`)

取消待处理的爬取任务。

参数：

job_id（必需）：要取消的爬取任务 ID

示例：

{
  "name": "anycrawl_cancel_crawl",
  "arguments": {
    "job_id": "7a2e165d-8f81-4be6-9ef7-23222330a396"
  }
}

6. 搜索工具 (`anycrawl_search`)

使用 AnyCrawl 搜索引擎在网络上搜索。

适用场景：

在多个网站上查找特定信息
研究和发现
不确定信息所在网站时使用

参数：

query（必需）：搜索查询
engine（可选）：搜索引擎（google）
limit（可选）：最大结果数（默认值：10）
offset（可选）：要跳过的结果数（默认值：0）
pages（可选）：要搜索的页面数
lang（可选）：语言代码
country（可选）：国家代码
scrape_options（必需）：搜索结果抓取选项
safeSearch（可选）：安全搜索级别（0=关闭，1=中等，2=严格）

示例：

{
  "name": "anycrawl_search",
  "arguments": {
    "query": "latest AI research papers 2024",
    "engine": "google",
    "limit": 5,
    "scrape_options": {
      "engine": "cheerio",
      "formats": ["markdown"]
    }
  }
}

📚 详细文档

输出格式

Markdown：干净、结构化的 Markdown 内容，非常适合 LLM 处理。
HTML：保留所有格式的原始 HTML 内容。
文本：格式最少的纯文本内容。
截图：页面的视觉截图。
Screenshot@fullPage：包含折叠下方内容的全页截图。
原始 HTML：未处理的 HTML 内容。
JSON：使用自定义模式进行结构化数据提取。

引擎

Cheerio

快速轻量级
适用于静态内容
服务器端渲染

Playwright

全浏览器自动化
JavaScript 渲染
最适合动态内容

Puppeteer

Chrome/Chromium 自动化
功能和性能的良好平衡

🔧 技术细节

错误处理

服务器提供全面的错误处理：

验证错误：无效参数或缺少必需字段
API 错误：AnyCrawl API 错误，带有详细消息
网络错误：连接和超时问题
速率限制：自动重试并进行退避

日志记录

服务器包含详细的日志记录：

调试：详细的操作信息
信息：一般操作状态
警告：非关键问题
错误：关键错误和失败

可通过环境变量设置日志级别：

export LOG_LEVEL=debug  # debug, info, warn, error

开发

前提条件

Node.js 18+
npm

设置

git clone <repository>
cd anycrawl-mcp
npm ci

构建

npm run build

测试

npm test

代码检查

npm run lint

格式化

npm run format

📄 许可证

本项目采用 MIT 许可证，详情请参阅 LICENSE 文件。

支持

GitHub 问题：报告错误或请求功能
文档：AnyCrawl API 文档
邮箱：help@anycrawl.dev

关于 AnyCrawl

AnyCrawl 是一个强大的 Node.js/TypeScript 爬虫，可将网站转换为适合 LLM 的数据，并从 Google、Bing、百度等搜索引擎提取结构化的搜索结果页面（SERP）数据。它具有原生多线程处理功能，支持多种输出格式。

网站：https://anycrawl.dev
GitHub：https://github.com/any4ai/anycrawl
API：https://api.anycrawl.dev

Figma Context MCP

Framelink Figma MCP Server是一个为AI编程工具（如Cursor）提供Figma设计数据访问的服务器，通过简化Figma API响应，帮助AI更准确地实现设计到代码的一键转换。

TypeScript

68.5K

4.5分

Duckduckgo MCP Server

已认证

DuckDuckGo搜索MCP服务器，为Claude等LLM提供网页搜索和内容抓取服务

Firecrawl MCP Server是一个集成Firecrawl网页抓取能力的模型上下文协议服务器，提供丰富的网页抓取、搜索和内容提取功能。

TypeScript

132.8K

5分

Edgeone Pages MCP Server

EdgeOne Pages MCP是一个通过MCP协议快速部署HTML内容到EdgeOne Pages并获取公开URL的服务

Exa MCP Server是一个为AI助手（如Claude）提供网络搜索功能的服务器，通过Exa AI搜索API实现实时、安全的网络信息获取。

Context7 MCP是一个为AI编程助手提供实时、版本特定文档和代码示例的服务，通过Model Context Protocol直接集成到提示中，解决LLM使用过时信息的问题。

百度地图MCP Server是国内首个兼容MCP协议的地图服务，提供地理编码、路线规划等10个标准化API接口，支持Python和Typescript快速接入，赋能智能体实现地图相关功能。

MiniMax Model Context Protocol (MCP) 是一个官方服务器，支持与强大的文本转语音、视频/图像生成API交互，适用于多种客户端工具如Claude Desktop、Cursor等。

智启未来，您的人工智能解决方案智库

Anycrawl MCP Server

概述

安装

工具列表

内容详情

替代品

什么是AnyCrawl MCP Server?

如何使用AnyCrawl MCP Server?

适用场景

主要功能

如何使用

使用案例

常见问题

相关资源

安装

🚀 AnyCrawl MCP Server

🚀 快速开始

✨ 主要特性

📦 安装指南

使用 npx 运行

手动安装

配置环境变量

💻 使用示例

可用模式

快速启动命令

Docker Compose（MCP + SSE 搭配 Nginx）

在 Cursor 上运行

在 VS Code 上运行

在 Windsurf 上运行

使用 SSE 服务器模式

快速启动

服务器配置

健康检查

通用 MCP/SSE 客户端配置

Cursor 配置（HTTP 模式，可流式传输的 HTTP）

可用工具

1. 抓取工具 (anycrawl_scrape)

2. 爬取工具 (anycrawl_crawl)

3. 爬取状态工具 (anycrawl_crawl_status)

4. 爬取结果工具 (anycrawl_crawl_results)

5. 取消爬取工具 (anycrawl_cancel_crawl)

6. 搜索工具 (anycrawl_search)

📚 详细文档

输出格式

引擎

Cheerio

Playwright

Puppeteer

🔧 技术细节

错误处理

日志记录

开发

前提条件

设置

构建

测试

代码检查

格式化

📄 许可证

支持

关于 AnyCrawl

替代品

1. 抓取工具 (`anycrawl_scrape`)

2. 爬取工具 (`anycrawl_crawl`)

3. 爬取状态工具 (`anycrawl_crawl_status`)

4. 爬取结果工具 (`anycrawl_crawl_results`)

5. 取消爬取工具 (`anycrawl_cancel_crawl`)

6. 搜索工具 (`anycrawl_search`)