Mcpdocsearch
什么是文档爬取与MCP搜索服务器?
这是一个智能工具包,能够自动抓取网站文档内容,将其转换为结构化格式,并通过语义搜索技术帮助您快速找到所需信息。它特别适合开发文档、API参考等技术内容的检索。如何使用这个服务?
只需提供目标文档网站的URL,工具会自动抓取内容并建立搜索索引。之后您可以通过自然语言查询来查找相关内容,就像使用智能助手一样简单。适用场景
特别适合需要频繁查阅大型技术文档的开发者、技术支持团队和技术写作者。能显著提高在复杂文档中查找信息的效率。主要功能
智能网页抓取自动遍历网站结构,抓取文档内容,可配置抓取深度和范围
内容智能处理自动清理无关内容(导航栏、页脚等),保留核心文档内容
语义搜索使用AI技术理解查询意图,找到最相关的内容片段,而非简单关键词匹配
Cursor集成无缝集成到Cursor IDE中,开发时可直接查询文档
智能缓存系统自动缓存处理结果,后续使用加载更快
优势与局限性
优势
节省手动查找文档的时间
理解自然语言查询,不依赖精确关键词
可定制抓取范围和深度
自动保持文档更新
支持复杂技术文档的深度检索
局限性
首次处理大型文档集需要较长时间
对JavaScript渲染的重度动态页面支持有限
需要合理配置抓取参数以获得最佳效果
暂不支持图片内容识别
如何使用
安装准备
确保已安装Python和uv工具,克隆项目仓库
抓取文档
运行抓取命令,指定目标文档网站URL
配置Cursor集成
在项目根目录创建.cursor/mcp.json配置文件
开始搜索
在Cursor中使用@doc-query-server命令查询文档内容
使用案例
抓取API文档只抓取网站中的API参考部分
排除特定内容抓取文档但排除博客和示例部分
处理SPA网站抓取JavaScript渲染的单页应用文档
常见问题
为什么首次启动服务器很慢?
如何更新已抓取的文档?
支持哪些类型的网站?
抓取深度设置多少合适?
为什么有些页面内容缺失?
相关资源
项目代码库
源代码和最新更新
Cursor IDE官网
了解如何与Cursor集成
Model Context Protocol
MCP协议官方文档
安装uv工具
项目依赖管理工具
精选MCP服务推荐

Duckduckgo MCP Server
已认证
DuckDuckGo搜索MCP服务器,为Claude等LLM提供网页搜索和内容抓取服务
Python
972
4.3分

Firecrawl MCP Server
Firecrawl MCP Server是一个集成Firecrawl网页抓取能力的模型上下文协议服务器,提供丰富的网页抓取、搜索和内容提取功能。
TypeScript
4.1K
5分

Figma Context MCP
Framelink Figma MCP Server是一个为AI编程工具(如Cursor)提供Figma设计数据访问的服务器,通过简化Figma API响应,帮助AI更准确地实现设计到代码的一键转换。
TypeScript
6.8K
4.5分

Edgeone Pages MCP Server
EdgeOne Pages MCP是一个通过MCP协议快速部署HTML内容到EdgeOne Pages并获取公开URL的服务
TypeScript
324
4.8分

Exa Web Search
已认证
Exa MCP Server是一个为AI助手(如Claude)提供网络搜索功能的服务器,通过Exa AI搜索API实现实时、安全的网络信息获取。
TypeScript
1.9K
5分

Baidu Map
已认证
百度地图MCP Server是国内首个兼容MCP协议的地图服务,提供地理编码、路线规划等10个标准化API接口,支持Python和Typescript快速接入,赋能智能体实现地图相关功能。
Python
821
4.5分

Minimax MCP Server
MiniMax Model Context Protocol (MCP) 是一个官方服务器,支持与强大的文本转语音、视频/图像生成API交互,适用于多种客户端工具如Claude Desktop、Cursor等。
Python
901
4.8分

Context7
Context7 MCP是一个为AI编程助手提供实时、版本特定文档和代码示例的服务,通过Model Context Protocol直接集成到提示中,解决LLM使用过时信息的问题。
TypeScript
5.4K
4.7分
智启未来,您的人工智能解决方案智库
简体中文