入门攻略
MCP提交
探索
Whatsupdoc
WhatsUpDoc (downmarked) 是一个命令行工具,用于通过Model Context Protocol (MCP) 获取并本地存储开发者文档,支持将网页内容转换为Markdown格式,并提供递归抓取、按标题分割文件等功能。
2.5分
2
2025-04-29 08:40:16
概述
内容详情
替代品
什么是WhatsUpDoc?
WhatsUpDoc是一个命令行工具,帮助开发者将在线文档抓取并转换为Markdown格式保存到本地。它使用Model Context Protocol (MCP)进行标准化通信,可以智能地抓取网页内容并转换为易读的文档格式。如何使用WhatsUpDoc?
安装后只需简单命令即可抓取文档:1) 全局安装工具 2) 使用fetch命令指定URL 3) 选择保存位置。工具会自动处理HTML到Markdown的转换。适用场景
适合需要离线阅读文档的开发者、团队内部文档归档、文档内容分析等场景。特别适合React、Python等技术的官方文档抓取。主要功能
文档抓取与转换从任何网站抓取文档内容并转换为Markdown格式
精准内容定位使用CSS选择器精确定位需要抓取的文档内容区域
递归抓取自动跟随链接递归抓取相关文档页面
文档分割按标题将大文档分割为多个小文件,便于管理
优势与局限性
优势
简单易用的命令行界面
支持多种文档网站抓取
保持文档原始结构的同时转换为Markdown
开源且可扩展
局限性
对复杂JavaScript渲染的页面支持有限
需要手动指定CSS选择器才能获得最佳效果
递归抓取可能遇到网站反爬限制
如何使用
安装工具通过npm全局安装或使用npx直接运行
基本抓取使用fetch命令抓取指定URL的文档
指定保存位置使用-o参数指定输出文件路径
高级选项使用选择器、递归抓取等高级功能
使用案例
抓取React文档将React官方文档保存到本地Markdown文件
抓取Python教程抓取Python官方教程并分割为多个文件
精准抓取文档主体只抓取网页main区域的内容
常见问题
1
工具支持哪些网站?理论上支持任何HTML文档网站,但对JavaScript动态渲染的页面支持有限。常见文档网站如React、Python、MDN等都能良好支持。
2
如何确定CSS选择器?可以使用浏览器开发者工具检查文档结构,通常文档主体内容会包含在main、article或特定class的div中。
3
递归抓取会触发网站限制吗?有可能。建议限制递归深度(-d参数),并适当设置延迟。对于重要文档网站,请遵守其robots.txt规定。
4
生成的Markdown格式不理想怎么办?可以尝试调整CSS选择器,或手动编辑生成的Markdown。也欢迎提交issue帮助改进转换规则。
相关资源
Model Context Protocol (MCP)MCP通信框架项目主页
Turndown项目HTML转Markdown工具
Cheerio项目HTML解析工具
npm包页面WhatsUpDoc的npm官方页面
精选MCP服务推荐

Duckduckgo MCP Server
已认证
DuckDuckGo搜索MCP服务器,为Claude等LLM提供网页搜索和内容抓取服务
Python
208
4.3分

Firecrawl MCP Server
Firecrawl MCP Server是一个集成Firecrawl网页抓取能力的模型上下文协议服务器,提供丰富的网页抓取、搜索和内容提取功能。
TypeScript
2,954
5分

Figma Context MCP
Framelink Figma MCP Server是一个为AI编程工具(如Cursor)提供Figma设计数据访问的服务器,通过简化Figma API响应,帮助AI更准确地实现设计到代码的一键转换。
TypeScript
6,098
4.5分

Exa Web Search
已认证
Exa MCP Server是一个为AI助手(如Claude)提供网络搜索功能的服务器,通过Exa AI搜索API实现实时、安全的网络信息获取。
TypeScript
1,426
5分

Edgeone Pages MCP Server
EdgeOne Pages MCP是一个通过MCP协议快速部署HTML内容到EdgeOne Pages并获取公开URL的服务
TypeScript
88
4.8分

Baidu Map
已认证
百度地图MCP Server是国内首个兼容MCP协议的地图服务,提供地理编码、路线规划等10个标准化API接口,支持Python和Typescript快速接入,赋能智能体实现地图相关功能。
Python
322
4.5分

Minimax MCP Server
MiniMax Model Context Protocol (MCP) 是一个官方服务器,支持与强大的文本转语音、视频/图像生成API交互,适用于多种客户端工具如Claude Desktop、Cursor等。
Python
362
4.8分

Context7
Context7 MCP是一个为AI编程助手提供实时、版本特定文档和代码示例的服务,通过Model Context Protocol直接集成到提示中,解决LLM使用过时信息的问题。
TypeScript
4,852
4.7分