探索
Website To Markdown Converter

Website To Markdown Converter

一个用于网页抓取和HTML转Markdown的命令行工具及MCP服务
2.5分
4
2025-04-28 10:57:41
概述
工具列表
内容详情
替代品

什么是网站抓取与HTML转Markdown MCP服务器?

这款MCP服务器通过Mozilla的Readability引擎提取网页的核心内容,并将其转换为易于阅读的Markdown格式,支持安全处理HTML,同时兼容本地HTML文件的转换。

如何使用该服务器?

您可以通过命令行直接抓取网页或将本地HTML文件转换为Markdown。此外,它还支持作为MCP服务器运行以实现更复杂的交互。

适用场景

适合需要快速获取网页核心内容、生成Markdown文档的用户,例如博客作者、内容整理者或开发者。

主要功能

网页抓取与内容提取利用Mozilla Readability引擎提取网页中的核心内容,忽略广告和其他干扰信息。
HTML到Markdown转换使用TurndownService将清理后的HTML转换为高可用的Markdown格式。
安全性保障自动移除潜在有害的脚本标签,确保数据安全。
多模式支持既可作为命令行工具使用,也可作为MCP服务器运行。

优势与局限性

优势
高效提取网页核心内容
支持多种输入方式(URL或本地文件)
高安全性保障
开源且灵活易用
局限性
对复杂页面可能需要人工调整
依赖网络连接进行网页抓取

如何使用

安装服务器首先确保已安装Node.js环境,然后运行以下命令安装工具: ```bash npm install -g . ```
启动MCP服务器运行以下命令启动服务器: ```bash npm start ```
执行抓取任务通过命令行抓取网页并保存为Markdown文件: ```bash scrape https://example.com output.md ```

使用案例

案例1:抓取网页内容抓取一个新闻网站的内容并保存为Markdown文件。
案例2:本地HTML文件转换将本地HTML文件转换为Markdown文件。

常见问题

1
如何安装该工具?首先确保已安装Node.js环境,然后运行以下命令安装工具: ```bash npm install -g . ```
2
是否支持本地HTML文件转换?是的,您可以使用`--html-file`选项将本地HTML文件转换为Markdown文件。
3
如何启动MCP服务器?运行以下命令即可启动服务器: ```bash npm start ```

相关资源

项目GitHub仓库访问项目源码和文档。
Mozilla Readability引擎了解更多关于Readability引擎的信息。
TurndownService官网了解Markdown转换工具的工作原理。
精选MCP服务推荐
Duckduckgo MCP Server
已认证
DuckDuckGo搜索MCP服务器,为Claude等LLM提供网页搜索和内容抓取服务
Python
208
4.3分
Firecrawl MCP Server
Firecrawl MCP Server是一个集成Firecrawl网页抓取能力的模型上下文协议服务器,提供丰富的网页抓取、搜索和内容提取功能。
TypeScript
2,954
5分
Figma Context MCP
Framelink Figma MCP Server是一个为AI编程工具(如Cursor)提供Figma设计数据访问的服务器,通过简化Figma API响应,帮助AI更准确地实现设计到代码的一键转换。
TypeScript
6,099
4.5分
Exa Web Search
已认证
Exa MCP Server是一个为AI助手(如Claude)提供网络搜索功能的服务器,通过Exa AI搜索API实现实时、安全的网络信息获取。
TypeScript
1,426
5分
Edgeone Pages MCP Server
EdgeOne Pages MCP是一个通过MCP协议快速部署HTML内容到EdgeOne Pages并获取公开URL的服务
TypeScript
88
4.8分
Minimax MCP Server
MiniMax Model Context Protocol (MCP) 是一个官方服务器,支持与强大的文本转语音、视频/图像生成API交互,适用于多种客户端工具如Claude Desktop、Cursor等。
Python
362
4.8分
Context7
Context7 MCP是一个为AI编程助手提供实时、版本特定文档和代码示例的服务,通过Model Context Protocol直接集成到提示中,解决LLM使用过时信息的问题。
TypeScript
4,852
4.7分
Baidu Map
已认证
百度地图MCP Server是国内首个兼容MCP协议的地图服务,提供地理编码、路线规划等10个标准化API接口,支持Python和Typescript快速接入,赋能智能体实现地图相关功能。
Python
323
4.5分
安装
复制以下命令到你的Client进行配置
注意:您的密钥属于敏感信息,请勿与任何人分享。