探索
MCP Web Extractor

MCP Web Extractor

一个基于Readability.js的网页内容提取工具,通过MCP协议服务提供网页正文内容的纯净提取,去除广告等干扰元素,支持与Obsidian笔记软件集成。
2分
0
2025-04-29 02:15:26
概述
工具列表
内容详情
替代品

什么是MCP Web Extractor?

MCP Web Extractor是一个服务器工具,它能从任何网页中智能提取文章的主要内容,去除广告、侧边栏等干扰元素,保留干净的文本内容。特别适合需要保存网页文章到笔记软件(如Obsidian)的用户。

如何使用MCP Web Extractor?

您可以通过简单的API调用或Obsidian插件来使用这个工具。只需提供网页URL,工具就会返回整理好的文章内容。

适用场景

当您想保存网页文章但不想保留杂乱格式时;当您需要批量收集研究资料时;当您希望笔记保持整洁统一风格时。

主要功能

智能内容提取使用Readability.js算法准确识别网页中的主要内容区域
干净输出自动移除广告、导航栏、页脚等无关内容
元数据提取同时提取文章标题、摘要和网站名称等信息
Obsidian集成提供现成的Obsidian插件示例代码

优势与局限性

优势
提取结果干净整洁,适合长期保存
保留原文结构但去除杂乱格式
简单易用的API接口
与Obsidian等笔记软件无缝集成
局限性
对某些特殊网页布局可能提取不完美
需要自行部署服务器或使用现有服务
不处理需要登录才能查看的内容

如何使用

安装服务克隆代码库并安装依赖
启动服务器构建项目并启动服务
使用API通过HTTP请求调用内容提取功能

使用案例

保存技术文章将一篇Medium上的技术文章保存到Obsidian知识库
研究资料收集批量提取多个新闻网站的文章内容进行比较研究

常见问题

1
这个工具是免费的吗?是的,这是一个开源项目,采用MIT许可证。
2
能否处理需要登录的网页?不能,工具只能提取公开可访问的网页内容。
3
提取的内容格式是什么?默认返回JSON格式数据,包含原始HTML和纯文本两种形式。
4
如何与Obsidian集成?项目中提供了示例插件代码,您可以基于此开发自己的Obsidian插件。

相关资源

GitHub仓库项目源代码和最新更新
Readability.js文档Mozilla的内容提取算法文档
Obsidian插件开发指南如何开发Obsidian插件
MCP协议说明Model Context Protocol官方文档
精选MCP服务推荐
Firecrawl MCP Server
Firecrawl MCP Server是一个集成Firecrawl网页抓取能力的模型上下文协议服务器,提供丰富的网页抓取、搜索和内容提取功能。
TypeScript
2,956
5分
Figma Context MCP
Framelink Figma MCP Server是一个为AI编程工具(如Cursor)提供Figma设计数据访问的服务器,通过简化Figma API响应,帮助AI更准确地实现设计到代码的一键转换。
TypeScript
6,101
4.5分
Duckduckgo MCP Server
已认证
DuckDuckGo搜索MCP服务器,为Claude等LLM提供网页搜索和内容抓取服务
Python
212
4.3分
Edgeone Pages MCP Server
EdgeOne Pages MCP是一个通过MCP协议快速部署HTML内容到EdgeOne Pages并获取公开URL的服务
TypeScript
88
4.8分
Context7
Context7 MCP是一个为AI编程助手提供实时、版本特定文档和代码示例的服务,通过Model Context Protocol直接集成到提示中,解决LLM使用过时信息的问题。
TypeScript
4,852
4.7分
Baidu Map
已认证
百度地图MCP Server是国内首个兼容MCP协议的地图服务,提供地理编码、路线规划等10个标准化API接口,支持Python和Typescript快速接入,赋能智能体实现地图相关功能。
Python
323
4.5分
Exa Web Search
已认证
Exa MCP Server是一个为AI助手(如Claude)提供网络搜索功能的服务器,通过Exa AI搜索API实现实时、安全的网络信息获取。
TypeScript
1,429
5分
Minimax MCP Server
MiniMax Model Context Protocol (MCP) 是一个官方服务器,支持与强大的文本转语音、视频/图像生成API交互,适用于多种客户端工具如Claude Desktop、Cursor等。
Python
364
4.8分
安装
复制以下命令到你的Client进行配置
注意:您的密钥属于敏感信息,请勿与任何人分享。