探索
Webscraper

Webscraper

一个为Claude桌面版设计的MCP服务器,能够通过链接抓取网页文本、YouTube视频字幕和PDF文件内容。
2.5分
3
2025-04-28 22:15:19
概述
内容详情
替代品

什么是Webscraper MCP?

Webscraper MCP是一个专门为Claude AI设计的中间件服务器,它允许Claude通过简单的链接访问网页内容。当用户提供网页链接时,Claude可以自动获取其中的文本信息,包括普通网页、YouTube视频字幕和PDF文档。

如何使用Webscraper MCP?

使用非常简单 - 只需在对话中向Claude提供有效的网页链接,Claude会自动判断链接类型并调用相应的工具获取内容。您无需任何额外操作。

适用场景

当您需要Claude帮助分析网页内容、理解YouTube视频内容或阅读PDF文档时,Webscraper MCP是最佳选择。它特别适合研究、学习和内容分析等场景。

主要功能

PDF内容提取将PDF文档转换为易于阅读的Markdown格式文本
网页内容抓取自动提取网页正文内容,去除广告和导航等无关元素
YouTube字幕提取获取YouTube视频的完整字幕/转录文本

优势与局限性

优势
无需手动复制粘贴内容,直接通过链接访问
支持多种内容类型(网页、视频、PDF)
自动格式转换,内容更易读
与Claude无缝集成,使用体验流畅
局限性
仅支持公开可访问的内容(无法访问需要登录的页面)
PDF转换可能丢失复杂格式
YouTube字幕依赖于视频本身是否提供
部分网站可能有反爬虫机制

如何使用

提供有效链接在对话中向Claude发送您想了解的网页、YouTube或PDF链接
等待内容处理Claude会自动识别链接类型并获取内容,通常需要几秒钟
获取结果Claude会将处理后的文本内容返回给您,您可以进一步提问或要求总结

使用案例

学术研究快速提取多篇学术论文(PDF)的关键内容进行比较分析
新闻分析获取多篇新闻报道并总结不同媒体的报道角度
学习辅助通过YouTube教学视频的字幕生成学习笔记

常见问题

1
为什么有些网页内容无法获取?可能原因包括: 1) 网页需要登录 2) 网站有反爬虫机制 3) 链接无效 4) 服务器暂时无法访问该网站
2
PDF转换会保留原始格式吗?基本文本内容会完整保留,但复杂的排版、图表等可能无法完美转换。建议查看原始PDF确认细节。
3
YouTube视频没有字幕怎么办?对于没有官方字幕的视频,目前无法获取转录文本。您可以尝试提供视频描述或其他相关信息。
4
有使用次数限制吗?目前没有硬性限制,但大量频繁请求可能会被暂时限速以保证服务稳定性。

相关资源

Claude官方文档了解Claude AI的更多功能和使用方法
示例PDF文件测试PDF提取功能的示例文件
YouTube字幕指南如何为YouTube视频添加字幕
精选MCP服务推荐
Firecrawl MCP Server
Firecrawl MCP Server是一个集成Firecrawl网页抓取能力的模型上下文协议服务器,提供丰富的网页抓取、搜索和内容提取功能。
TypeScript
2,959
5分
Duckduckgo MCP Server
已认证
DuckDuckGo搜索MCP服务器,为Claude等LLM提供网页搜索和内容抓取服务
Python
213
4.3分
Figma Context MCP
Framelink Figma MCP Server是一个为AI编程工具(如Cursor)提供Figma设计数据访问的服务器,通过简化Figma API响应,帮助AI更准确地实现设计到代码的一键转换。
TypeScript
6,106
4.5分
Baidu Map
已认证
百度地图MCP Server是国内首个兼容MCP协议的地图服务,提供地理编码、路线规划等10个标准化API接口,支持Python和Typescript快速接入,赋能智能体实现地图相关功能。
Python
324
4.5分
Minimax MCP Server
MiniMax Model Context Protocol (MCP) 是一个官方服务器,支持与强大的文本转语音、视频/图像生成API交互,适用于多种客户端工具如Claude Desktop、Cursor等。
Python
367
4.8分
Context7
Context7 MCP是一个为AI编程助手提供实时、版本特定文档和代码示例的服务,通过Model Context Protocol直接集成到提示中,解决LLM使用过时信息的问题。
TypeScript
4,856
4.7分
Exa Web Search
已认证
Exa MCP Server是一个为AI助手(如Claude)提供网络搜索功能的服务器,通过Exa AI搜索API实现实时、安全的网络信息获取。
TypeScript
1,433
5分
Edgeone Pages MCP Server
EdgeOne Pages MCP是一个通过MCP协议快速部署HTML内容到EdgeOne Pages并获取公开URL的服务
TypeScript
91
4.8分
安装
复制以下命令到你的Client进行配置
注意:您的密钥属于敏感信息,请勿与任何人分享。