Omniparser AutoGUI

这是一个基于OmniParser的MCP服务器,能够分析屏幕内容并自动操作GUI界面,主要在Windows系统上运行。
2.5分
38

什么是 OmniParser 自动化 GUI MCP?

这是一个能够'看到'并交互您的计算机屏幕的智能服务器。它利用先进的 AI(OmniParser)理解屏幕上显示的内容,并能自动执行 GUI 操作,例如单击按钮或输入文本。

它是如何工作的?

该服务器连接到支持 MCP 的应用程序(如 ClaudeChat)。它通过分析屏幕内容并根据上下文生成适当的操作指令来实现自动化任务。

为什么选择 OmniParser 自动化 GUI MCP?

与传统脚本相比,OmniParser 提供了更强大和灵活的屏幕分析能力。它能够处理复杂的 UI 元素,并通过上下文理解提供智能操作。

功能特性

多语言支持通过设置 OCR_LANG 环境变量,支持多种语言的文本识别。
窗口目标定位使用 TARGET_WINDOW_NAME 环境变量指定要控制的具体窗口。
上下文理解基于屏幕内容和上下文生成智能操作指令,提升自动化任务的准确性。

常见问题

是否支持 Mac 或 Linux?
能否使用不同的语言进行文本识别?
如何指定要控制的窗口?

相关资源

OmniParser GitHub
用于屏幕分析的核心 AI 技术。
Model Context Protocol 文档
MCP 协议的官方文档。
LibreChat 示例集成
与该服务器配合使用的示例客户端代码仓库。
安装
复制以下命令到你的Client进行配置
注意:您的密钥属于敏感信息,请勿与任何人分享。
精选MCP服务推荐
Duckduckgo MCP Server
已认证
DuckDuckGo搜索MCP服务器,为Claude等LLM提供网页搜索和内容抓取服务
Python
999
4.3分
Figma Context MCP
Framelink Figma MCP Server是一个为AI编程工具(如Cursor)提供Figma设计数据访问的服务器,通过简化Figma API响应,帮助AI更准确地实现设计到代码的一键转换。
TypeScript
6.8K
4.5分
Firecrawl MCP Server
Firecrawl MCP Server是一个集成Firecrawl网页抓取能力的模型上下文协议服务器,提供丰富的网页抓取、搜索和内容提取功能。
TypeScript
4.1K
5分
Baidu Map
已认证
百度地图MCP Server是国内首个兼容MCP协议的地图服务,提供地理编码、路线规划等10个标准化API接口,支持Python和Typescript快速接入,赋能智能体实现地图相关功能。
Python
847
4.5分
Edgeone Pages MCP Server
EdgeOne Pages MCP是一个通过MCP协议快速部署HTML内容到EdgeOne Pages并获取公开URL的服务
TypeScript
335
4.8分
Context7
Context7 MCP是一个为AI编程助手提供实时、版本特定文档和代码示例的服务,通过Model Context Protocol直接集成到提示中,解决LLM使用过时信息的问题。
TypeScript
5.4K
4.7分
Minimax MCP Server
MiniMax Model Context Protocol (MCP) 是一个官方服务器,支持与强大的文本转语音、视频/图像生成API交互,适用于多种客户端工具如Claude Desktop、Cursor等。
Python
935
4.8分
Exa Web Search
已认证
Exa MCP Server是一个为AI助手(如Claude)提供网络搜索功能的服务器,通过Exa AI搜索API实现实时、安全的网络信息获取。
TypeScript
1.9K
5分
AIbase
智启未来,您的人工智能解决方案智库
简体中文