🚀 OpenDia
OpenDia是替代Dia / Perplexity Comet的开源方案,它能将你的浏览器与AI模型相连接,无需切换浏览器,能与Chrome、Firefox及任何基于Chromium的浏览器无缝协作。它注重隐私,以本地优先,聚焦于多模态计算平台(MCP)。
如果你并非技术人员,或者从未使用过多模态计算平台,我们建议你使用 Perplexity Comet。

🚀 快速开始
1. 安装浏览器扩展程序
对于Chrome/Chromium浏览器:
- 从 releases 下载
opendia-chrome-1.0.6.zip
文件。
- 将压缩文件解压到一个文件夹中。
- 访问
chrome://extensions/
(或你浏览器的扩展程序页面)。
- 启用“开发者模式”。
- 点击“加载已解压的扩展程序”,并选择解压后的文件夹。
对于Firefox浏览器:
- 从 releases 下载
opendia-firefox-1.0.6.zip
文件。
- 将压缩文件解压到一个文件夹中。
- 访问
about:debugging#/runtime/this-firefox
。
- 点击“加载临时附加组件...”。
- 从解压后的文件夹中选择
manifest.json
文件。
⚠️ 重要提示
Firefox扩展程序是以临时附加组件的形式加载的,重启Firefox后会被移除,这是Firefox对未签名扩展程序的限制。
2. 连接到你的AI
选项1:双击安装(推荐)
- 从 releases 下载
opendia.dxt
文件。
- 双击
.dxt
文件进行自动安装。
- 多模态计算平台(MCP)将被添加到你的Claude桌面配置中。
选项2:手动配置
将以下内容添加到你的Claude桌面配置中:
{
"mcpServers": {
"opendia": {
"command": "npx",
"args": ["opendia"]
}
}
}
对于Cursor或其他AI工具,使用相同的配置,或遵循它们的特定设置说明。
✨ 主要特性
- 利用现有数字生活:借助你已登录的账户、保存的密码、Cookie、钱包和浏览历史,无需从头开始或切换上下文。
- 通用AI支持:可与Claude、ChatGPT、Cursor甚至本地模型协同工作。
- 反检测功能:针对Twitter/X、LinkedIn、Facebook等平台有专门的绕过机制。
- 智能自动化:AI能够理解页面内容并找到正确的交互元素。
- 隐私优先:所有操作都在本地运行,你的数据不会离开本地。
- 零设置:通过一个命令即可开始使用。
📦 安装指南
本地模式(默认)
npx opendia
- Chrome扩展程序:ws://localhost:5555(启用自动发现)
- Claude桌面:stdio(现有配置)
- 本地服务器发送事件(SSE):http://localhost:5556/sse
端口配置
npx opendia --port=6000
npx opendia --ws-port=5555 --http-port=5556
自动隧道模式
npx opendia --tunnel
- 自动创建ngrok隧道。
- 复制URL用于ChatGPT/在线AI服务。
- 保留本地功能。
⚠️ 重要提示
要使用自动隧道功能,你需要安装ngrok:
macOS系统:
brew install ngrok
Windows系统:
choco install ngrok
Linux系统:
curl -s https://ngrok-agent.s3.amazonaws.com/ngrok.asc | sudo tee /etc/apt/trusted.gpg.d/ngrok.asc >/dev/null
echo "deb https://ngrok-agent.s3.amazonaws.com buster main" | sudo tee /etc/apt/sources.list.d/ngrok.list
sudo apt update && sudo apt install ngrok
然后从 https://dashboard.ngrok.com/get-started/your-authtoken 获取免费的认证令牌,并运行以下命令:
ngrok config add-authtoken YOUR_TOKEN_HERE
💻 使用示例
基础用法
当你完成所有设置后,可以尝试向你的AI提出以下问题:
内容创作:
"阅读此页面上的文章,并创建一个Twitter线程总结要点。"
研究与分析:
"查看我本周的浏览历史,找出关于机器学习的文章,并总结关键趋势。"
社交媒体管理:
"检查我的Twitter书签,并将它们分类。为每个类别创建一个摘要。"
提高生产力:
"打开我平时早上阅读的网站的标签页,并给我今天头条新闻的简报。"
开发测试:
"用测试数据填写此联系表单,并检查提交是否正常工作。"
个人助理:
"找到我昨天查看的关于React组件的GitHub仓库,并将其标记为稍后查看。"
页面样式与趣味:
"将此页面应用黑暗黑客主题,使其看起来更有趣。"
"让这个枯燥的文档页面感觉像一个舒适的咖啡店。"
"为这个页面添加30秒的矩阵雨效果,以获得酷炫的截图。"
"用高对比度主题转换此页面,以提高可读性。"
📚 详细文档
📺 查看实际操作
🚀 什么是OpenDia?
OpenDia允许AI模型自动控制你的浏览器。其关键优势在于,它能利用你现有的一切,包括已登录的账户、保存的密码、Cookie、钱包和浏览历史,无需从头开始或切换上下文。
🌐 浏览器支持
OpenDia可与 Chrome、Firefox及任何基于Chromium的浏览器 配合使用,包括:
- ✅ Google Chrome
- ✅ Arc
- ✅ Mozilla Firefox
- ✅ Microsoft Edge
- ✅ Brave
- ✅ Opera
- ✅ 任何基于Chromium的浏览器
对于想要自动化本地测试和开发工作流程的 Cursor用户 来说,它也是一个绝佳选择!
🎬 你可以做什么
你今天就可以尝试的实际工作流程:
📰 内容与社交媒体
- "总结我今天阅读的所有文章,并发布一个Twitter线程,分享关键见解。"
- "从我的书签中找到与AI相关的有趣文章,并创建一个阅读列表。"
- "阅读这篇文章,并在LinkedIn版本上发表有深度的评论。"
- "检查我最近的Twitter书签,并总结主要主题。"
📧 生产力与研究
- "浏览我最新的电子邮件,告诉我哪些需要紧急关注。"
- "找到我本周访问过的所有GitHub仓库,并创建一份总结报告。"
- "提取这篇研究论文的要点,并保存到我的笔记中。"
- "在我的浏览历史中搜索我上个月阅读的关于AI安全的文章。"
🤖 开发与测试(非常适合Cursor!)
- "测试我的Web应用的注册流程,并在每个步骤截图。"
- "用测试数据填写此表单,并检查验证是否有效。"
- "浏览我的应用,检查所有按钮是否正常工作。"
- "使用我连接的钱包测试这个DeFi界面。"
🔄 高级自动化
- "为我所有的每日新闻来源打开标签页,并总结头条新闻。"
- "根据上下文为我的未读消息起草回复。"
- "监控这个网页,当内容更改时通知我。"
- "自动为我正在阅读的有趣文章添加书签。"
🎨 视觉定制与趣味
- "为这个文档网站应用赛博朋克主题,使其更具吸引力。"
- "将此页面设置为夜间模式,文字为绿色,方便夜间阅读。"
- "添加彩虹派对效果,庆祝完成这个项目。"
- "在我填写这个无聊的表单时,用复古80年代主题进行改造。"
- "使用高对比度样式,以便我能更好地阅读。"
🛠️ 功能
OpenDia为AI模型提供了 18种强大的浏览器工具:
🎯 智能页面理解
- 分析任何网页:AI自动找到按钮、表单和交互式元素。
- 智能提取内容:从文章、社交媒体帖子或搜索结果中获取干净的文本。
- 理解上下文:AI知道它正在查看的页面类型以及如何与之交互。
🖱️ 自然交互
- 点击任何元素:按钮、链接、菜单 - AI找到并点击正确的元素。
- 智能填写表单:即使在Twitter、LinkedIn、Facebook等复杂网站上也能正常工作。
- 无缝导航:前往页面、滚动、等待内容加载。
- 处理现代Web应用:绕过社交平台的检测机制。
📑 标签页和窗口管理
- 多标签工作流程:自动打开、关闭和切换标签页。
- 组织工作空间:让AI高效管理你的浏览器标签页。
- 协调复杂任务:同时在多个网站上工作。
📊 访问浏览器数据
- 书签和历史记录:找到你上周阅读的文章。
- 当前页面内容:获取选定的文本、链接或完整页面内容。
- 实时信息:处理当前屏幕上的任何内容。
🛡️ 反检测功能
- 社交媒体发布:绕过Twitter/X、LinkedIn、Facebook等平台的自动化检测。
- 自然交互:模仿人类行为,避免触发安全措施。
- 可靠的自动化:即使在阻止典型自动化工具的网站上也能持续工作。
🎨 页面样式与定制
- 转换任何网站:应用有趣的主题、自定义颜色和视觉效果。
- 预设主题:黑暗黑客、复古80年代、彩虹派对、简约禅意等等。
- AI情绪样式:描述一种情绪,获得匹配的视觉设计。
- 交互式效果:矩阵雨、浮动粒子、霓虹光芒和光标轨迹。
- 无障碍主题:高对比度和易读的设计,提高可见性。
🏗️ 工作原理
graph LR
A[AI模型] --> B[OpenDia服务器]
B --> C[浏览器扩展程序]
C --> D[你的浏览器]
D --> E[任何网站]
- 你向AI提出与浏览器相关的任务。
- AI调用OpenDia工具来理解和与页面进行交互。
- OpenDia通过扩展程序控制你的浏览器。
- 你获得结果:AI可以看到发生了什么,并做出智能响应。
🔧 技术细节
OpenDia为AI模型提供了18种强大的浏览器工具,涵盖智能页面理解、自然交互、标签页和窗口管理、访问浏览器数据、反检测功能以及页面样式与定制等多个方面,使AI能够更好地与浏览器进行交互,实现各种自动化任务。
📄 许可证
本项目采用MIT许可证,详情请参阅 LICENSE。
准备好让AI为你的浏览器赋能了吗?立即使用 npx opendia
开启体验吧!🚀