Speech MCP

Speech MCP是为Goose设计的语音交互扩展，提供实时语音识别、高质量文本转语音、多语言支持和现代化音频可视化界面，支持多角色对话生成和音频转录功能。

语音处理人工智能聊天机器人 #语音交互 #文本转语音 #语音识别 #多角色对话 .Python

评分 : 2.5分

下载量 : 12.6K

更新时间 : 2025-04-23

打开站点

什么是Speech MCP?

Speech MCP是一个为Goose设计的语音交互扩展，通过语音输入和输出实现更自然的人机对话体验。

如何使用Speech MCP?

启动Goose后，只需说“让我们用语音交流”即可开始语音对话。

适用场景

适用于需要快速响应、多语言支持或复杂语音处理的应用场景。

主要功能

语音输入

实时捕捉用户的语音输入并转化为文本。

语音输出

将Goose生成的文本转换为高质量语音。

多角色叙事

支持多角色对话的语音合成，适合讲故事或制作音频剧。

音频转录

从音频或视频文件中提取语音并生成文本。

优势

支持多种语言和语音风格。

本地化处理，无需联网。

用户界面友好且直观。

局限性

首次运行时需要下载模型文件（约523KB/语音）。

对硬件性能有一定要求。

如何使用

安装依赖

确保已安装PortAudio（不同操作系统安装方法见文档）。

启动Goose

在Goose中启用Speech MCP扩展。

开始语音对话

直接说话与Goose交互。

使用案例

简单语音输入

用户可以直接说话让Goose回应。

多角色叙事

生成一段包含多个角色的对话音频。

常见问题

为什么第一次使用时需要下载模型？

如何更改默认语音设置？

🚀 语音 MCP 文档

语音 MCP 是一个支持语音交互的工具，提供文本转语音和语音转文本功能，支持多语言和多种语音引擎，能满足不同场景的语音交互需求。

🚀 快速开始

使用语音 MCP 前，请确保系统及 Python 版本符合要求，然后按照安装步骤完成安装。安装完成后，可通过基本的命令启动并使用语音控制功能。

✨ 主要特性

多系统支持：兼容 Windows、macOS 和 Linux（Ubuntu 20.04+）系统。
多引擎支持：文本转语音支持 pyttsx3 和 Kokoro TTS 等引擎；语音转文本使用 faster-whisper 引擎。
多语言支持：支持中英文混杂输入和识别。
自定义模型：用户可自行下载并添加额外的语音模型。

📦 安装指南

兼容性

操作系统：支持 Windows、macOS 和 Linux（Ubuntu 20.04+）
Python 版本：Python 3.6+

安装步骤

使用 pip 安装依赖项：
```
pip install speech-mcp
```

下载并安装 PortAudio 库：

macOS：

brew install portaudio
export LDFLAGS="-L/usr/local/lib"
export CPPFLAGS="-I/usr/local/include"
pip install pyaudio

Linux（以 Ubuntu 为例）：

sudo apt-get update && sudo apt-get install portaudio19-dev python3-dev
pip install pyaudio

📚 详细文档

配置指南

默认配置文件路径

用户配置文件：~/.config/speech-mcp/config.json

环境变量设置

SPEECH_MCP_TTS_VOICE：设置默认的文本转语音（TTS）引擎。
SPEECH_MCP_STT_MODEL：设置默认的语音转文本（STT）模型。

功能概述

文本转语音 (TTS)

支持多种 TTS 引擎：

默认引擎：pyttsx3
- 使用系统内置语音。
- 支持多语言和语音风格。
可选引擎：Kokoro TTS（需额外安装）
- 高质量神经网络驱动的语音合成。
- 多种语言和语音风格支持。

语音转文本 (STT)

使用 faster-whisper 引擎进行本地语音识别。
支持多种音频格式，包括 WAV、MP3 和 FLAC。

💻 使用示例

基础用法

启动语音 MCP：
```
speech-mcp start
```
通过语音控制设备：
- 说 "让我们开始使用语音" 或类似指令启动语音模式。
- 系统会自动切换到语音输入界面。

高级用法

多语言支持：支持中英文混杂输入和识别。
自定义语音模型：用户可自行下载并添加额外的语音模型。

🔧 技术细节

内部工作原理

使用 faster-whisper 引擎进行语音识别。
通过 pyttsx3 或 Kokoro TTS 实现文本转语音功能。

性能优化建议

硬件加速
- 使用 GPU 加速（如支持 CUDA 的设备）以提高推理速度。
模型选择
- 根据需求选择轻量级或高性能的语音模型。

📚 故障排除

常见问题

音频设备未检测到
- 确保麦克风已正确连接且系统能识别。
- 在代码中指定具体设备索引（如有多个设备）。
PortAudio 安装失败
- 检查系统日志或重新安装相关依赖。

📄 许可证

文中未提及项目的许可证信息，如需了解可进一步查阅项目相关资料。

📄 更新日志

详细更新记录请参考项目文档中的变更日志。

Figma Context MCP

Framelink Figma MCP Server是一个为AI编程工具（如Cursor）提供Figma设计数据访问的服务器，通过简化Figma API响应，帮助AI更准确地实现设计到代码的一键转换。

Firecrawl MCP Server是一个集成Firecrawl网页抓取能力的模型上下文协议服务器，提供丰富的网页抓取、搜索和内容提取功能。

TypeScript

189.7K

5分

Duckduckgo MCP Server

已认证

DuckDuckGo搜索MCP服务器，为Claude等LLM提供网页搜索和内容抓取服务

Python

107.8K

4.3分

Edgeone Pages MCP Server

EdgeOne Pages MCP是一个通过MCP协议快速部署HTML内容到EdgeOne Pages并获取公开URL的服务

百度地图MCP Server是国内首个兼容MCP协议的地图服务，提供地理编码、路线规划等10个标准化API接口，支持Python和Typescript快速接入，赋能智能体实现地图相关功能。

Context7 MCP是一个为AI编程助手提供实时、版本特定文档和代码示例的服务，通过Model Context Protocol直接集成到提示中，解决LLM使用过时信息的问题。

MiniMax Model Context Protocol (MCP) 是一个官方服务器，支持与强大的文本转语音、视频/图像生成API交互，适用于多种客户端工具如Claude Desktop、Cursor等。

Exa MCP Server是一个为AI助手（如Claude）提供网络搜索功能的服务器，通过Exa AI搜索API实现实时、安全的网络信息获取。

智启未来，您的人工智能解决方案智库

Speech MCP

概述

内容详情

替代品

什么是Speech MCP?

如何使用Speech MCP?

适用场景

主要功能

如何使用

使用案例

常见问题

相关资源

安装

🚀 语音 MCP 文档

🚀 快速开始

✨ 主要特性

📦 安装指南

兼容性

安装步骤

📚 详细文档

配置指南

默认配置文件路径

环境变量设置

功能概述

文本转语音 (TTS)

语音转文本 (STT)

💻 使用示例

基础用法

高级用法

🔧 技术细节

内部工作原理

性能优化建议

📚 故障排除

常见问题

📄 许可证

📄 更新日志

替代品