🚀 Fish Audio MCP 服务器
Fish Audio MCP 服务器是一个 MCP(模型上下文协议)服务器,它能让 Fish Audio 的文本转语音 API 与 Claude 等大语言模型(LLMs)实现无缝集成,从而实现由自然语言驱动的语音合成。
🚀 快速开始
安装
你可以直接使用 npx 运行这个 MCP 服务器:
npx @alanse/fish-audio-mcp-server
或者全局安装它:
npm install -g @alanse/fish-audio-mcp-server
配置
- 从 Fish Audio 获取你的 Fish Audio API 密钥。
- 设置环境变量:
export FISH_API_KEY=your_fish_audio_api_key_here
- 添加到你的 MCP 设置配置中:
单语音模式(简单模式)
{
"mcpServers": {
"fish-audio": {
"command": "npx",
"args": ["-y", "@alanse/fish-audio-mcp-server"],
"env": {
"FISH_API_KEY": "your_fish_audio_api_key_here",
"FISH_MODEL_ID": "speech-1.6",
"FISH_REFERENCE_ID": "your_voice_reference_id_here",
"FISH_OUTPUT_FORMAT": "mp3",
"FISH_STREAMING": "false",
"FISH_LATENCY": "balanced",
"FISH_MP3_BITRATE": "128",
"FISH_AUTO_PLAY": "false",
"AUDIO_OUTPUT_DIR": "~/.fish-audio-mcp/audio_output"
}
}
}
}
多语音模式(高级模式)
{
"mcpServers": {
"fish-audio": {
"command": "npx",
"args": ["-y", "@alanse/fish-audio-mcp-server"],
"env": {
"FISH_API_KEY": "your_fish_audio_api_key_here",
"FISH_MODEL_ID": "speech-1.6",
"FISH_REFERENCES": "[{'reference_id':'id1','name':'Alice','tags':['female','english']},{'reference_id':'id2','name':'Bob','tags':['male','japanese']},{'reference_id':'id3','name':'Carol','tags':['female','japanese','anime']}]",
"FISH_DEFAULT_REFERENCE": "id1",
"FISH_OUTPUT_FORMAT": "mp3",
"FISH_STREAMING": "false",
"FISH_LATENCY": "balanced",
"FISH_MP3_BITRATE": "128",
"FISH_AUTO_PLAY": "false",
"AUDIO_OUTPUT_DIR": "~/.fish-audio-mcp/audio_output"
}
}
}
}
✨ 主要特性
- 🎙️ 高质量文本转语音:利用 Fish Audio 先进的文本转语音模型。
- 🌊 流式支持:为低延迟应用提供实时音频流。
- 🎨 多种语音:通过参考 ID 支持自定义语音模型。
- 🎯 智能语音选择:可通过 ID、名称或标签选择语音。
- 📚 语音库管理:配置和管理多个语音参考。
- 🔧 灵活配置:基于环境变量进行配置。
- 📦 多种音频格式:支持 MP3、WAV、PCM 和 Opus 格式。
- 🚀 易于集成:可与任何 MCP 兼容的客户端轻松设置集成。
📦 安装指南
直接运行
npx @alanse/fish-audio-mcp-server
全局安装
npm install -g @alanse/fish-audio-mcp-server
💻 使用示例
基础用法
基本文本转语音
User: "Generate speech saying 'Hello, world! Welcome to Fish Audio TTS.'"
Claude: I'll generate speech for that text using Fish Audio TTS.
[Uses fish_audio_tts tool with text parameter]
Result: Audio file saved to ./audio_output/tts_2025-01-03T10-30-00.mp3
高级用法
使用自定义语音 ID
User: "Generate speech with voice model xyz123 saying 'This is a custom voice test'"
Claude: I'll generate speech using the specified voice model.
[Uses fish_audio_tts tool with text and reference_id parameters]
Result: Audio generated with custom voice model xyz123
使用语音名称
User: "Use Alice's voice to say 'Hello from Alice'"
Claude: I'll generate speech using Alice's voice.
[Uses fish_audio_tts tool with reference_name: "Alice"]
Result: Audio generated with Alice's voice
使用语音标签
User: "Generate Japanese speech saying 'こんにちは' with an anime voice"
Claude: I'll generate Japanese speech with an anime-style voice.
[Uses fish_audio_tts tool with reference_tag: "anime"]
Result: Audio generated with anime voice style
列出可用语音
User: "What voices are available?"
Claude: I'll list all configured voice references.
[Uses fish_audio_list_references tool]
Result:
- Alice (id: id1) - Tags: female, english [Default]
- Bob (id: id2) - Tags: male, japanese
- Carol (id: id3) - Tags: female, japanese, anime
HTTP 流式模式
User: "Generate a long speech in streaming mode about the benefits of AI"
Claude: I'll generate the speech in streaming mode for faster response.
[Uses fish_audio_tts tool with streaming: true]
Result: Streaming audio saved to ./audio_output/tts_2025-01-03T10-35-00.mp3
WebSocket 实时流式传输
User: "Stream and play in real-time: 'Welcome to the future of AI'"
Claude: I'll stream the speech via WebSocket and play it in real-time.
[Uses fish_audio_tts tool with websocket_streaming: true, realtime_play: true]
Result: Audio streamed and played in real-time via WebSocket
📚 详细文档
环境变量
属性 |
详情 |
默认值 |
是否必需 |
FISH_API_KEY |
你的 Fish Audio API 密钥 |
- |
是 |
FISH_MODEL_ID |
要使用的文本转语音模型(s1、speech-1.5、speech-1.6) |
s1 |
可选 |
FISH_REFERENCE_ID |
默认语音参考 ID(单参考模式) |
- |
可选 |
FISH_REFERENCES |
多个语音参考(见下文) |
- |
可选 |
FISH_DEFAULT_REFERENCE |
使用多个参考时的默认参考 ID |
- |
可选 |
FISH_OUTPUT_FORMAT |
默认音频格式(mp3、wav、pcm、opus) |
mp3 |
可选 |
FISH_STREAMING |
启用流式模式(HTTP/WebSocket) |
false |
可选 |
FISH_LATENCY |
延迟模式(正常、平衡) |
balanced |
可选 |
FISH_MP3_BITRATE |
MP3 比特率(64、128、192) |
128 |
可选 |
FISH_AUTO_PLAY |
自动播放音频并启用实时播放 |
false |
可选 |
AUDIO_OUTPUT_DIR |
音频文件输出目录 |
~/.fish-audio-mcp/audio_output |
可选 |
配置多个语音参考
JSON 数组格式(推荐)
使用 FISH_REFERENCES
环境变量和 JSON 数组:
FISH_REFERENCES='[
{"reference_id":"id1","name":"Alice","tags":["female","english"]},
{"reference_id":"id2","name":"Bob","tags":["male","japanese"]},
{"reference_id":"id3","name":"Carol","tags":["female","japanese","anime"]}
]'
FISH_DEFAULT_REFERENCE="id1"
单个格式(向后兼容)
使用编号的环境变量:
FISH_REFERENCE_1_ID=id1
FISH_REFERENCE_1_NAME=Alice
FISH_REFERENCE_1_TAGS=female,english
FISH_REFERENCE_2_ID=id2
FISH_REFERENCE_2_NAME=Bob
FISH_REFERENCE_2_TAGS=male,japanese
工具使用
工具 1: fish_audio_tts
使用 Fish Audio 的文本转语音 API 从文本生成语音。
参数
text
(必需):要转换为语音的文本(最多 10,000 个字符)
reference_id
(可选):语音模型参考 ID
reference_name
(可选):按名称选择语音
reference_tag
(可选):按标签选择语音
streaming
(可选):启用流式模式
format
(可选):输出格式(mp3、wav、pcm、opus)
mp3_bitrate
(可选):MP3 比特率(64、128、192)
normalize
(可选):启用文本规范化(默认:true)
latency
(可选):延迟模式(正常、平衡)
output_path
(可选):自定义输出文件路径
auto_play
(可选):自动播放生成的音频
websocket_streaming
(可选):使用 WebSocket 流式传输而不是 HTTP
realtime_play
(可选):在 WebSocket 流式传输期间实时播放音频
语音选择优先级:reference_id > reference_name > reference_tag > 默认
工具 2: fish_audio_list_references
列出所有配置的语音参考。
参数
无需参数。
返回值
- 列出所有配置的语音参考及其 ID、名称和标签
- 默认参考 ID
🔧 技术细节
本地开发
- 克隆仓库:
git clone https://github.com/da-okazaki/mcp-fish-audio-server.git
cd mcp-fish-audio-server
- 安装依赖:
npm install
- 创建
.env
文件:
cp .env.example .env
- 构建项目:
npm run build
- 在开发模式下运行:
npm run dev
测试
运行测试套件:
npm test
项目结构
mcp-fish-audio-server/
├── src/
│ ├── index.ts # MCP server entry point
│ ├── tools/
│ │ └── tts.ts # TTS tool implementation
│ ├── services/
│ │ └── fishAudio.ts # Fish Audio API client
│ ├── types/
│ │ └── index.ts # TypeScript definitions
│ └── utils/
│ └── config.ts # Configuration management
├── tests/ # Test files
├── audio_output/ # Default audio output directory
├── package.json
├── tsconfig.json
└── README.md
📄 许可证
本项目采用 MIT 许可证,请参阅 LICENSE 文件获取详细信息。
API 文档
Fish Audio 服务
该服务提供两个主要方法:
- generateSpeech:标准文本转语音生成
- generateSpeechStream:流式文本转语音生成
错误处理
服务器处理各种错误场景:
- INVALID_API_KEY:API 密钥无效或缺失
- NETWORK_ERROR:与 Fish Audio API 的连接问题
- INVALID_PARAMS:请求参数无效
- QUOTA_EXCEEDED:API 速率限制超出
- SERVER_ERROR:Fish Audio 服务器错误
故障排除
常见问题
- "FISH_API_KEY environment variable is required"
- 确保你已设置
FISH_API_KEY
环境变量
- 检查 API 密钥是否有效
- "Network error: Unable to reach Fish Audio API"
- 检查你的互联网连接
- 验证 Fish Audio API 是否可访问
- 检查代理/防火墙问题
- "Text length exceeds maximum limit"
- Audio files not appearing
- 检查
AUDIO_OUTPUT_DIR
路径是否存在
- 确保该目录有写入权限