Gemini Media Analysis

一个基于Google Gemini AI的MCP服务器，提供图像、音频和视频识别功能，支持多种传输方式和客户端集成。

图像与视频处理语音处理 #视频识别 #AI分析 #多模态 #Gemini .TypeScript

评分 : 2.5分

下载量 : 11.2K

更新时间 : 2025-04-28

打开站点

什么是MCP视频识别服务器?

这是一个基于Model Context Protocol (MCP)的智能服务器，利用Google Gemini AI的强大能力来分析图像、音频和视频内容。它可以帮助您自动识别和描述多媒体文件中的内容。

如何使用MCP视频识别服务器?

您可以通过简单的API调用或集成到FLUJO等开发环境中使用本服务。只需提供多媒体文件路径和可选的分析提示，服务器就会返回详细的内容描述。

适用场景

适用于内容审核、多媒体索引、辅助功能(为视障人士描述图像/视频)、媒体内容分析等场景。

主要功能

图像识别

使用Google Gemini AI分析图像内容，提供详细的文字描述

音频识别

转录和分析音频文件内容，支持自定义提示指导分析

视频识别

分析视频内容，描述场景变化和关键事件

优势

基于Google Gemini AI，提供高质量的识别结果

支持多种媒体类型(图像/音频/视频)

易于集成到现有开发环境(如FLUJO)

支持自定义分析提示，灵活控制输出

局限性

需要Google API密钥

依赖外部API服务，可能有使用限制

处理大文件可能需要较长时间

如何使用

安装服务器

可以通过手动安装或使用FLUJO集成环境安装

配置API密钥

设置GOOGLE_API_KEY环境变量

启动服务器

使用npm命令启动服务器

发送分析请求

通过MCP协议发送包含文件路径和分析提示的请求

使用案例

图像内容描述

分析一张风景照片并生成详细描述

会议录音转录

将会议录音转换为文字并提取关键点

视频内容分析

分析教学视频并提取主要内容

常见问题

如何获取Google Gemini API密钥?

支持哪些文件格式?

处理大文件有限制吗?

如何集成到我的应用中?

🚀 MCP 视频识别服务器

MCP 视频识别服务器基于 Model Context Protocol (MCP) 构建，借助 Google 的 Gemini AI，为用户提供图像、音频和视频识别工具，高效解决各类多媒体内容的识别需求。

🚀 快速开始

MCP 视频识别服务器是一款强大的多媒体识别工具，下面为你介绍使用前的相关准备和操作步骤。

✨ 主要特性

图像识别：利用 Google Gemini AI 对图像进行深入分析和精准描述。
音频识别：借助 Google Gemini AI 实现音频的分析与转录。
视频识别：通过 Google Gemini AI 分析并描述视频内容。

📦 安装指南

手动安装

克隆仓库：

git clone https://github.com/yourusername/mcp-video-recognition.git
cd mcp-video-recognition

安装依赖项：
```
npm install
```
构建项目：
```
npm run build
```

在 FLUJO 中安装

点击“添加服务器”。
将 Github URL 复制并粘贴到 FLUJO 中。
依次点击“解析”、“克隆”、“安装”、“构建”和“保存”。

通过配置文件安装

若要通过配置文件与 Cline 或其他 MCP 客户端集成，可按以下步骤操作：

打开你的 Cline 设置：
- 在 VS Code 中，前往 File -> Preferences -> Settings。
- 搜索“Cline MCP 设置”。
- 点击“在 settings.json 中编辑”。

将服务器配置添加到 mcpServers 对象中：

{
  "mcpServers": {
    "video-recognition": {
      "command": "node",
      "args": [
        "/path/to/mcp-video-recognition/dist/index.js"
      ],
      "disabled": false,
      "autoApprove": []
    }
  }
}

将 /path/to/mcp-video-recognition/dist/index.js 替换为项目目录中 index.js 文件的实际路径。在 Windows 上使用正斜杠 (/) 或双反斜杠 (\)。
保存设置文件，Cline 会自动连接到服务器。

🔧 配置

使用以下环境变量对服务器进行配置：

GOOGLE_API_KEY：Google Gemini API 密钥
TRANSPORT_TYPE：传输类型（例如：http、grpc）
PORT：服务器端口

💻 使用示例

启动服务器

npm start

工具使用说明

基础用法

图像识别：

{
  "tool": "image_recognition",
  "params": {
    "input_path": "path/to/image.jpg"
  }
}

音频识别：

{
  "tool": "audio_recognition",
  // 此处原文档未完整，假设后续内容如下（仅为示例完整格式）
  "params": {
    "input_path": "path/to/audio.wav"
  }
}

Figma Context MCP

Framelink Figma MCP Server是一个为AI编程工具（如Cursor）提供Figma设计数据访问的服务器，通过简化Figma API响应，帮助AI更准确地实现设计到代码的一键转换。

Firecrawl MCP Server是一个集成Firecrawl网页抓取能力的模型上下文协议服务器，提供丰富的网页抓取、搜索和内容提取功能。

TypeScript

189.7K

5分

Duckduckgo MCP Server

已认证

DuckDuckGo搜索MCP服务器，为Claude等LLM提供网页搜索和内容抓取服务

Python

109.1K

4.3分

Edgeone Pages MCP Server

EdgeOne Pages MCP是一个通过MCP协议快速部署HTML内容到EdgeOne Pages并获取公开URL的服务

百度地图MCP Server是国内首个兼容MCP协议的地图服务，提供地理编码、路线规划等10个标准化API接口，支持Python和Typescript快速接入，赋能智能体实现地图相关功能。

Context7 MCP是一个为AI编程助手提供实时、版本特定文档和代码示例的服务，通过Model Context Protocol直接集成到提示中，解决LLM使用过时信息的问题。

MiniMax Model Context Protocol (MCP) 是一个官方服务器，支持与强大的文本转语音、视频/图像生成API交互，适用于多种客户端工具如Claude Desktop、Cursor等。

Exa MCP Server是一个为AI助手（如Claude）提供网络搜索功能的服务器，通过Exa AI搜索API实现实时、安全的网络信息获取。

智启未来，您的人工智能解决方案智库

Gemini Media Analysis

概述

安装

内容详情

替代品

什么是MCP视频识别服务器?

如何使用MCP视频识别服务器?

适用场景

主要功能

如何使用

使用案例

常见问题

相关资源

安装

🚀 MCP 视频识别服务器

🚀 快速开始

✨ 主要特性

📦 安装指南

手动安装

在 FLUJO 中安装

通过配置文件安装

🔧 配置

💻 使用示例

启动服务器

工具使用说明

基础用法

替代品