Whisper MCP logo

Whisper MCP

シェア

OpenAI Whisperを使った音声・動画ファイルの文字起こしMCPサーバー。ローカルの音声ファイルをAIに渡すだけで自動トランスクリプション。会議録・インタビュー・ポッドキャストの文字起こし作業を一瞬で完了。

業務自動化音声文字起こしWhisperOpenAIトランスクリプション音声処理会議録
最終確認:
2026-04-12
ライセンス:
MIT

設定方法

{
  "mcpServers": {
    "whisper": {
      "command": "uvx",
      "args": ["mcp-server-whisper"],
      "env": {
        "OPENAI_API_KEY": "<YOUR_OPENAI_API_KEY>",
        "AUDIO_FILES_PATH": "/path/to/audio/files"
      }
    }
  }
}

概要

Whisper MCPは、OpenAIのWhisperモデルを使った音声文字起こしMCPサーバーです。uvx mcp-server-whisper の1コマンドで起動でき、ローカルの音声ファイルをAIエージェントが直接処理できるようになります。

ローカルにWhisperモデルをインストールする必要はありません。OpenAI APIを経由してクラウド処理するため、セットアップは環境変数2つを設定するだけで完了します。MP3・MP4・WAV・M4Aなど主要な音声フォーマットに対応しています。

導入手順

前提条件

  • uv がインストール済みであること(インストール方法
  • OpenAI APIキーを取得済みであること

ステップ

  1. 音声ファイルを保存するディレクトリのパスを決める(例: /Users/username/audio
  2. 使用環境(Claude Desktop / Cursor / Cline)のタブを選択し、設定例をコピー
  3. <YOUR_OPENAI_API_KEY> を自分のAPIキーに、/path/to/audio/files を実際のパスに置き換える
  4. 設定ファイルに追記して保存し、クライアントを再起動

動作確認

音声ファイルを AUDIO_FILES_PATH に配置して、「meeting.mp3 を文字起こしして」と話しかけてみてください。

使い方の例

会議録の自動作成:

「今日のmtg.mp3 を文字起こしして、
 話者別に発言を整理して議事録を作成して」
→ 音声を文字起こしし、話者・要点・アクションアイテムを整理

ポッドキャスト字幕生成:

「episode001.mp3 の字幕ファイル(SRT形式)を生成して」
→ タイムコード付きの字幕ファイルを自動生成

多言語対応:

「英語のseminar.mp4 を文字起こしして、日本語に翻訳してまとめて」
→ 英語音声 → 文字起こし → 日本語要約まで一気通貫

注意事項

  • OpenAI APIの利用料金が発生します。長時間の音声ファイルを大量に処理する場合はコストに注意してください。
  • AUDIO_FILES_PATH に設定したディレクトリ内のファイルのみアクセス可能です。機密性の高い音声ファイルの扱いに注意してください。
  • 処理できるファイルサイズはOpenAI APIの制限(25MB)に準じます。

主なユースケース

  1. 会議の録音ファイルをAIに渡すだけで、議事録・要点整理・アクションアイテム抽出まで一気通貫で完了する
  2. インタビュー音声を文字起こしして、そのまま記事・ブログ・ホワイトペーパーに整形する
  3. ポッドキャスト・セミナー動画の字幕ファイル(SRT形式)を自動生成する
  4. 英語音声ファイルを文字起こし後に日本語翻訳し、多言語コンテンツを効率的に制作する

プラットフォーム別の注意事項

  • Windows`uvx` を使うには `uv` のインストールが必要です(https://docs.astral.sh/uv/)。`AUDIO_FILES_PATH` はWindowsパス形式(例: `C:/Users/username/audio`)で設定できます。
  • プロキシ環境OpenAI APIへのアクセスには安定したインターネット接続が必要です。