Whisper MCP

シェア
業務自動化音声文字起こしWhisperOpenAIトランスクリプション音声処理会議録
最終確認:
2026-05-25
ライセンス:
MIT
無料で使えるオープンソースです(商用利用も可)

Whisper とは

Whisper は、OpenAI(ChatGPT を作っている会社)が開発した「音声をテキストに変換する」AI モデルです。会議の録音・インタビュー音声・YouTube 動画の音声などを高い精度でテキスト化できます。

日本語を含む多言語に対応しており、雑音の混じった音声や訛りのある話し方でも比較的安定して認識できます。「議事録を取るのが面倒」「英語インタビューを文字に起こしたい」「ポッドキャストの字幕を作りたい」といった作業を、Whisper を経由することで一瞬で済ませられます。

Whisper × AI でできること

この MCP サーバーを導入すると、Whisper による音声文字起こしを AI への一言で実行できます。

📝 会議録の自動作成

「今日の mtg.mp3 を文字起こしして、要点を整理して議事録を作成して」
→ 文字起こし + 要点整理 + 議事録化

🎙️ タイムスタンプ付き文字起こし

「episode001.mp3 をタイムスタンプ付きで文字起こしして」
→ タイムスタンプ付きで文字起こし(字幕用途にも応用可)

🌐 多言語の音声に対応

「英語の seminar.mp4 を文字起こしして日本語で要約して」
→ 文字起こし(多言語認識)+ 日本語要約

🎧 ポッドキャスト解析

「録音のポッドキャストから重要トピックを抽出して」
→ 文字起こし + トピック抽出

提供される主なツール

Whisper MCP Server が @mcp.tool() として提供するツール(実装ソースで確認した全 8 ツール):

ツール名役割
transcribe_audio音声ファイルを文字起こし(言語自動検出・出力形式やタイムスタンプ粒度を指定可能)
transcribe_with_enhancement文字起こしに整形・強化を加えて出力
chat_with_audio音声を音声対応モデルに渡して質問・分析(要約・トピック抽出など)
list_audio_filesAUDIO_FILES_PATH ディレクトリ内の音声ファイルを一覧・絞り込み
get_latest_audioディレクトリ内の最新音声ファイルを取得
convert_audio音声フォーマットを変換
compress_audio音声を圧縮(25MB の API 上限対策)
create_audioテキストから音声を生成(TTS)

補足: 音声を「英語に翻訳」する専用ツールや、話者分離(diarization)・SRT 専用生成ツールは実装にありません。タイムスタンプ付き出力は transcribe_audio のパラメータ(timestamp_granularities / 出力形式)で扱います。

Whisper MCP Server について

Whisper MCP Server(mcp-server-whisper)は、コミュニティメンバー arcaputo3 氏が公開する MCP サーバーです。OpenAI 公式の Whisper API を経由して音声を文字起こしする設計で、ローカルに Whisper モデルをインストールする必要はありません

uvx コマンドで起動できる Python 実装で、セットアップは環境変数 2 つ(OpenAI API キーと音声ファイルパス)を設定するだけで完了します。MP3・MP4・WAV・M4A など主要な音声フォーマットに対応しています。

スペック

  • 配布形態: PyPI パッケージ(mcp-server-whisper)+ uvx ランナー(Python)
  • 認証: OpenAI API キー(OPENAI_API_KEY 環境変数)
  • 必須設定: AUDIO_FILES_PATH(音声ファイル格納ディレクトリのパス)
  • 提供元: コミュニティ実装(arcaputo3/mcp-server-whisper)/ MIT
  • 対応範囲: 音声文字起こし(多言語認識)+ 音声変換・圧縮・音声対応モデルとの対話・TTS
  • 対応フォーマット: MP3 / MP4 / WAV / M4A 等
  • 公式リポジトリ: github.com/arcaputo3/mcp-server-whisper

導入手順

前提条件

  • uv がインストール済みであること(インストール方法
  • OpenAI API キーを取得済みであること

ステップ

  1. 音声ファイルを保存するディレクトリのパスを決める(例: /Users/username/audio
  2. 使用環境(Claude Desktop / Cursor / Cline)のタブを選択し、設定例をコピー
  3. <YOUR_OPENAI_API_KEY> を自分の API キーに、/path/to/audio/files を実際のパスに置き換える
  4. 設定ファイルに追記して保存し、クライアントを再起動
  5. 動作確認: 音声ファイルを AUDIO_FILES_PATH に配置して「meeting.mp3 を文字起こしして」と話しかける

注意事項

  • OpenAI API の利用料金が発生します。長時間の音声ファイルを大量に処理する場合はコストに注意してください(Whisper API は約 $0.006/分)。
  • AUDIO_FILES_PATH に設定したディレクトリ内のファイルのみアクセス可能です。機密性の高い音声ファイルの扱いには十分注意してください。
  • 処理できる**ファイルサイズは OpenAI API の制限(25MB)**に準じます。それ以上は分割が必要です。
  • 本 MCP はコミュニティ実装(arcaputo3)です。OpenAI 公式 / Whisper API 自体は OpenAI の公式サービスですが、本 MCP サーバーは OpenAI 社の公式提供ではありません。
  • 機密性の高い録音(NDA 含む会議等)を OpenAI API に送るかは社内のセキュリティポリシーを確認してください。

設定方法

MCP は、お使いの対応アプリ(クライアント)に下記の設定を貼り付けて使います。 タブからアプリを選び、表示された設定をコピーしてください。

Claude Desktop: Anthropic 公式のデスクトップ版 Claude アプリ

{
  "mcpServers": {
    "whisper": {
      "command": "uvx",
      "args": ["mcp-server-whisper"],
      "env": {
        "OPENAI_API_KEY": "<YOUR_OPENAI_API_KEY>",
        "AUDIO_FILES_PATH": "/path/to/audio/files"
      }
    }
  }
}

主なユースケース

  1. 「会議の録音 mp3 を文字起こしして要点を整理して議事録を作って」と頼むと、文字起こし → 整理 → 議事録までを一気通貫で完了してくれる
  2. 「インタビュー音声を文字起こししてそのまま記事に整形して」とインタビュー音源から記事制作までを自動化できる
  3. 「ポッドキャストの音声を文字起こしして」と頼むと、タイムスタンプ付きの文字起こし(字幕用途にも応用可)を生成してくれる
  4. 「英語のセミナー mp4 を文字起こしして日本語で要約して」と、音声からの文字起こし+日本語要約を AI に任せられる

プラットフォーム別の注意事項

  • Windows`uvx` を使うには `uv` のインストールが必要です(https://docs.astral.sh/uv/)。`AUDIO_FILES_PATH` は Windows パス形式(例: `C:/Users/username/audio`)で設定できます。
  • プロキシ環境OpenAI API へのアクセスには安定したインターネット接続が必要です。