Whisper とは

Whisper は、OpenAI（ChatGPT を作っている会社）が開発した「音声をテキストに変換する」AI モデルです。会議の録音・インタビュー音声・YouTube 動画の音声などを高い精度でテキスト化できます。

日本語を含む多言語に対応しており、雑音の混じった音声や訛りのある話し方でも比較的安定して認識できます。「議事録を取るのが面倒」「英語インタビューを文字に起こしたい」「ポッドキャストの字幕を作りたい」といった作業を、Whisper を経由することで一瞬で済ませられます。

これは公式提供ではなく、有志が作った非公式ツールです。

Whisper × AI でできること

この MCP サーバーを導入すると、Whisper による音声文字起こしを AI への一言で実行できます。

📝 会議録の自動作成

「今日の mtg.mp3 を文字起こしして、要点を整理して議事録を作成して」
→ 文字起こし + 要点整理 + 議事録化

🎙️ タイムスタンプ付き文字起こし

「episode001.mp3 をタイムスタンプ付きで文字起こしして」
→ タイムスタンプ付きで文字起こし（字幕用途にも応用可）

🌐 多言語の音声に対応

「英語の seminar.mp4 を文字起こしして日本語で要約して」
→ 文字起こし（多言語認識）+ 日本語要約

🎧 ポッドキャスト解析

「録音のポッドキャストから重要トピックを抽出して」
→ 文字起こし + トピック抽出

提供される主なツール

Whisper MCP Server が @mcp.tool() として提供するツール（実装ソースで確認した全 8 ツール）:

ツール名	役割
`transcribe_audio`	音声ファイルを文字起こし（言語自動検出・出力形式やタイムスタンプ粒度を指定可能）
`transcribe_with_enhancement`	文字起こしに整形・強化を加えて出力
`chat_with_audio`	音声を音声対応モデルに渡して質問・分析（要約・トピック抽出など）
`list_audio_files`	`AUDIO_FILES_PATH` ディレクトリ内の音声ファイルを一覧・絞り込み
`get_latest_audio`	ディレクトリ内の最新音声ファイルを取得
`convert_audio`	音声フォーマットを変換
`compress_audio`	音声を圧縮（25MB の API 上限対策）
`create_audio`	テキストから音声を生成（TTS）

補足: 音声を「英語に翻訳」する専用ツールや、話者分離（diarization）・SRT 専用生成ツールは実装にありません。タイムスタンプ付き出力は transcribe_audio のパラメータ（timestamp_granularities / 出力形式）で扱います。

Whisper MCP Server について

Whisper MCP Server（mcp-server-whisper）は、コミュニティメンバー arcaputo3 氏が公開する MCP サーバーです。OpenAI 公式の Whisper API を経由して音声を文字起こしする設計で、ローカルに Whisper モデルをインストールする必要はありません。

uvx コマンドで起動できる Python 実装で、セットアップは環境変数 2 つ（OpenAI API キーと音声ファイルパス）を設定するだけで完了します。MP3・MP4・WAV・M4A など主要な音声フォーマットに対応しています。

スペック

配布形態: PyPI パッケージ（mcp-server-whisper）+ uvx ランナー（Python）
認証: OpenAI API キー（OPENAI_API_KEY 環境変数）
必須設定: AUDIO_FILES_PATH（音声ファイル格納ディレクトリのパス）
提供元: コミュニティ実装（arcaputo3/mcp-server-whisper）/ MIT
対応範囲: 音声文字起こし（多言語認識）+ 音声変換・圧縮・音声対応モデルとの対話・TTS
対応フォーマット: MP3 / MP4 / WAV / M4A 等
公式リポジトリ: github.com/arcaputo3/mcp-server-whisper

導入手順

前提条件

uv がインストール済みであること（インストール方法）
OpenAI API キーを取得済みであること

ステップ

音声ファイルを保存するディレクトリのパスを決める（例: /Users/username/audio）
使用環境のタブを選択し、設定例をコピー
<YOUR_OPENAI_API_KEY> を自分の API キーに、/path/to/audio/files を実際のパスに置き換える
設定ファイルに追記して保存し、クライアントを再起動
動作確認: 音声ファイルを AUDIO_FILES_PATH に配置して「meeting.mp3 を文字起こしして」と話しかける

注意事項

OpenAI API の利用料金が発生します。長時間の音声ファイルを大量に処理する場合はコストに注意してください（Whisper API は約 $0.006/分）。
AUDIO_FILES_PATH に設定したディレクトリ内のファイルのみアクセス可能です。機密性の高い音声ファイルの扱いには十分注意してください。
処理できるファイルサイズは OpenAI API の制限（25MB）に準じます。それ以上は分割が必要です。
本 MCP はコミュニティ実装（arcaputo3）です。OpenAI 公式 / Whisper API 自体は OpenAI の公式サービスですが、本 MCP サーバーは OpenAI 社の公式提供ではありません。
機密性の高い録音（NDA 含む会議等）を OpenAI API に送るかは社内のセキュリティポリシーを確認してください。

Whisper MCP

Whisper とは

Whisper × AI でできること

提供される主なツール

Whisper MCP Server について

導入手順

前提条件

ステップ

注意事項

設定方法

主なユースケース

プラットフォーム別の注意事項

Codex CLI

Fetch MCP Server

n8n MCP Server

Whisper とは

Whisper × AI でできること

提供される主なツール

Whisper MCP Server について

導入手順

前提条件

ステップ

注意事項

設定方法

主なユースケース

プラットフォーム別の注意事項

関連するツール

Codex CLI

Fetch MCP Server

n8n MCP Server