ElevenLabs MCP — AIに「声」を装備、ナレーション・音声記事・キャラ声も生成

シェア

ブログ記事を音声記事に変換、社内研修動画のナレーション収録、キャラクター音声の試作まで、AIに頼んで自動生成できる。ElevenLabsの自然な合成音声をそのまま呼び出せる。

AIスキル拡張音声合成TTSナレーションボイスクローンConversational AI音楽生成
最終確認:
2026-05-10
ライセンス:
MIT

設定方法

{
  "mcpServers": {
    "elevenlabs": {
      "command": "uvx",
      "args": ["elevenlabs-mcp"],
      "env": {
        "ELEVENLABS_API_KEY": "<your-elevenlabs-api-key>"
      }
    }
  }
}

概要

ElevenLabs MCP Serverは、音声生成AIで知られるElevenLabs社が公式に提供するMCPサーバーです。Claude Desktop / Cursor / Windsurf / OpenAI Agents などのAIクライアントから、TTS(音声合成)・音声クローン・文字起こし・音声分離・効果音生成・音楽生成・会話エージェント(Conversational AI)など計24ツールを直接呼び出せるようにします。

ElevenLabsは「不気味の谷」を超えたとされる自然な合成音声で知られ、AudibleやNetflix系の海外コンテンツでも採用が広がっています。日本語音声にも対応しており、ブログの音声化・YouTube仮ナレーション・キャラクターボイス・電話のアウトバウンド架電など、これまで外注・専用ツールが必要だった範囲をAIに頼める領域が一気に広がります。

無料プラン(月10,000クレジット)が用意されており、お試し用途にも適しています。

導入手順

前提条件

ステップ

  1. uvをインストール(OS別の手順は上の「platformNotes」を参照)
  2. ElevenLabsにサインアップし、ダッシュボードから API Key を発行
  3. ページ上部のタブから使用環境を選択し、JSON設定をコピー
  4. <your-elevenlabs-api-key> を取得したAPIキーに置き換える
  5. クライアントを再起動

使い方の例

「このブログ記事をRachelの声で読み上げて、MP3で `articles/` フォルダに保存して」

「社内研修動画用のナレーション台本を渡すので、フォーマルな日本語ナレーションに変換」

「自分の声を学習させたカスタムボイスで、議事録要約を音声化して」

「ホラー映画予告編用に、雷雨と遠吠えの効果音を30秒生成して(text_to_sound_effects)」

「サポート用の会話エージェントを作って、知識ベースをアップロードしておいて(create_agent / add_knowledge_base_to_agent)」

提供されるツール

公式 server.py24ツールが実装されています(main ブランチ時点で逐語確認済)。代表的なものをカテゴリ別に紹介します。

音声合成・音声編集

  • text_to_speech — テキスト→音声(多言語、フォーマット指定可)
  • text_to_sound_effects — テキスト→効果音
  • speech_to_speech — 既存音声を別の声に変換
  • isolate_audio — 音声から背景音を分離
  • play_audio — 生成済みファイルを再生

音声→テキスト

  • speech_to_text — 文字起こし(話者識別対応)

音声管理・ボイスクローン

  • search_voices / search_voice_library / get_voice / list_models — 音声・モデル検索
  • voice_clone — 既存音声からボイスクローン作成
  • text_to_voice — テキスト記述から新規ボイス設計
  • create_voice_from_preview — プレビュー音声から正式ボイス生成

会話エージェント(Conversational AI)

  • create_agent — 会話エージェント作成
  • add_knowledge_base_to_agent — エージェントに知識ベース追加
  • list_agents / get_agent — エージェント一覧・詳細
  • list_conversations / get_conversation — 会話履歴

音楽生成

  • compose_music — 楽曲生成
  • create_composition_plan — 楽曲構成プラン作成

電話通信(ConvAI連携)

  • make_outbound_call — エージェントから電話を架けてもらう
  • list_phone_numbers — 紐付けた電話番号の一覧

アカウント情報

  • check_subscription — クレジット残量・プラン確認

注意事項

  • ElevenLabs APIの利用には認証キーが必須です。Freeプランは月10,000クレジットまで、それ以上は有料プラン(Starter以上)が必要です。
  • 生成された音声のデフォルト出力先は ~/Desktop ですが、ELEVENLABS_MCP_BASE_PATH 環境変数で変更可能です。
  • ボイスクローンは、本人の同意なく他者の声を学習させる利用は規約違反です。商用利用時はElevenLabs利用規約を必ず確認してください。

主なユースケース

  1. ブログ記事や社内ドキュメントをAIに渡して、そのままMP3形式の音声記事として書き出す
  2. 動画コンテンツの仮ナレーションを台本ごとAIに依頼し、収録スタジオに頼まず試作する
  3. 自分の声を学習させたカスタムボイスで、議事録の読み上げや動画ナレーションを量産する
  4. 英語インタビュー音源を文字起こし(音声→テキスト)して、別MCP(DeepL等)で翻訳する連結パイプラインの起点に使う

プラットフォーム別の注意事項

  • uv(Python パッケージマネージャ)を `brew install uv` で先にインストールしてください。生成音声のデフォルト出力先は `~/Desktop` です。
  • WindowsClaude Desktop の「Developer Mode」を有効化する必要があります(公式README記載)。uv は `winget install --id=astral-sh.uv` でインストールできます。
  • uv を `curl -LsSf https://astral.sh/uv/install.sh | sh` でインストールしてください。