Mistral OCR MCP — Mistral 公式 OCR API で PDF・画像から AI に文字を読み取らせる

シェア

everaldo 氏が公開する Mistral AI の OCR API 連携 MCP。最大1000ページの PDF と JPG/PNG/GIF/WebP(最大50MB)から構造化テキストを抽出。`process_local_file` / `process_url_file` の2ツールでローカルファイルと URL の両方に対応し、結果はタイムスタンプ付き JSON で保存される。

AIスキル拡張MistralOCRクラウドOCR文字認識PDF抽出Docker
最終確認:
2026-05-13
ライセンス:
MIT

設定方法

{
  "mcpServers": {
    "mistral-ocr": {
      "command": "docker",
      "args": [
        "run", "-i", "--rm",
        "-e", "MISTRAL_API_KEY",
        "-e", "OCR_DIR=/ocr_output",
        "-v", "/path/to/your/files:/files",
        "-v", "/path/to/ocr_output:/ocr_output",
        "mcp-mistral-ocr"
      ],
      "env": {
        "MISTRAL_API_KEY": "<your-mistral-api-key>"
      }
    }
  }
}

概要

Mistral OCR MCP は everaldo 氏が公開する Mistral AI 社の OCR API 連携 MCP サーバーです(GitHub: everaldo/mcp-mistral-ocr / MIT ライセンス / Python 製 / Docker / Smithery 配布)。

Mistral の高精度 OCR エンドポイントを介して、画像(JPG / JPEG / PNG / GIF / WebP)と PDF(最大1000ページ / 50MB)から構造化テキストを抽出します。結果は timestamped JSON ファイルとして保存され、後段の処理(要約・検索・データベース登録)に渡せます。

ローカル CPU での OCR(Tesseract 等)と比較して、Mistral API はクラウド側で処理されるためローカル環境への依存が少なく、特に多言語混在文書や複雑なレイアウトの精度に強みがあります。一方、API キー(有償)と通信コストが必要です。

ローカル OCR との使い分け

用途おすすめ
小規模 PDF / 既にローカル Tesseract があるpdf-mcp(Tesseract 統合 / オフライン)
大量の画像 / 複雑なレイアウト / 多言語混在Mistral OCR MCP(クラウド・高精度)
機密文書(クラウドに送れない)pdf-mcp(ローカル完結)

導入手順

前提条件

  • Docker(推奨)または Python 3.10+ + uv(ローカルビルド)
  • Mistral La Plateforme のアカウントと API キー
  • OCR 結果保存用ローカルディレクトリ

ステップ(Docker 経由)

  1. Mistral のコンソールから API キーを発行
  2. docker pull everaldo/mcp-mistral-ocr(または git clone してローカルビルド docker build -t mcp-mistral-ocr .
  3. ページ上部のタブから使用環境(Claude Desktop / Cursor / Cline)を選択し、JSON 設定をコピー
  4. <your-mistral-api-key> を発行した API キーに置き換える
  5. /path/to/your/files/path/to/ocr_output を実際のパスに置き換える
  6. クライアントを再起動

Smithery 経由(最短)

npx -y @smithery/cli install @everaldo/mcp/mistral-crosswalk --client claude

Claude Desktop に対する場合のみ。初回起動時に MISTRAL_API_KEY の入力を求められます。

使い方の例

「/files/contract.pdf を OCR して、契約条項のテキストを抜き出して」
→ process_local_file で PDF を Mistral OCR API に送信 → JSON で結果取得

「https://example.com/scanned-invoice.pdf を OCR して請求金額を教えて」
→ process_url_file で URL の PDF をリモート取得 → OCR

提供されるツール

公式リポジトリの src/mcp_mistral_ocr/main.py@mcp.tool() デコレータから逐語抽出した 2 ツール:

  • process_local_file(filename: string) — "Process a local file from OCR_DIR"(OCR_DIR 環境変数で指定したディレクトリ内のファイル名を渡す)
  • process_url_file(url: string, file_type: "image"|"pdf") — "Process a file from a URL"(URL とファイル種別を明示)

両ツールとも MCP 起動時に MISTRAL_API_KEYOCR_DIR の存在を検証し、未設定の場合は例外を投げて起動を中断します(fail-fast)。各ツールの結果はタイムスタンプ付き JSON で OCR_DIR 配下に保存されます(Docker container 内では /data/ocr がデフォルト・MDX 例の /ocr_output は任意の保管場所)。

注意事項

  • Mistral API キーは必須です。OCR 処理は Mistral 側で実行されるため通信が発生します(料金は Mistral の OCR 価格に依存・無料枠は限定的)。
  • 最大ファイルサイズ 50MB、PDF は最大1000ページ(Mistral API 側の制限)。
  • 機密文書(NDA / 個人情報含む契約書等)をクラウド OCR に送るかは社内のセキュリティポリシーを確認してください。
  • 多言語サポートについては README に明示記載がないため、Mistral OCR API の公式ドキュメント(mistral.ai のドキュメント)を参照してください。
  • 本 MCP は everaldo 氏(個人)のコミュニティ実装で、Mistral AI 公式提供ではありません(API は Mistral 公式)。

主なユースケース

  1. 「契約書のスキャン PDF から条文をテキスト化して」と頼み、`process_local_file` で OCR → 条文を構造化
  2. 「URL の領収書画像から日付と金額を抽出して」と頼み、`process_url_file` でリモート OCR
  3. 「論文の図キャプションも含めて全文テキスト化して」と頼み、Mistral の高精度 OCR でレイアウト維持
  4. 1000ページ規模の技術書 PDF を一括 OCR し、後段の検索エンジン(pdf-mcp 等)に渡す前段処理

プラットフォーム別の注意事項

  • WindowsDocker Desktop の有効化が必要です。WSL2 上での実行を推奨。
  • Smithery 経由のワンライナーインストールも提供されています: `npx -y @smithery/cli install @everaldo/mcp/mistral-crosswalk --client claude`。Claude Desktop に直接インストールされます。
  • ローカルビルドする場合は `git clone` 後 `uv pip install .` で開発用インストール可能(PyPI 直接配布は現状なし)。