Claude Codeにローカル LLM を接続する方法【2026年最新】Ollama・LM Studio・NVIDIA NIM 完全ガイド
「Claude Codeを使いたいが、APIコストが月に数万円になってしまう」「仕事のコードをAnthropicのサーバーに送りたくない」——こういった悩みを抱えている開発者は多い。
実は Claude Code は、ローカル LLM やサードパーティの API に接続できる。設定は環境変数を2〜3行変えるだけで、Ollamaで動かす場合ならコストをゼロにすることも可能だ。さらに驚きなのが、GPU を持っていなくても NVIDIA NIM という無料クラウド API を使えば、月40リクエスト/分まで無料でかなり高性能なモデルを動かせるという点だ。
この記事では、2026年4月時点の最新情報をもとに、Claude Code をローカル LLM・外部 API に接続する4つの方法と、コーディング向けおすすめモデルを徹底解説する。
※ 2026年4月時点・Claude Code 最新バージョン(v1系)で検証した内容です。
- Claude Code をローカル LLM に接続する仕組みと3つのメリット
- Ollama / LM Studio / vLLM / NVIDIA NIM それぞれの設定手順
- VRAM 別おすすめローカル LLM(8GB・16GB・24GB+)
- 接続後によく起きるトラブルと対処法
Claude Code にローカル LLM を使う3つのメリット
まず「なぜローカル LLM を使うのか」を整理しておく。目的によって選ぶ接続方法も変わってくるからだ。
1. API コストをゼロに近づけられる
Claude Code をフルに使うと、Anthropic の API 料金が1日数百〜数千円に達することがある。ローカル LLM であれば、電気代以外のランニングコストはゼロだ。特にコード補完やファイル整形などの繰り返し作業には、高性能なクラウドモデルは不要なケースも多い。実際に試してみて「タスクの8割はローカル LLM で間に合う」と感じた。重い思考が必要なタスクだけ Claude 3.7 Sonnet に切り替えるハイブリッド運用が、コストと品質のバランスがいい。
2. コードを外部に送信しない(プライバシー保護)
業務での利用時に問題になりやすいのがプライバシーだ。ローカル LLM であれば、コードはすべて自分のマシン内で処理され、外部サーバーに送信されない。社内規定でクラウド AI の利用が制限されている環境でも、ローカル接続なら問題を回避できる場合がある(ただし社内規定は必ず確認すること)。
3. レート制限なしで動かせる
Anthropic API にはレート制限がある。大規模なコードベースをリファクタリングするときなど、短時間に大量のリクエストが必要な場面で制限に引っかかることがある。ローカル LLM であればレート制限はなく、マシンの性能が許す限り連続して動かせる。
接続の仕組みと方法の選び方
Claude Code は内部的に Anthropic の Messages API(/v1/messages エンドポイント)に対してリクエストを送る。この送信先を環境変数 ANTHROPIC_BASE_URL で上書きしてやれば、Anthropic 互換の API を実装した任意のサーバーに接続できる。
Ollama・LM Studio・vLLM はいずれも Anthropic 互換エンドポイントを持っており、URL を差し替えるだけで Claude Code がそのまま動く。
方法の選び方はシンプルだ。
| 方法 | GPU 不要 | セットアップの簡単さ | 向いている人 |
|---|---|---|---|
| Ollama | ×(CPUでも可) | ★★★(最簡単) | まず試したい人、MacユーザーとMetal GPU |
| LM Studio | × | ★★★(GUIで直感的) | GUI が好きな人、モデル管理も簡単に |
| vLLM | × | ★★(Linux向け) | 高速推論・本番運用したい人 |
| NVIDIA NIM | ◯(GPUなしでOK) | ★★(プロキシが必要) | GPUを持っていないがコスト削減したい人 |
GPUを持っていないなら NVIDIA NIM。Mac か GPU 搭載マシンがあれば Ollama が一番手軽だ。
【方法1】 Ollama で接続する(最も簡単)
Ollama のインストール
Ollama 公式サイトからインストーラーをダウンロードするか、以下のコマンドを実行する。
macOS / Linux:
curl -fsSL https://ollama.com/install.sh | sh
Windows:
公式サイトの .exe インストーラーを使う。インストール後、バックグラウンドで Ollama サーバーが自動起動する。
インストール確認:
ollama --version
コーディング向けモデルをダウンロードする
まずローカルで動かすモデルを pull しておく。コーディング用途なら Qwen2.5-Coder シリーズが現時点で最も安定している(後述のおすすめモデル一覧も参照)。
# 8GB VRAM / RAM なら 7B がちょうどいい
ollama pull qwen2.5-coder:7b
# 16GB 以上あれば 14B を推奨
ollama pull qwen2.5-coder:14b
# 汎用的な思考もこなしたいなら Qwen3
ollama pull qwen3:14b
Ollama v0.14.0 以降は Anthropic 互換の /v1/messages エンドポイントが内蔵されており、追加のプロキシ設定なしで動く。
環境変数を設定して Claude Code を起動する
以下の3つの環境変数を設定すれば、Claude Code が Ollama に向くようになる。
export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=""
export ANTHROPIC_BASE_URL=http://localhost:11434
起動:
claude --model qwen2.5-coder:14b
設定を永続化したい場合は .bashrc や .zshrc に追記する。複数モデルを切り替えたい場合はシェルエイリアスが便利だ。
# ~/.bashrc または ~/.zshrc に追加
alias claude-local='ANTHROPIC_AUTH_TOKEN=ollama ANTHROPIC_API_KEY="" ANTHROPIC_BASE_URL=http://localhost:11434 claude'
alias claude-cloud='unset ANTHROPIC_BASE_URL && unset ANTHROPIC_AUTH_TOKEN && claude'
これで claude-local でローカル、claude-cloud でクラウド(本物のClaude)に即切り替えできる。
注意点:KVキャッシュ問題を必ず対処すること
実際に接続してみて「なんか異様に遅い」と感じたら、このトラブルが原因の可能性が高い。
Claude Code はデフォルトで attribution header(誰がリクエストを送ったかの識別子)をリクエストに含める。これが vLLM・Ollama などの KV キャッシュを無効化してしまい、推論速度が最大90%低下するという報告がある。
対処法は Claude Code の設定ファイルで attribution header をオフにすることだ。
# ~/.claude/settings.json に追加
{
"env": {
"CLAUDE_CODE_ATTRIBUTION_HEADER": "0"
}
}
この設定を入れるだけで体感速度が大きく改善する。ローカル LLM を使うなら必ず設定しておくべきオプションだ。
【方法2】LM Studio で接続する
LM Studio とは
LM Studio は GUI でローカル LLM を管理・実行できるデスクトップアプリだ。モデルの検索・ダウンロード・起動がすべてクリック操作でできるため、「ターミナル操作に慣れていない」という人に向いている。Windows / Mac / Linux 対応。
公式サイトからインストーラーをダウンロードする。
ローカルサーバーを有効にする
LM Studio v0.4.1 以降では、Anthropic 互換の /v1/messages エンドポイントが内蔵された。
- LM Studio を起動し、左のサイドバーから「Local Server」を選択
- 起動したいモデルを選んで「Start Server」をクリック
- デフォルトでは
http://localhost:1234でサーバーが起動する
環境変数を設定して Claude Code を起動する
LM Studio のポートは 1234 なので URL のみ Ollama と異なる。
export ANTHROPIC_AUTH_TOKEN=lm-studio
export ANTHROPIC_API_KEY=""
export ANTHROPIC_BASE_URL=http://localhost:1234
claude --model {LM Studio でロードしたモデル名}
モデル名は LM Studio の「Model Info」に表示される ID を使う(例: lmstudio-community/Qwen2.5-Coder-14B-Instruct-GGUF)。
【方法3】vLLM で接続する(高速・本番向け)
vLLM は Python 製の高性能推論エンジンで、NVIDIA GPU を持っている Linux / WSL2 環境に最も向いている。Ollama より高いスループットが出るため、チームで共有サーバーを立てたいケースや、自動化パイプラインに組み込む用途に適している。
インストールと起動
pip install vllm
# Anthropic 互換サーバーとして起動
vllm serve Qwen/Qwen2.5-Coder-14B-Instruct \
--served-model-name claude-3-5-sonnet-20241022 \
--port 8000
--served-model-name を Anthropic のモデル名に合わせることで、Claude Code が認識しやすくなる。
環境変数の設定
export ANTHROPIC_AUTH_TOKEN=vllm
export ANTHROPIC_API_KEY=""
export ANTHROPIC_BASE_URL=http://localhost:8000
vLLM はマルチ GPU・テンソル並列処理にも対応しており、24GB × 2 枚の環境なら 70B クラスのモデルも動かせる。
【方法4】 NVIDIA NIM で接続する(GPU なしでも無料)
NVIDIA NIM とは
NVIDIA NIM(NVIDIA Inference Microservices)は、NVIDIA が提供するクラウド推論 API サービスだ。無料枠では 1分あたり40リクエストまで使え、クレジットカードの登録なしでアカウント作成後すぐに使い始められる。
ポイントは、NIM が Anthropic 互換の API エンドポイントを提供している点だ。これを使えば、GPU を持っていなくても Claude Code からローカル LLM 相当の体験ができる。「ローカル LLM の方法とは違うのでは?」と思うかもしれないが、API コストをゼロにしたい・Anthropic への依存を減らしたいという目的では同じ効果がある。
cc-nim プロキシを使った設定
NVIDIA NIM の API は Anthropic の API と完全互換ではないため、変換プロキシが必要になる。現在最も使われているのが cc-nim というオープンソースプロジェクトだ。
セットアップ手順:
- NVIDIA NIM の API キーを取得する
NVIDIA NIM にアクセスし、無料アカウントを作成。「API Keys」からキーを発行する。
- cc-nim をクローン・起動する
“`bash
git clone https://github.com/Alishahryar1/cc-nim
cd cc-nim
npm install
# .env ファイルに API キーを設定
echo “NIM_API_KEY=your_api_key_here” > .env
# プロキシを起動
node index.js
“`
プロキシはデフォルトで http://localhost:3000 で起動する。
- 環境変数を設定して Claude Code を起動する
“`bash
export ANTHROPIC_AUTH_TOKEN=nim
export ANTHROPIC_API_KEY=””
export ANTHROPIC_BASE_URL=http://localhost:3000
claude
“`
NVIDIA NIM で利用できる主なモデル
cc-nim はモデル名を Claude のモデル名に自動マッピングする仕組みを持っている。2026年4月時点では以下のモデルが利用可能だ。
| Claude モデル名(cc-nim内部) | 実際に動くモデル | 特徴 |
|---|---|---|
| claude-opus(複雑なタスク) | Kimi-K2-Thinking | LiveCodeBench 85%。高難度のコーディング・思考タスク向け |
| claude-sonnet(日常的な作業) | Devstral-2-123B | 大規模なコーディングタスク向けの123Bモデル |
| claude-haiku(軽量・高速) | Kimi-K2.5 | 素早い補完・コード編集向け |
- 思考モデル(Kimi-K2-Thinking)を使う場合、プロキシが特別なパラメータを送信する必要がある。非思考モデルに切り替えたい場合は
NIM_ENABLE_THINKING=falseを.envに追加する - 無料枠の 40 req/分 を超えると 429 エラーが返る。超えそうな場合は有料プランへのアップグレードか、しばらく待って再実行する
- 拡張思考や複雑なツール使用チェーン、マルチファイル編集は完全には動作しない場合がある。基本的なコード生成・単一ファイル編集は安定して動く
Claude Code 向けおすすめローカル LLM
VRAM 別おすすめ構成
ローカル LLM 選びで最初に決めるべきは「使えるメモリ量」だ。VRAM(GPU メモリ)が多いほど大きなモデルが動かせる。なお、量子化(パラメータの精度を下げてサイズ縮小する技術)を使えば、本来必要なメモリの半分以下で動かせる場合が多い。
| 環境 | 推奨モデル | コーディング性能 | 備考 |
|---|---|---|---|
| VRAM 8GB(RTX 3070 等) | Qwen2.5-Coder 7B(4bit量子化) | HumanEval 約76% | 4bit量子化で約4GB に収まる |
| VRAM 16GB(RTX 3080 等) | Qwen2.5-Coder 14B(4bit量子化) | HumanEval 約85% | マルチファイル推論もこなせる |
| VRAM 24GB(RTX 3090 / 4090) | Qwen2.5-Coder 32B(4bit量子化) | HumanEval 約90% | コーディング特化なら現状最強クラス |
| VRAM 24GB × 2 以上 | Qwen3.5-72B(4bit量子化) | HumanEval 87.3% | 汎用性と日本語対応も高い |
| Mac M2 Pro 以上(統合メモリ 32GB+) | Qwen3.5-72B または Gemma 4 27B | 高水準 | Apple Silicon は CPU/GPU でメモリ共有 |
| GPU なし(CPU のみ) | Qwen2.5-Coder 7B(4bit量子化) | HumanEval 約76% | 遅いが動作する。Ollama の CPU 推論 |
コーディング特化モデル 詳細
Qwen2.5-Coder シリーズ(アリババ開発)
現状のローカルコーディング LLM で最も評価が高いシリーズだ。2026年4月時点でも「ローカルコーディングといえば Qwen2.5-Coder」という定評がある。7B・14B・32B と VRAM に合わせてサイズを選べる点が実用的だ。
- HumanEval スコア: 7B → 約76%、14B → 約85%、32B → 約90%
- 201言語に対応し、日本語のコメントや文書生成も自然
- Ollama での pull コマンド:
ollama pull qwen2.5-coder:14b
Qwen3 シリーズ(アリババ開発)
2026年に登場した次世代 Qwen。コーディング特化の 2.5-Coder と違い、思考・推論・日本語対応などを総合的に強化している。32B モデルはビジネス文書の作成やコードレビューのコメント生成など、コード以外の作業も高品質だ。Claude Code との相性も良好という報告が多い。
- 日本語性能が Qwen2.5 から大幅に向上
--thinkオプションで思考モードのオン・オフを切り替えられる- Ollama での pull コマンド:
ollama pull qwen3:14b
Gemma 4(Google DeepMind)
Google が 2026年にリリースした最新ローカル LLM シリーズ。27B モデルは AIME 2024 で 51.2%、LiveCodeBench で 53.8% を達成しており、Claude 3.5 Sonnet 相当の性能に迫る。
特に注目なのが MoE(Mixture of Experts) アーキテクチャを採用した gemma4-27b で、有効パラメータ数が 27B より少ないにもかかわらず高性能を維持する。その分 VRAM 消費も抑えられる。
- Ollama での pull コマンド:
ollama pull gemma4:27b - VRAM 目安: 27B 4bit量子化で約14GB
Llama 4(Meta)
Meta の最新オープンソース LLM。最大 512K トークンのコンテキストウィンドウが特徴で、大規模なコードベースの解析や、長いファイルを一度に読み込むタスクに強い。MoE アーキテクチャを採用しており、巨大なパラメータ数でも推論時の計算量を抑えられる設計だ。
- 512K コンテキストにより、大規模リポジトリの一括読み込みが可能
- Ollama での pull コマンド:
ollama pull llama4:scout(8B の軽量版)
よくあるトラブルと解決策
接続できない・タイムアウトする
Ollama が起動していない場合に起きる。ollama list でモデル一覧が表示されるか確認する。表示されない場合は ollama serve で手動起動する。
# Ollama のプロセスを確認
ps aux | grep ollama
# 手動起動
ollama serve
「Model not found」エラーが出る
claude --model で指定したモデル名が Ollama にない場合に発生する。ollama list で pull 済みのモデル名を確認し、完全一致させる。
ollama list
# 表示例: qwen2.5-coder:14b ... と表示されたらそのまま指定する
レスポンスが異常に遅い
KV キャッシュ問題(前述)が最も多い原因だ。settings.json に "CLAUDE_CODE_ATTRIBUTION_HEADER": "0" を追加して再起動する。
それでも遅い場合は、モデルサイズに対してメモリが不足している可能性がある。ollama ps でモデルがどのくらいのメモリを使っているか確認する。
ollama ps
ツール使用やファイル操作がうまく動かない
ローカル LLM によっては、Claude Code が送る複雑なツール呼び出し(ファイル編集・検索・コマンド実行など)のフォーマットを正確に解釈できない場合がある。これはモデルの能力の問題であり、設定で解決するのは難しい。
対処としては:
– より大きいサイズのモデルに切り替える(7B → 14B → 32B)
– ツール使用に特化した Qwen2.5-Coder 系を選ぶ
– 複雑な作業だけ Claude クラウドモデルを使うハイブリッド運用にする
NVIDIA NIM で 429 エラーが出る
無料枠の 40 req/分 を超えた場合に発生する。30〜60秒待ってから再実行するか、複数の NIM API キーをローテーションする仕組みを組む(公式利用規約の範囲内で)。
各方法のまとめ比較
| 方法 | コスト | セキュリティ | 速度 | おすすめ度 |
|---|---|---|---|---|
| Ollama | 無料(電気代のみ) | 完全ローカル ◎ | GPU 依存 | ★★★★★ |
| LM Studio | 無料(電気代のみ) | 完全ローカル ◎ | GPU 依存 | ★★★★☆(GUI重視の人向け) |
| vLLM | 無料(電気代のみ) | 完全ローカル ◎ | 高速 ◎ | ★★★★☆(Linux+GPU向け) |
| NVIDIA NIM | 無料(40req/分まで) | クラウド(NVIDIA) | 安定 ○ | ★★★★☆(GPU なし向け) |
自分に合った選び方のまとめ
ここまで4つの接続方法と、各ローカル LLM の特徴を解説してきた。最後に「どの組み合わせを選べばいいか」をシンプルにまとめておく。
NVIDIA GPU を持っている(VRAM 8GB 以上)→ Ollama + Qwen2.5-Coder
セットアップが最も簡単で、コーディング性能も十分高い。まず Qwen2.5-Coder 14B か 32B を pull して試してみることをおすすめする。設定は5分以内に終わる。
Mac(Apple Silicon M2 以上)→ Ollama + Gemma 4 または Qwen3
Apple Silicon は統合メモリでCPU・GPU がメモリを共有するため、32GB 統合メモリなら大きめのモデルも動く。Gemma 4 27B か Qwen3 32B が現時点でバランスが良い。
GPU なし・コスト削減したい → NVIDIA NIM + cc-nim
プロキシのセットアップは少し手間だが、一度動けばかなり高性能なモデルを無料で使える。Kimi-K2-Thinking は LiveCodeBench 85% という数字で、多くのコーディングタスクをこなしてくれる。
チームで共有サーバーを立てたい → vLLM
マルチ GPU・高スループットに対応しており、複数人が同時に利用する環境に向いている。
どの方法でも、KV キャッシュ問題への対処(CLAUDE_CODE_ATTRIBUTION_HEADER=0)だけは忘れずに設定してほしい。これを入れるかどうかで体感速度がまるで変わる。
ローカル LLM は日々進化が速い分野だ。2026年の今、半年前のモデルと比べても性能は大幅に上がっている。一度セットアップして試してみると、クラウド API への依存度を大きく下げられるはずだ。



コメント