deepseek 96gbで本当に動くの?96GBメモリで最強AIを自宅で動かせるか全部調べ尽くした
「deepseek 96gb」と検索しているあなたは、おそらく「手元の96GBメモリ環境でDeepSeekを動かせるのか?」「どれくらいの速度で動くのか?」という疑問を持っているはずだ。結論からいうと、96GB RAMのゲーミングPCでもDeepSeek R1 671Bという最大規模のモデルを動かすことは可能で、実際に自宅環境で動かしているユーザーの詳細なベンチマークデータが複数報告されている。ただし「動く」と「快適に動く」は別の話で、設定や構成によってパフォーマンスに大きな差が出る。
この記事では、96GB RAMのAM5ゲーミングリグでDeepSeek R1 671Bを走らせた実測データ、llama.cppのmmap機能を使ったメモリ節約テクニック、量子化の選び方、さらに業務用の8×H20(96GB VRAM)構成でのvLLMとSGLangの比較まで、「deepseek 96gb」に関連するあらゆる情報を網羅的に整理した。初めてローカルLLMに挑戦する人にも分かるよう、専門用語には丁寧な解説を添えている。
| この記事のポイント |
|---|
| ✅ 96GB RAMゲーミングPCでDeepSeek R1 671Bを動かした実測ベンチマークを紹介 |
| ✅ llama.cppのmmap機能を使ったメモリ不足回避の仕組みを解説 |
| ✅ deepseekのダウンロード前に確認すべき必要スペックを整理 |
| ✅ 業務用H20 96GB VRAM構成でのvLLM vs SGLang比較データも掲載 |
DeepSeek 96GBで動かすための基礎知識と環境構成

- 「deepseek 96gb」で検索した人が知りたいことは96GBメモリで動くかどうか
- DeepSeekとは何か:世界を驚かせた中国発のオープンソースAIモデル
- 96GBのVRAMと96GBのRAMは別物:混同しがちな違いを徹底解説
- deepseekをダウンロードする前に確認すべき必要スペック
- deepseek R1 671Bの96GBメモリ環境での実測パフォーマンス
- 96GB RAMゲーミングPCで671Bモデルを動かすセットアップ手順
「deepseek 96gb」で検索した人が知りたいことは96GBメモリで動くかどうか

「deepseek 96gb」というキーワードで検索する人が一番知りたいことは、「自分の96GBメモリ環境でDeepSeekの大型モデルが動くかどうか」 というシンプルな疑問に集約される。答えを先にいえば、動く。ただし条件と設定が重要だ。
96GBというメモリ容量は、2025年時点のローカルLLM運用においてひとつの重要な分岐点にあたる。DeepSeek R1 671Bモデルを量子化(モデルサイズを圧縮する処理)した場合、最も軽い1.58bpwの「UD-IQ1_S」でおよそ131GiBのファイルサイズになる。つまり、96GBのRAMだけではモデル全体をメモリに乗せることは難しい。
しかし、これは「動かない」を意味しない。llama.cppというオープンソースの推論エンジンに搭載されている「mmap(メモリマップ)機能」を使えば、モデルファイルをディスク上に置いたままでも推論が可能になる。このとき、読み込み頻度の高いデータはシステムRAMがディスクキャッシュとして機能するため、高速なNVMe SSDと組み合わせることで実用的な速度を実現できる。
実際にAMD 9950X + 96GB RAM + RTX 3090Ti 24GB VRAMの環境でDeepSeek R1 671Bを動かしているユーザーの報告では、Q2クラスの量子化モデルで1.28〜2.28 tok/sec(1秒あたりのトークン生成数)を達成している。
参照元:https://forum.level1techs.com/t/deepseek-r1-671b-backed-by-fast-read-iops/225008
📋 96GBメモリ環境でのDeepSeek動作サマリー
| 項目 | 状況 |
|---|---|
| 動作の可否 | ✅ 動作可能 |
| 主な制約 | RAMにモデル全体は乗らない場合がある |
| 回避策 | llama.cppのmmap機能 + 高速NVMe SSD |
| 目安速度 | 1〜2.3 tok/sec(量子化・設定による) |
| 現実的な用途 | 実験・研究・ローカルAI趣味用途 |
重要なのは「96GB」というメモリがRAMなのかVRAMなのかという点だ。この2つはまったく別の概念であり、パフォーマンスにも大きな差が出る。次のセクションで詳しく解説する。
DeepSeekとは何か:世界を驚かせた中国発のオープンソースAIモデル

DeepSeekは中国のAI企業「DeepSeek AI」が開発したLLM(大規模言語モデル)シリーズで、2025年初頭に「DeepSeek R1」が公開されたとき、世界中のAI業界に衝撃を与えた。その理由は主に2点ある。
まず「性能」と「コスト」のバランスが桁違いだったこと。OpenAIのGPT-4oやAnthropicのClaudeと互角とも言われる推論性能を、はるかに低コストで実現したと報告された。次にオープンソースで公開されたこと。モデルの重みファイルが誰でも自由にダウンロードして使えるため、自宅のPCでも動かせる。
DeepSeekチームは、データパイプラインの品質向上、MoEアーキテクチャの独自応用、トレーニングプロセスの最適化という3つの軸で、既存の手法より「賢く」学習させることに成功したと評価されている。
参照元:https://forum.level1techs.com/t/is-deepseek-a-meme-hype-revolutionary-or-just-another-ai/224760?page=3
📋 DeepSeekの主要モデル比較
| モデル名 | パラメータ数 | 特徴 | ローカル動作の難易度 |
|---|---|---|---|
| DeepSeek R1 Distill 14B | 140億 | 軽量・高速 | ✅ 比較的容易 |
| DeepSeek R1 Distill 32B | 320億 | バランス型 | △ 24GB VRAM推奨 |
| DeepSeek R1 Distill 70B | 700億 | 高品質 | ⚠️ 128GB RAM以上推奨 |
| DeepSeek R1 671B | 6,710億 | フルモデル・最高品質 | 🔴 256GB+推奨(96GBはmmap必要) |
| DeepSeek V3-0324 | 6,710億 | V3の最新版 | 🔴 同上 |
「Distill(蒸留)」モデルに注意が必要だ。「DeepSeek R1」という名前で出回っているモデルの多くは、実は本物のR1ではなく、Qwen2.5などの別モデルをDeepSeek R1の出力データで追加学習させた「蒸留版」だ。本物のR1 671Bとは別物で、サイズも性能も大きく異なる。
DeepSeek R1はCoT(Chain of Thought:思考の連鎖)と呼ばれる推論プロセスを使い、複雑な問題を段階的に解いていく能力が特に高い。ただし、この推論プロセスが1回の返答で1,000トークン以上使うことも珍しくなく、生成速度が遅い環境では実用的に使いにくいという側面もある。
96GBのVRAMと96GBのRAMは別物:混同しがちな違いを徹底解説

「deepseek 96gb」の検索で混乱が生じやすいのが、「96GB VRAM」と「96GB RAM(システムメモリ)」の違いだ。これらはまったく別のハードウェアを指しており、AIモデルの動作速度に大きな差をもたらす。
VRAM(Video RAM) はGPUに搭載されているメモリで、AIの計算処理に直接使われる。帯域幅が非常に広く、たとえばNVIDIA H20のGBWは4TB/sを超える。一方、システムRAM(メインメモリ) はCPUが使うメモリで、帯域幅はDDR5でも100〜200GB/s程度にとどまる。
📋 VRAMとRAMの基本比較
| 比較項目 | VRAM(例:H20) | システムRAM(例:DDR5) |
|---|---|---|
| 搭載場所 | GPU上 | マザーボード |
| 帯域幅 | ~4,000 GB/s以上 | 80~200 GB/s |
| 用途 | GPU演算・モデルウェイト保持 | CPU処理・OSメモリ |
| AI推論速度への影響 | 非常に大きい | 大きい(VRAMより遅い) |
| 96GBの入手難易度 | 非常に高価(H20等) | 比較的安価(AM5等) |
📋 「96GB」の文脈別の意味
| 文脈 | 意味 | 具体的な構成例 |
|---|---|---|
| 「96GB VRAM」 | GPUのビデオメモリが96GB | NVIDIA H20、AMD MI300X等 |
| 「96GB RAM」 | システムメモリが96GB | DDR5 2×48GB(AM5プラットフォーム等) |
| 「Mac 96GB」 | ユニファイドメモリ96GB | Apple M3 Max/Ultra等 |
Macのユニファイドメモリは特殊なケースだ。AppleのM系チップはCPUとGPUが同じメモリプールを共有しており、96GBのユニファイドメモリであればモデルのウェイト保持にも演算にも同じメモリが使われる。バンド幅もM3 Ultarで819 GB/sに達するため、システムRAM 96GBよりも高いAI処理性能が期待できる。
一般的な認識として、AI推論においてはVRAM > ユニファイドメモリ > システムRAMの順に速度有利とされているが、モデルの全体をどこに置けるかが最大のポイントだ。VRAMに乗り切らない場合、システムRAMへのスピルオーバー(はみ出し)が発生し、速度が急激に低下する。
deepseekをダウンロードする前に確認すべき必要スペック

DeepSeekを自前のハードウェアで動かそうと考えているなら、まず自分の環境がどのモデルに対応できるかを正確に把握することが先決だ。「deepseekをダウンロードしたはいいけど動かない」という状況を避けるために、事前チェックリストを整理した。
✅ ダウンロード前の確認事項
- システムRAMの容量(最低16GB、できれば64GB以上)
- VRAMの容量(特定モデルをフルGPU動作させたい場合)
- ストレージの空き容量(最小でも131GiB以上)
- NVMe SSDの有無(mmap運用時にHDDは実用的でない)
- 使用する推論エンジン(llama.cpp、Ollama、LM Studio等)
📋 モデルサイズ別の必要環境目安
| モデル | ファイルサイズ目安 | 最低RAM目安 | 推奨VRAM |
|---|---|---|---|
| DeepSeek R1 Distill 14B (Q4) | ~8GB | 16GB | 12GB以上 |
| DeepSeek R1 Distill 32B (Q4) | ~18GB | 32GB | 24GB以上 |
| DeepSeek R1 671B IQ1_S | ~131GiB | 128GB以上(mmap時は96GBでも可) | ー(CPU推論) |
| DeepSeek R1 671B Q2_K | ~212GiB | 256GB推奨 | ー(CPU推論) |
「最小の実際のR1モデルは、UD-IQ1_S 1.58bpwで131GiBになる。128GBのRAMでは若干足りないが、高速なドライブがあれば試せる」
参照元:https://forum.level1techs.com/t/deepseek-r1-671b-backed-by-fast-read-iops/225008
Ollamaを使う場合のダウンロードコマンドはシンプルで、ollama pull deepseek-r1:671b のような形で取得できる(ただしファイルサイズに注意)。llama.cppを使う場合はHugging Faceから直接GGUFファイルをダウンロードする形が一般的だ。unslothやbartowskiのリポジトリには各種量子化モデルが公開されており、自分の環境に合ったサイズを選べる。
初心者には14Bや32BのDistillモデルから始めることを強く推奨する。671Bのフルモデルは「動く」と「使いやすい」の間に大きなギャップがあり、1〜2 tok/secという速度は長文の思考プロセスが走るR1には特にストレスになりやすい。
deepseek R1 671Bの96GBメモリ環境での実測パフォーマンス

96GB RAMのシステムでDeepSeek R1 671Bを実際に動かした場合の速度について、Level1Techsフォーラムの詳細なベンチマークデータが参考になる。構成はAMD 9950X(AM5)+ 96GB DDR5 RAM + RTX 3090Ti 24GB VRAMという、2025年時点での高性能ゲーミングPCに近い構成だ。
📋 96GB RAM環境でのDeepSeek R1 671B実測ベンチマーク
| コンテキスト | GPUレイヤー数 | 使用エキスパート数 | キャッシュ使用量(GiB) | 生成速度(tok/sec) |
|---|---|---|---|---|
| 2048 | 5 | 8 | ~82 | 1.45 |
| 2048 | 5 | 4 | ~82 | 2.28 |
| 2048 | 0 | 8 | ~82 | 1.28 |
| 2048 | 0 | 4 | ~82 | 2.20 |
| 8192 | 5 | 8 | ~67 | 1.25 |
| 8192 | 5 | 4 | ~67 | 2.12 |
| 8192 | 0 | 8 | ~66 | 1.10 |
| 8192 | 0 | 4 | ~66 | 1.81 |
参照元:https://forum.level1techs.com/t/deepseek-r1-671b-backed-by-fast-read-iops/225008
このデータから読み取れる重要なポイントが3つある。
① expert_used_countを8から4に下げると速度が約1.5〜1.7倍向上する。DeepSeek R1はMoE(Mixture of Experts)という仕組みを使っており、推論時に何個の「専門家モデル」を使うかを指定できる。デフォルトは8だが、4に下げると速度が大幅に上がる(出力品質がやや低下する可能性があるとされている)。
② GPUレイヤーをオフロードしても劇的な改善はない。5レイヤーをGPUに乗せた場合と乗せない場合の差は0.1〜0.2 tok/sec程度で、96GB RAM環境でのボトルネックはGPU演算力よりもメモリ帯域幅とストレージ読み込み速度にある。
③ コンテキストサイズが大きくなると少し遅くなる。8192トークンのコンテキストは2048に比べてわずかに速度が落ちるが、それほど大きな差ではない。
📋 比較参考:Threadripper + 512GB DDR4環境のパフォーマンス
| 構成 | メモリ | モデル | 速度 |
|---|---|---|---|
| Threadripper 3995WX | 512GB DDR4 | DeepSeek-V3 Q4_K_M | 2〜3 words/sec |
| AMD 9950X + 3090Ti | 96GB DDR5 + 24GB VRAM | R1 671B IQ1 | 1.28〜2.28 tok/sec |
| EPYC(サーバー構成) | 768GB DDR5 | R1 671B fp8(非量子化) | ~6 tok/sec |
96GBのシステムRAMは、フル671Bモデルを快適に動かすには「ギリギリ動く」ラインだと言える。実験・研究・趣味用途としては十分な価値があるが、日常的なAIアシスタントとして使うには遅さが気になるかもしれない。
96GB RAMゲーミングPCで671Bモデルを動かすセットアップ手順

実際に96GB RAMのゲーミングPCでDeepSeek R1 671Bを動かす手順を、Level1Techsフォーラムの情報をもとに整理する。Windows環境でも基本的な考え方は共通だが、ここではLinux/llama.cppを前提とした手順を紹介する(Windowsでは一部コマンドが異なる)。
✅ セットアップの全体フロー
- モデルファイル(GGUF形式)をHugging Faceからダウンロード
- llama.cppをソースからビルド
- mmap機能を活用してモデルをロード
- メモリ不足(OOM)が発生する場合はcgroupsでRAM上限を設定
- llama-serverを起動してブラウザからアクセス
📋 llama-serverの主要起動オプション一覧
| オプション | 説明 | 推奨設定例 |
|---|---|---|
--model |
GGUFファイルのパス | 最初のファイルを指定 |
--ctx-size |
コンテキストサイズ | 2048〜8192 |
--override-kv deepseek2.expert_used_count |
エキスパート数(速度に影響) | int:4(速度優先)またはint:8(品質優先) |
--cache-type-k |
KVキャッシュの量子化タイプ | q4_0 |
--n-gpu-layers |
GPUにオフロードするレイヤー数 | 5(24GB VRAM時) |
--threads |
CPUスレッド数 | 物理コア数に合わせる |
「OOMkillerがプロセスを終了させる場合、Linuxのcgroupsを使ってllama-serverプロセスのRAM上限を設定すると、プロセスがmalloc()の代わりにmmap()を使うようになり安定する」
参照元:https://forum.level1techs.com/t/deepseek-r1-671b-backed-by-fast-read-iops/225008
NVMe SSDのスペックも非常に重要だ。mmap()運用ではモデルのウェイトをディスクから直接読み込むため、シーケンシャル読み込み速度が速いほどパフォーマンスが上がる。Crucial T700のような最新Gen5 NVMe SSDであれば12,000 MB/sの読み込みが可能で、96GBのRAMをディスクキャッシュとして活用しながら快適に動作する報告がある。
初回起動時にはモデルのロードに数分〜十数分かかることがあるが、一度ロードが完了すれば推論自体はそのまま継続できる。起動後はブラウザでhttp://127.0.0.1:8080にアクセスすると、チャットUIが表示される。
DeepSeek 96GBをさらに使いこなすための実践テクニックと深掘り解説

- 量子化(クオンタイズ)でモデルサイズを削減する仕組みと選び方
- llama.cppのmmap機能でメモリ不足を回避する仕組みの詳細
- GPU VRAMとシステムRAMを組み合わせたハイブリッド運用の考え方
- vLLMとSGLangどちらを使うべきか:H20(96GB)×8環境での比較
- 生成速度を上げるためのexpert_used_countチューニング詳細
- DeepSeek R1とDistillモデルの違い:選択基準を整理する
- 総括:deepseek 96gbのまとめ
量子化(クオンタイズ)でモデルサイズを削減する仕組みと選び方

AIモデルの「量子化」は、モデルのウェイト(重みパラメータ)を低精度の数値形式で保存することでファイルサイズを小さくする技術だ。元のfp32(32ビット浮動小数点)で保存すると膨大なサイズになるモデルを、4ビットや2ビットに圧縮して扱いやすくする。当然、圧縮率が高いほどファイルサイズは小さくなるが、精度(出力の品質)がある程度低下する。
DeepSeek R1 671Bのフルモデル(fp8)はおよそ600+GiBのファイルサイズになる。これをどこまで圧縮できるかを示したのが以下の表だ。
📋 DeepSeek R1 671Bの量子化別ファイルサイズ比較
| 量子化形式 | ファイルサイズ | 精度 | 必要なRAM目安 | 備考 |
|---|---|---|---|---|
| fp8(オリジナル) | 600+GiB | 最高 | 600GB+ | 家庭用途では非現実的 |
| Q8_0 | ~666GiB | 非常に高い | 700GB+ | ベースライン比較用 |
| IQ3_K(ik_llama.cpp専用) | 301GiB | 高い | 368GB推奨 | 最近公開の高品質量子化 |
| Q2_K_XL(UD) | ~212GiB | 中程度 | 256GB推奨 | 96GBでmmap使用可 |
| UD-IQ1_S | 131GiB | 低め | 128GB推奨 | 96GBでmmap使用可 |
| UD-IQ1_M | ~ | 低め | 同上 | やや品質高め |
「UD-IQ1_S 1.58bpwは131GiBで、技術的には96GB RAMのシステムでもmmap機能を使って動作させることが可能。ただし最高速度は期待できない」
参照元:https://forum.level1techs.com/t/deepseek-r1-671b-backed-by-fast-read-iops/225008
📋 量子化選択の考え方マトリクス
| 優先したいもの | おすすめ量子化 | 理由 |
|---|---|---|
| 品質最優先 | Q8_0、IQ3_K | 元モデルに近い出力 |
| スピードと品質のバランス | Q4_K_M、IQ4_XS | 一般的なロカールLLMの定番 |
| とにかく動かしたい(96GB RAM) | UD-IQ1_S | 131GiBで一番軽い |
| ある程度の品質も欲しい(256GB RAM) | Q2_K_XL | 妥協点としてよく選ばれる |
「Dynamic Quant(動的量子化)」という概念も知っておきたい。unslothが採用しているUD(Unsloth Dynamic)形式は、重要なレイヤーには高い精度を維持しつつ、影響の少ないレイヤーを積極的に低精度化する手法だ。単純な均一量子化に比べて、同じファイルサイズでも品質が高いとされている。
量子化の品質比較には「パープレキシティ(Perplexity、PPL)」という指標が使われる。数値が低いほど品質が高く、Q8_0を基準(PPL≒3.21)とした場合、IQ3_K系は3.27程度と非常に近い値を示しており、半分程度のファイルサイズでも高品質を維持できることが分かる。
llama.cppのmmap機能でメモリ不足を回避する仕組みの詳細

llama.cppのmmap(メモリマップ)機能は、96GBという「RAMが足りない」環境でDeepSeek 671Bを動かすための鍵となる技術だ。仕組みを理解することで、なぜこの機能が有効なのかが分かる。
通常のプログラムがファイルを読む場合、OSはファイルの内容をRAMに「コピー」してから処理する。モデルファイルが131GiBある場合、普通に読もうとすれば131GiBのRAMが必要になる。しかしmmap()は「ファイルをメモリ空間にマッピングする」だけで、実際のコピーは必要になった時点で遅延実行される。
これにより、131GiBのファイルを扱う場合でも、実際にRAMを消費するのは「推論時に実際にアクセスされた部分だけ」になる。残りはOSのページキャッシュ機能によってNVMe SSD上に保持され、必要に応じて読み込まれる仕組みだ。
📋 mmap使用時のメモリ動作フロー
| フェーズ | 動作 | RAMへの影響 |
|---|---|---|
| モデルロード時 | ファイルをメモリ空間にマッピング | ほぼ0(マッピングのみ) |
| 推論中(アクティブなエキスパート) | 必要なウェイトをNVMeから読み込み | 使用した分だけ増加 |
| 推論中(キャッシュ済みウェイト) | RAMキャッシュから即座に使用 | 維持 |
| エキスパート切り替え時 | 古いキャッシュを解放し新しいウェイトを読み込み | 一時的な「バースト」が発生 |
「btopで監視すると、モデルが別の動作モード(計算、別言語など)に切り替わる際にキャッシュがフラッシュされ、新しいウェイトで埋め直されるのが見える。これが速度低下の原因だ」
参照元:https://forum.level1techs.com/t/deepseek-r1-671b-backed-by-fast-read-iops/225008
mmap運用でパフォーマンスを最大化するための3つのポイントは以下の通りだ。
✅ mmap運用のパフォーマンス最大化ポイント
- Gen4/Gen5 NVMe SSDを使う:HDDやSATAはシーケンシャル読み込みが500MB/s程度で実用的でない。Gen5 NVMe(12,000 MB/s以上)が理想
- システムRAMを最大化する:RAMが多いほどOSのページキャッシュが大きくなり、ウェイトのキャッシュ効率が上がる。96GBのRAMは88GB/sの帯域幅でキャッシュとして機能する
- no-mmapオプションは使わない:全ウェイトをRAMにロードする設定は、RAM不足の環境ではOOMkillerに殺される原因になる
一方、OOMkiller問題への対処も重要だ。Linuxではメモリが枯渇するとOOMkiller(Out Of Memory Killer)が強制的にプロセスを終了させる。これを回避するには、llama-serverをcgroupsで起動し、人工的なRAM上限を設定することでプロセスがmmap()を選択するよう誘導できる。
GPU VRAMとシステムRAMを組み合わせたハイブリッド運用の考え方

96GB RAMの環境でDeepSeekを動かす際、GPUのVRAMとシステムRAMを組み合わせた「ハイブリッド運用」が現実的な選択肢となる。ゲーミングPCの多くはGPU(主に24GBクラス)を搭載しており、このVRAMを活用することで一部の処理を高速化できる。
MoEアーキテクチャのDeepSeek R1は、全レイヤーを一律にGPUに乗せる必要はなく、特に計算コストの高い非ルーティングレイヤー(アテンション層など)をGPUに置き、残りのルーティングエキスパートをRAMで処理するという分業が可能だ。
📋 ハイブリッド運用の構成パターン
| GPUのVRAM | 推奨構成 | 期待効果 |
|---|---|---|
| 24GB(3090/4090等) | 非エキスパートレイヤー + MLA(18GB相当)をGPUに | 32kコンテキストに対応 |
| 48GB(A6000等) | より多くのレイヤーをGPU側に | 速度向上 |
| 96GB×8(H20等) | フルモデルをGPUで処理 | 最大163,840コンテキスト |
| VRAMなし | 全てCPU+RAMで処理 | 動作はするが低速 |
「ik_llama.cppのQ8_0クオントでは約18GBのウェイトをGPUに置く設計になっており、24GB VRAMで32kコンテキストに対応できる。さらに24〜40GB VRAMがあれば160kコンテキストも可能になる」
参照元:https://forum.level1techs.com/t/deepseek-deep-dive-r1-at-home/225826?page=7
-ot オプションによるテンソル単位の配置制御も覚えておくと便利だ。llama.cppの-ot(オーバーライドテンソル)オプションを使えば、どのレイヤーをGPUに置き、どのレイヤーをRAMで処理するかを正規表現で細かく指定できる。たとえば「最初の数レイヤーのFFN(フィードフォワードネットワーク)をGPUに、残りをCPU側に」といった細かいチューニングが可能だ。
PCIe帯域幅も考慮すべき要素だ。PCIe 4.0ではCPU-GPU間の帯域幅は約32GB/sで、DDR5のシステムRAMの85GB/sと比べると低い。この点で、VRAMにスピルオーバーする処理がPCIeを通過する場合、逆に速度が落ちるケースもある。どのレイヤーをGPUに置くかを適切に選ぶことが、ハイブリッド運用の肝といえる。
vLLMとSGLangどちらを使うべきか:H20(96GB)×8環境での比較

業務用途や研究環境では、NVIDIA H20(1枚あたり96GB VRAM)を8枚並列構成でDeepSeek V3を動かすケースがある。この構成で注目されているのが、推論エンジンの選択問題だ。
GitHubのvLLMリポジトリには、「8×H20(96GB)でDeepSeek V3をvLLMで動かすと最大コンテキスト長が6,500トークンしか出ないが、SGLangでは163,840トークンに達する」という報告があった。
📋 vLLMとSGLangの比較(8×H20 96GB環境)
| 比較項目 | vLLM | SGLang |
|---|---|---|
| 最大コンテキスト長(報告値) | ~6,500トークン | ~163,840トークン |
| 設定の容易さ | ✅ 比較的簡単 | △ やや複雑 |
| 対応モデルの幅 | 広い | DeepSeekに最適化 |
| メモリ効率 | △ MLA対応に課題 | ✅ MLA最適化済み |
| コミュニティの活発度 | 非常に活発 | 活発 |
このコンテキスト長の差は、DeepSeek V3が採用しているMLA(Multi-head Latent Attention)という特殊なアテンション機構への対応差から来ていると考えられる。MLA is a technique that significantly compresses the KVキャッシュ(各トークンの推論状態を保存するメモリ)のサイズを大幅に削減するもので、この実装が効率的かどうかで扱えるコンテキスト長に大きな差が出る。
ik_llama.cpp(ikawrakow氏によるfork)はMLA対応に特に力を入れており、家庭用環境でもMLAの恩恵を受けながら大きなコンテキストを扱えるようになっている。ただし、このforkで作られた特殊な量子化形式(_r4サフィックスがつくもの)は、通常のllama.cpp、Ollama、LM Studio、KoboldCPPでは動作しないため注意が必要だ。
📋 推論エンジン選択ガイド
| 環境 | 推奨エンジン | 理由 |
|---|---|---|
| 8×H20等の業務用マルチGPU | SGLang | MLA最適化・コンテキスト長 |
| ゲーミングPC(単GPU) | llama.cpp / ik_llama.cpp | mmap対応・柔軟なオフロード |
| 初心者・手軽に試したい | Ollama / LM Studio | GUI・ワンコマンド起動 |
| Macユーザー | llama.cpp(metal対応) / LM Studio | Apple Silicon最適化 |
生成速度を上げるためのexpert_used_countチューニング詳細

DeepSeek R1が採用しているMoE(Mixture of Experts:専門家の混合)アーキテクチャについて、もう少し深く理解することでexpert_used_countチューニングの意味が見えてくる。
MoEとは、モデル全体を多数の「専門家(Expert)」モジュールに分割し、各入力トークンに対して「どの専門家を使うか」を動的に決定する仕組みだ。DeepSeek R1 671Bは合計256人の専門家を持ち、通常の推論時はデフォルトで8人の専門家を同時に使う(expert_used_count=8)。
📋 expert_used_countの変更による影響
| expert_used_count | 速度 | 品質(推測) | 備考 |
|---|---|---|---|
| 8(デフォルト) | 1.28〜1.45 tok/sec | 最高 | 公式設定 |
| 4 | 2.12〜2.28 tok/sec | やや低下の可能性 | 速度1.5〜1.7倍 |
| 2 | さらに速い(推測) | 低下が顕著(推測) | 推奨しない場合が多い |
「expert_used_count=4の方がデフォルトの8より速く(おそらく品質は低い)、APIプロバイダーがどのクオントと何人のエキスパートで動かしているかを確認するべきだ」
参照元:https://forum.level1techs.com/t/deepseek-r1-671b-backed-by-fast-read-iops/225008
llama.cppでのコマンドライン指定方法は以下の通り。
--override-kv deepseek2.expert_used_count=int:4
このオプション1つで速度が約1.5倍になる可能性があるため、96GB RAMという制約がある環境では試してみる価値は高い。ただし、あくまでも「おそらく品質に影響する」という前提であり、どの程度影響するかは使用するタスクや量子化レベルにも依存する。
また、MoEの性質上、モデルが「計算を行う」「自然言語を生成する」「別言語に切り替える」といった動作モードを変えるとき、使われる専門家セットが切り替わり、ディスクからの再読み込みが発生してレイテンシが上がることがある。これが推論途中で速度が変動する原因であり、mmap運用時の特徴的な挙動だ。
DeepSeek R1とDistillモデルの違い:選択基準を整理する

「deepseek 96gb」を調べているうちに、「R1」「V3」「Distill」「671B」などさまざまな名前に混乱した人も多いはずだ。ここで整理しておく。
本物のDeepSeek R1とDistillモデルはまったくの別物だ。Distill(蒸留)モデルとは、本物のR1の出力データを教師データとして、Qwen2.5やLlamaなどの小型モデルを追加学習させたものだ。R1の「考え方のスタイル」を学ばせているが、ベースとなるモデルのアーキテクチャはR1とは異なる。
📋 モデルシリーズの関係性
| モデル名 | 本体サイズ | ベースモデル | 特徴 |
|---|---|---|---|
| DeepSeek R1 671B | 6,710億パラメータ | DeepSeek独自 | 本物のR1。CoT推論が最強 |
| DeepSeek R1 Distill 70B | 700億パラメータ | Qwen2.5-72B | R1出力で学習した蒸留版 |
| DeepSeek R1 Distill 32B | 320億パラメータ | Qwen2.5-32B | 人気の中間サイズ |
| DeepSeek R1 Distill 14B | 140億パラメータ | Qwen2.5-14B | 軽量・高速 |
| DeepSeek R1 Distill 8B | 80億パラメータ | Llama-3.1-8B | 最も軽量 |
| DeepSeek V3-0324 | 6,710億パラメータ | DeepSeek独自 | V3の最新アップデート版 |
| DeepSeek R1-0528 | 6,710億パラメータ | DeepSeek独自 | R1の改良版(2025年5月) |
「多くの人が自宅で動かしているR1モデルは実際にはR1ではなく、Qwen2.5-32BなどにコCCoT出力でfine-tuningした蒸留版だ。これを理解しないと、R1の評判に対して実際の体験が合わない原因になる」
参照元:https://forum.level1techs.com/t/deepseek-r1-671b-backed-by-fast-read-iops/225008
📋 用途別おすすめモデル選択ガイド
| 用途・環境 | おすすめモデル | 理由 |
|---|---|---|
| 96GB RAM(mmap使用) | R1 671B UD-IQ1_S | ギリギリ動かせる最小サイズ |
| 96GB RAM + 24GB VRAM | R1 Distill 32B Q4 または R1 671B IQ1 | スムーズな動作を優先するなら32B推奨 |
| 256GB RAM | R1 671B Q2_K_XL | バランス良い品質と動作 |
| 512GB RAM以上 | R1 671B IQ3_K | 高品質かつ現実的なサイズ |
| 速さ最優先 | R1 Distill 14B Q4 | VRAM内に収まりサクサク動く |
2025年5月に公開されたDeepSeek-R1-0528は、元のR1 671Bの改良版で品質向上が確認されている。PPLがR1の3.21から3.27付近を維持したまま、さまざまなベンチマークで改善が見られると報告されている。96GB RAMユーザーには301GiBのIQ3_K_R4クオントは重すぎるが、212GiB以下のUD系クオントであればmmap運用で試せる範囲だ。
総括:deepseek 96gbのまとめ

最後に記事のポイントをまとめます。
- 96GB RAMのシステムでもDeepSeek R1 671Bは動作可能であり、llama.cppのmmap機能が鍵となる
- 動作速度は1.28〜2.28 tok/secが現実的な範囲で、快適に使うには遅さを許容する必要がある
- VRAMの96GBとシステムRAMの96GBはまったく別物で、VRAM(H20等)の方がはるかに高速なAI処理が可能
- deepseekをダウンロードする前に、RAMの容量・NVMe SSDの速度・GPUのVRAM容量を必ず確認すること
- ファイルサイズはUD-IQ1_Sが131GiBと最小で、96GB RAM環境での第一の選択肢となる
- expert_used_countを8から4に変更するだけで速度が1.5倍以上になる場合があり、容易に試せるチューニング項目だ
- H20(96GB VRAM)×8のような業務用構成ではSGLangが推奨され、vLLMとのコンテキスト長の差(6,500 vs 163,840)は無視できない
- DeepSeek R1 Distillモデルは本物のR1ではなく、小型モデルを蒸留した別物であることを理解しておく必要がある
- mmap運用ではGen4/Gen5 NVMe SSDの読み込み速度が速いほど性能が上がり、HDDやSATAは実用的でない
- ik_llama.cpp forkはMLA対応やIQ系量子化に優れているが、通常のOllamaやLM Studioとは互換性がない点に注意
- DeepSeek-R1-0528(2025年5月公開)は改良版で品質向上が確認されており、96GB RAM環境でも適切な量子化で試せる
- 96GB RAMは趣味・実験用途では十分な価値があるが、日常的なAIアシスタント用途には速度面で課題が残る
記事作成にあたり参考にさせて頂いたサイト
- https://www.reddit.com/r/LocalLLaMA/comments/1hv3ne8/run_deepseekv3_with_96gb_vram_256_gb_ram_under/
- https://forum.level1techs.com/t/deepseek-r1-671b-backed-by-fast-read-iops/225008
- https://www.reddit.com/r/LocalLLaMA/comments/1pfqm0y/speed_of_deepseek_with_ram_offload/
- https://forum.level1techs.com/t/deepseek-deep-dive-r1-at-home/225826?page=7
- https://www.reddit.com/r/LocalLLaMA/comments/1dv4yt1/daily_driver_for_a_mac_m3_96gb/
- https://forum.level1techs.com/t/is-deepseek-a-meme-hype-revolutionary-or-just-another-ai/224760?page=3
- https://www.reddit.com/r/LocalLLaMA/comments/1jxxieu/256_vs_96/
- https://forum.level1techs.com/t/deepseek-deep-dive-r1-at-home/225826/133
- https://news.ycombinator.com/item?id=39021634
- https://github.com/vllm-project/vllm/issues/12890
各サイト運営者様へ
有益な情報をご公開いただき、誠にありがとうございます。
感謝の意を込め、このリンクはSEO効果がある形で設置させていただいております。
※リンクには nofollow 属性を付与しておりませんので、一定のSEO効果が見込まれるなど、サイト運営者様にとってもメリットとなれば幸いです。
当サイトは、インターネット上に散在する有益な情報を収集し、要約・編集してわかりやすくお届けすることを目的としたメディアです。
引用や参照の方法に不備、あるいはご不快に感じられる点がございましたら、お問い合わせフォームよりご連絡ください。
今後とも、どうぞよろしくお願いいたします。

