「deepseek 96gb」と検索しているあなたは、おそらく「手元の96GBメモリ環境でDeepSeekを動かせるのか?」「どれくらいの速度で動くのか?」という疑問を持っているはずだ。結論からいうと、96GB RAMのゲーミングPCでもDeepSeek R1 671Bという最大規模のモデルを動かすことは可能で、実際に自宅環境で動かしているユーザーの詳細なベンチマークデータが複数報告されている。ただし「動く」と「快適に動く」は別の話で、設定や構成によってパフォーマンスに大きな差が出る。

この記事では、96GB RAMのAM5ゲーミングリグでDeepSeek R1 671Bを走らせた実測データ、llama.cppのmmap機能を使ったメモリ節約テクニック、量子化の選び方、さらに業務用の8×H20(96GB VRAM)構成でのvLLMとSGLangの比較まで、「deepseek 96gb」に関連するあらゆる情報を網羅的に整理した。初めてローカルLLMに挑戦する人にも分かるよう、専門用語には丁寧な解説を添えている。

この記事のポイント
✅ 96GB RAMゲーミングPCでDeepSeek R1 671Bを動かした実測ベンチマークを紹介
✅ llama.cppのmmap機能を使ったメモリ不足回避の仕組みを解説
✅ deepseekのダウンロード前に確認すべき必要スペックを整理
✅ 業務用H20 96GB VRAM構成でのvLLM vs SGLang比較データも掲載

本日のセール・タイムセールをまとめてチェックできます。

DeepSeek 96GBで動かすための基礎知識と環境構成

DeepSeek 96GBで動かすための基礎知識と環境構成
  1. 「deepseek 96gb」で検索した人が知りたいことは96GBメモリで動くかどうか
  2. DeepSeekとは何か:世界を驚かせた中国発のオープンソースAIモデル
  3. 96GBのVRAMと96GBのRAMは別物:混同しがちな違いを徹底解説
  4. deepseekをダウンロードする前に確認すべき必要スペック
  5. deepseek R1 671Bの96GBメモリ環境での実測パフォーマンス
  6. 96GB RAMゲーミングPCで671Bモデルを動かすセットアップ手順

「deepseek 96gb」で検索した人が知りたいことは96GBメモリで動くかどうか

【AI】【業務効率化】【職場】「deepseek 96gb」で検索した人が知りたいことは96GBメモリで動くかどうか

「deepseek 96gb」というキーワードで検索する人が一番知りたいことは、「自分の96GBメモリ環境でDeepSeekの大型モデルが動くかどうか」 というシンプルな疑問に集約される。答えを先にいえば、動く。ただし条件と設定が重要だ。

96GBというメモリ容量は、2025年時点のローカルLLM運用においてひとつの重要な分岐点にあたる。DeepSeek R1 671Bモデルを量子化(モデルサイズを圧縮する処理)した場合、最も軽い1.58bpwの「UD-IQ1_S」でおよそ131GiBのファイルサイズになる。つまり、96GBのRAMだけではモデル全体をメモリに乗せることは難しい。

しかし、これは「動かない」を意味しない。llama.cppというオープンソースの推論エンジンに搭載されている「mmap(メモリマップ)機能」を使えば、モデルファイルをディスク上に置いたままでも推論が可能になる。このとき、読み込み頻度の高いデータはシステムRAMがディスクキャッシュとして機能するため、高速なNVMe SSDと組み合わせることで実用的な速度を実現できる。

実際にAMD 9950X + 96GB RAM + RTX 3090Ti 24GB VRAMの環境でDeepSeek R1 671Bを動かしているユーザーの報告では、Q2クラスの量子化モデルで1.28〜2.28 tok/sec(1秒あたりのトークン生成数)を達成している。
参照元:https://forum.level1techs.com/t/deepseek-r1-671b-backed-by-fast-read-iops/225008

📋 96GBメモリ環境でのDeepSeek動作サマリー

項目 状況
動作の可否 ✅ 動作可能
主な制約 RAMにモデル全体は乗らない場合がある
回避策 llama.cppのmmap機能 + 高速NVMe SSD
目安速度 1〜2.3 tok/sec(量子化・設定による)
現実的な用途 実験・研究・ローカルAI趣味用途

重要なのは「96GB」というメモリがRAMなのかVRAMなのかという点だ。この2つはまったく別の概念であり、パフォーマンスにも大きな差が出る。次のセクションで詳しく解説する。


DeepSeekとは何か:世界を驚かせた中国発のオープンソースAIモデル

【AI】【業務効率化】【職場】DeepSeekとは何か:世界を驚かせた中国発のオープンソースAIモデル

DeepSeekは中国のAI企業「DeepSeek AI」が開発したLLM(大規模言語モデル)シリーズで、2025年初頭に「DeepSeek R1」が公開されたとき、世界中のAI業界に衝撃を与えた。その理由は主に2点ある。

まず「性能」と「コスト」のバランスが桁違いだったこと。OpenAIのGPT-4oやAnthropicのClaudeと互角とも言われる推論性能を、はるかに低コストで実現したと報告された。次にオープンソースで公開されたこと。モデルの重みファイルが誰でも自由にダウンロードして使えるため、自宅のPCでも動かせる。

DeepSeekチームは、データパイプラインの品質向上、MoEアーキテクチャの独自応用、トレーニングプロセスの最適化という3つの軸で、既存の手法より「賢く」学習させることに成功したと評価されている。
参照元:https://forum.level1techs.com/t/is-deepseek-a-meme-hype-revolutionary-or-just-another-ai/224760?page=3

📋 DeepSeekの主要モデル比較

モデル名 パラメータ数 特徴 ローカル動作の難易度
DeepSeek R1 Distill 14B 140億 軽量・高速 ✅ 比較的容易
DeepSeek R1 Distill 32B 320億 バランス型 △ 24GB VRAM推奨
DeepSeek R1 Distill 70B 700億 高品質 ⚠️ 128GB RAM以上推奨
DeepSeek R1 671B 6,710億 フルモデル・最高品質 🔴 256GB+推奨(96GBはmmap必要)
DeepSeek V3-0324 6,710億 V3の最新版 🔴 同上

「Distill(蒸留)」モデルに注意が必要だ。「DeepSeek R1」という名前で出回っているモデルの多くは、実は本物のR1ではなく、Qwen2.5などの別モデルをDeepSeek R1の出力データで追加学習させた「蒸留版」だ。本物のR1 671Bとは別物で、サイズも性能も大きく異なる。

DeepSeek R1はCoT(Chain of Thought:思考の連鎖)と呼ばれる推論プロセスを使い、複雑な問題を段階的に解いていく能力が特に高い。ただし、この推論プロセスが1回の返答で1,000トークン以上使うことも珍しくなく、生成速度が遅い環境では実用的に使いにくいという側面もある。


96GBのVRAMと96GBのRAMは別物:混同しがちな違いを徹底解説

【AI】【業務効率化】【職場】96GBのVRAMと96GBのRAMは別物:混同しがちな違いを徹底解説

「deepseek 96gb」の検索で混乱が生じやすいのが、「96GB VRAM」と「96GB RAM(システムメモリ)」の違いだ。これらはまったく別のハードウェアを指しており、AIモデルの動作速度に大きな差をもたらす。

VRAM(Video RAM) はGPUに搭載されているメモリで、AIの計算処理に直接使われる。帯域幅が非常に広く、たとえばNVIDIA H20のGBWは4TB/sを超える。一方、システムRAM(メインメモリ) はCPUが使うメモリで、帯域幅はDDR5でも100〜200GB/s程度にとどまる。

📋 VRAMとRAMの基本比較

比較項目 VRAM(例:H20) システムRAM(例:DDR5)
搭載場所 GPU上 マザーボード
帯域幅 ~4,000 GB/s以上 80~200 GB/s
用途 GPU演算・モデルウェイト保持 CPU処理・OSメモリ
AI推論速度への影響 非常に大きい 大きい(VRAMより遅い)
96GBの入手難易度 非常に高価(H20等) 比較的安価(AM5等)

📋 「96GB」の文脈別の意味

文脈 意味 具体的な構成例
「96GB VRAM」 GPUのビデオメモリが96GB NVIDIA H20、AMD MI300X等
「96GB RAM」 システムメモリが96GB DDR5 2×48GB(AM5プラットフォーム等)
「Mac 96GB」 ユニファイドメモリ96GB Apple M3 Max/Ultra等

Macのユニファイドメモリは特殊なケースだ。AppleのM系チップはCPUとGPUが同じメモリプールを共有しており、96GBのユニファイドメモリであればモデルのウェイト保持にも演算にも同じメモリが使われる。バンド幅もM3 Ultarで819 GB/sに達するため、システムRAM 96GBよりも高いAI処理性能が期待できる。

一般的な認識として、AI推論においてはVRAM > ユニファイドメモリ > システムRAMの順に速度有利とされているが、モデルの全体をどこに置けるかが最大のポイントだ。VRAMに乗り切らない場合、システムRAMへのスピルオーバー(はみ出し)が発生し、速度が急激に低下する。


deepseekをダウンロードする前に確認すべき必要スペック

【AI】【業務効率化】【職場】deepseekをダウンロードする前に確認すべき必要スペック

DeepSeekを自前のハードウェアで動かそうと考えているなら、まず自分の環境がどのモデルに対応できるかを正確に把握することが先決だ。「deepseekをダウンロードしたはいいけど動かない」という状況を避けるために、事前チェックリストを整理した。

ダウンロード前の確認事項

  • システムRAMの容量(最低16GB、できれば64GB以上)
  • VRAMの容量(特定モデルをフルGPU動作させたい場合)
  • ストレージの空き容量(最小でも131GiB以上)
  • NVMe SSDの有無(mmap運用時にHDDは実用的でない)
  • 使用する推論エンジン(llama.cpp、Ollama、LM Studio等)

📋 モデルサイズ別の必要環境目安

モデル ファイルサイズ目安 最低RAM目安 推奨VRAM
DeepSeek R1 Distill 14B (Q4) ~8GB 16GB 12GB以上
DeepSeek R1 Distill 32B (Q4) ~18GB 32GB 24GB以上
DeepSeek R1 671B IQ1_S ~131GiB 128GB以上(mmap時は96GBでも可) ー(CPU推論)
DeepSeek R1 671B Q2_K ~212GiB 256GB推奨 ー(CPU推論)

「最小の実際のR1モデルは、UD-IQ1_S 1.58bpwで131GiBになる。128GBのRAMでは若干足りないが、高速なドライブがあれば試せる」
参照元:https://forum.level1techs.com/t/deepseek-r1-671b-backed-by-fast-read-iops/225008

Ollamaを使う場合のダウンロードコマンドはシンプルで、ollama pull deepseek-r1:671b のような形で取得できる(ただしファイルサイズに注意)。llama.cppを使う場合はHugging Faceから直接GGUFファイルをダウンロードする形が一般的だ。unslothやbartowskiのリポジトリには各種量子化モデルが公開されており、自分の環境に合ったサイズを選べる。

初心者には14Bや32BのDistillモデルから始めることを強く推奨する。671Bのフルモデルは「動く」と「使いやすい」の間に大きなギャップがあり、1〜2 tok/secという速度は長文の思考プロセスが走るR1には特にストレスになりやすい。


deepseek R1 671Bの96GBメモリ環境での実測パフォーマンス

【AI】【業務効率化】【職場】deepseek R1 671Bの96GBメモリ環境での実測パフォーマンス

96GB RAMのシステムでDeepSeek R1 671Bを実際に動かした場合の速度について、Level1Techsフォーラムの詳細なベンチマークデータが参考になる。構成はAMD 9950X(AM5)+ 96GB DDR5 RAM + RTX 3090Ti 24GB VRAMという、2025年時点での高性能ゲーミングPCに近い構成だ。

📋 96GB RAM環境でのDeepSeek R1 671B実測ベンチマーク

コンテキスト GPUレイヤー数 使用エキスパート数 キャッシュ使用量(GiB) 生成速度(tok/sec)
2048 5 8 ~82 1.45
2048 5 4 ~82 2.28
2048 0 8 ~82 1.28
2048 0 4 ~82 2.20
8192 5 8 ~67 1.25
8192 5 4 ~67 2.12
8192 0 8 ~66 1.10
8192 0 4 ~66 1.81

参照元:https://forum.level1techs.com/t/deepseek-r1-671b-backed-by-fast-read-iops/225008

このデータから読み取れる重要なポイントが3つある。

① expert_used_countを8から4に下げると速度が約1.5〜1.7倍向上する。DeepSeek R1はMoE(Mixture of Experts)という仕組みを使っており、推論時に何個の「専門家モデル」を使うかを指定できる。デフォルトは8だが、4に下げると速度が大幅に上がる(出力品質がやや低下する可能性があるとされている)。

② GPUレイヤーをオフロードしても劇的な改善はない。5レイヤーをGPUに乗せた場合と乗せない場合の差は0.1〜0.2 tok/sec程度で、96GB RAM環境でのボトルネックはGPU演算力よりもメモリ帯域幅とストレージ読み込み速度にある。

③ コンテキストサイズが大きくなると少し遅くなる。8192トークンのコンテキストは2048に比べてわずかに速度が落ちるが、それほど大きな差ではない。

📋 比較参考:Threadripper + 512GB DDR4環境のパフォーマンス

構成 メモリ モデル 速度
Threadripper 3995WX 512GB DDR4 DeepSeek-V3 Q4_K_M 2〜3 words/sec
AMD 9950X + 3090Ti 96GB DDR5 + 24GB VRAM R1 671B IQ1 1.28〜2.28 tok/sec
EPYC(サーバー構成) 768GB DDR5 R1 671B fp8(非量子化) ~6 tok/sec

96GBのシステムRAMは、フル671Bモデルを快適に動かすには「ギリギリ動く」ラインだと言える。実験・研究・趣味用途としては十分な価値があるが、日常的なAIアシスタントとして使うには遅さが気になるかもしれない。


96GB RAMゲーミングPCで671Bモデルを動かすセットアップ手順

【AI】【業務効率化】【職場】96GB RAMゲーミングPCで671Bモデルを動かすセットアップ手順

実際に96GB RAMのゲーミングPCでDeepSeek R1 671Bを動かす手順を、Level1Techsフォーラムの情報をもとに整理する。Windows環境でも基本的な考え方は共通だが、ここではLinux/llama.cppを前提とした手順を紹介する(Windowsでは一部コマンドが異なる)。

セットアップの全体フロー

  1. モデルファイル(GGUF形式)をHugging Faceからダウンロード
  2. llama.cppをソースからビルド
  3. mmap機能を活用してモデルをロード
  4. メモリ不足(OOM)が発生する場合はcgroupsでRAM上限を設定
  5. llama-serverを起動してブラウザからアクセス

📋 llama-serverの主要起動オプション一覧

オプション 説明 推奨設定例
--model GGUFファイルのパス 最初のファイルを指定
--ctx-size コンテキストサイズ 2048〜8192
--override-kv deepseek2.expert_used_count エキスパート数(速度に影響) int:4(速度優先)またはint:8(品質優先)
--cache-type-k KVキャッシュの量子化タイプ q4_0
--n-gpu-layers GPUにオフロードするレイヤー数 5(24GB VRAM時)
--threads CPUスレッド数 物理コア数に合わせる

「OOMkillerがプロセスを終了させる場合、Linuxのcgroupsを使ってllama-serverプロセスのRAM上限を設定すると、プロセスがmalloc()の代わりにmmap()を使うようになり安定する」
参照元:https://forum.level1techs.com/t/deepseek-r1-671b-backed-by-fast-read-iops/225008

NVMe SSDのスペックも非常に重要だ。mmap()運用ではモデルのウェイトをディスクから直接読み込むため、シーケンシャル読み込み速度が速いほどパフォーマンスが上がる。Crucial T700のような最新Gen5 NVMe SSDであれば12,000 MB/sの読み込みが可能で、96GBのRAMをディスクキャッシュとして活用しながら快適に動作する報告がある。

初回起動時にはモデルのロードに数分〜十数分かかることがあるが、一度ロードが完了すれば推論自体はそのまま継続できる。起動後はブラウザでhttp://127.0.0.1:8080にアクセスすると、チャットUIが表示される。


ふるさと納税のポイント付与は2025年10月に廃止になりました。

DeepSeek 96GBをさらに使いこなすための実践テクニックと深掘り解説

【AI】【業務効率化】【職場】96GB RAMゲーミングPCで671Bモデルを動かすセットアップ手順
  1. 量子化(クオンタイズ)でモデルサイズを削減する仕組みと選び方
  2. llama.cppのmmap機能でメモリ不足を回避する仕組みの詳細
  3. GPU VRAMとシステムRAMを組み合わせたハイブリッド運用の考え方
  4. vLLMとSGLangどちらを使うべきか:H20(96GB)×8環境での比較
  5. 生成速度を上げるためのexpert_used_countチューニング詳細
  6. DeepSeek R1とDistillモデルの違い:選択基準を整理する
  7. 総括:deepseek 96gbのまとめ

量子化(クオンタイズ)でモデルサイズを削減する仕組みと選び方

【AI】【業務効率化】【職場】量子化(クオンタイズ)でモデルサイズを削減する仕組みと選び方

AIモデルの「量子化」は、モデルのウェイト(重みパラメータ)を低精度の数値形式で保存することでファイルサイズを小さくする技術だ。元のfp32(32ビット浮動小数点)で保存すると膨大なサイズになるモデルを、4ビットや2ビットに圧縮して扱いやすくする。当然、圧縮率が高いほどファイルサイズは小さくなるが、精度(出力の品質)がある程度低下する。

DeepSeek R1 671Bのフルモデル(fp8)はおよそ600+GiBのファイルサイズになる。これをどこまで圧縮できるかを示したのが以下の表だ。

📋 DeepSeek R1 671Bの量子化別ファイルサイズ比較

量子化形式 ファイルサイズ 精度 必要なRAM目安 備考
fp8(オリジナル) 600+GiB 最高 600GB+ 家庭用途では非現実的
Q8_0 ~666GiB 非常に高い 700GB+ ベースライン比較用
IQ3_K(ik_llama.cpp専用) 301GiB 高い 368GB推奨 最近公開の高品質量子化
Q2_K_XL(UD) ~212GiB 中程度 256GB推奨 96GBでmmap使用可
UD-IQ1_S 131GiB 低め 128GB推奨 96GBでmmap使用可
UD-IQ1_M 低め 同上 やや品質高め

「UD-IQ1_S 1.58bpwは131GiBで、技術的には96GB RAMのシステムでもmmap機能を使って動作させることが可能。ただし最高速度は期待できない」
参照元:https://forum.level1techs.com/t/deepseek-r1-671b-backed-by-fast-read-iops/225008

📋 量子化選択の考え方マトリクス

優先したいもの おすすめ量子化 理由
品質最優先 Q8_0、IQ3_K 元モデルに近い出力
スピードと品質のバランス Q4_K_M、IQ4_XS 一般的なロカールLLMの定番
とにかく動かしたい(96GB RAM) UD-IQ1_S 131GiBで一番軽い
ある程度の品質も欲しい(256GB RAM) Q2_K_XL 妥協点としてよく選ばれる

「Dynamic Quant(動的量子化)」という概念も知っておきたい。unslothが採用しているUD(Unsloth Dynamic)形式は、重要なレイヤーには高い精度を維持しつつ、影響の少ないレイヤーを積極的に低精度化する手法だ。単純な均一量子化に比べて、同じファイルサイズでも品質が高いとされている。

量子化の品質比較には「パープレキシティ(Perplexity、PPL)」という指標が使われる。数値が低いほど品質が高く、Q8_0を基準(PPL≒3.21)とした場合、IQ3_K系は3.27程度と非常に近い値を示しており、半分程度のファイルサイズでも高品質を維持できることが分かる。


llama.cppのmmap機能でメモリ不足を回避する仕組みの詳細

【AI】【業務効率化】【職場】llama.cppのmmap機能でメモリ不足を回避する仕組みの詳細

llama.cppのmmap(メモリマップ)機能は、96GBという「RAMが足りない」環境でDeepSeek 671Bを動かすための鍵となる技術だ。仕組みを理解することで、なぜこの機能が有効なのかが分かる。

通常のプログラムがファイルを読む場合、OSはファイルの内容をRAMに「コピー」してから処理する。モデルファイルが131GiBある場合、普通に読もうとすれば131GiBのRAMが必要になる。しかしmmap()は「ファイルをメモリ空間にマッピングする」だけで、実際のコピーは必要になった時点で遅延実行される

これにより、131GiBのファイルを扱う場合でも、実際にRAMを消費するのは「推論時に実際にアクセスされた部分だけ」になる。残りはOSのページキャッシュ機能によってNVMe SSD上に保持され、必要に応じて読み込まれる仕組みだ。

📋 mmap使用時のメモリ動作フロー

フェーズ 動作 RAMへの影響
モデルロード時 ファイルをメモリ空間にマッピング ほぼ0(マッピングのみ)
推論中(アクティブなエキスパート) 必要なウェイトをNVMeから読み込み 使用した分だけ増加
推論中(キャッシュ済みウェイト) RAMキャッシュから即座に使用 維持
エキスパート切り替え時 古いキャッシュを解放し新しいウェイトを読み込み 一時的な「バースト」が発生

「btopで監視すると、モデルが別の動作モード(計算、別言語など)に切り替わる際にキャッシュがフラッシュされ、新しいウェイトで埋め直されるのが見える。これが速度低下の原因だ」
参照元:https://forum.level1techs.com/t/deepseek-r1-671b-backed-by-fast-read-iops/225008

mmap運用でパフォーマンスを最大化するための3つのポイントは以下の通りだ。

mmap運用のパフォーマンス最大化ポイント

  • Gen4/Gen5 NVMe SSDを使う:HDDやSATAはシーケンシャル読み込みが500MB/s程度で実用的でない。Gen5 NVMe(12,000 MB/s以上)が理想
  • システムRAMを最大化する:RAMが多いほどOSのページキャッシュが大きくなり、ウェイトのキャッシュ効率が上がる。96GBのRAMは88GB/sの帯域幅でキャッシュとして機能する
  • no-mmapオプションは使わない:全ウェイトをRAMにロードする設定は、RAM不足の環境ではOOMkillerに殺される原因になる

一方、OOMkiller問題への対処も重要だ。Linuxではメモリが枯渇するとOOMkiller(Out Of Memory Killer)が強制的にプロセスを終了させる。これを回避するには、llama-serverをcgroupsで起動し、人工的なRAM上限を設定することでプロセスがmmap()を選択するよう誘導できる。


GPU VRAMとシステムRAMを組み合わせたハイブリッド運用の考え方

【AI】【業務効率化】【職場】GPU VRAMとシステムRAMを組み合わせたハイブリッド運用の考え方

96GB RAMの環境でDeepSeekを動かす際、GPUのVRAMとシステムRAMを組み合わせた「ハイブリッド運用」が現実的な選択肢となる。ゲーミングPCの多くはGPU(主に24GBクラス)を搭載しており、このVRAMを活用することで一部の処理を高速化できる。

MoEアーキテクチャのDeepSeek R1は、全レイヤーを一律にGPUに乗せる必要はなく、特に計算コストの高い非ルーティングレイヤー(アテンション層など)をGPUに置き、残りのルーティングエキスパートをRAMで処理するという分業が可能だ。

📋 ハイブリッド運用の構成パターン

GPUのVRAM 推奨構成 期待効果
24GB(3090/4090等) 非エキスパートレイヤー + MLA(18GB相当)をGPUに 32kコンテキストに対応
48GB(A6000等) より多くのレイヤーをGPU側に 速度向上
96GB×8(H20等) フルモデルをGPUで処理 最大163,840コンテキスト
VRAMなし 全てCPU+RAMで処理 動作はするが低速

「ik_llama.cppのQ8_0クオントでは約18GBのウェイトをGPUに置く設計になっており、24GB VRAMで32kコンテキストに対応できる。さらに24〜40GB VRAMがあれば160kコンテキストも可能になる」
参照元:https://forum.level1techs.com/t/deepseek-deep-dive-r1-at-home/225826?page=7

-ot オプションによるテンソル単位の配置制御も覚えておくと便利だ。llama.cppの-ot(オーバーライドテンソル)オプションを使えば、どのレイヤーをGPUに置き、どのレイヤーをRAMで処理するかを正規表現で細かく指定できる。たとえば「最初の数レイヤーのFFN(フィードフォワードネットワーク)をGPUに、残りをCPU側に」といった細かいチューニングが可能だ。

PCIe帯域幅も考慮すべき要素だ。PCIe 4.0ではCPU-GPU間の帯域幅は約32GB/sで、DDR5のシステムRAMの85GB/sと比べると低い。この点で、VRAMにスピルオーバーする処理がPCIeを通過する場合、逆に速度が落ちるケースもある。どのレイヤーをGPUに置くかを適切に選ぶことが、ハイブリッド運用の肝といえる。


vLLMとSGLangどちらを使うべきか:H20(96GB)×8環境での比較

【AI】【業務効率化】【職場】vLLMとSGLangどちらを使うべきか:H20(96GB)×8環境での比較

業務用途や研究環境では、NVIDIA H20(1枚あたり96GB VRAM)を8枚並列構成でDeepSeek V3を動かすケースがある。この構成で注目されているのが、推論エンジンの選択問題だ。

GitHubのvLLMリポジトリには、「8×H20(96GB)でDeepSeek V3をvLLMで動かすと最大コンテキスト長が6,500トークンしか出ないが、SGLangでは163,840トークンに達する」という報告があった。

📋 vLLMとSGLangの比較(8×H20 96GB環境)

比較項目 vLLM SGLang
最大コンテキスト長(報告値) ~6,500トークン ~163,840トークン
設定の容易さ ✅ 比較的簡単 △ やや複雑
対応モデルの幅 広い DeepSeekに最適化
メモリ効率 △ MLA対応に課題 ✅ MLA最適化済み
コミュニティの活発度 非常に活発 活発

参照元:https://github.com/vllm-project/vllm/issues/12890

このコンテキスト長の差は、DeepSeek V3が採用しているMLA(Multi-head Latent Attention)という特殊なアテンション機構への対応差から来ていると考えられる。MLA is a technique that significantly compresses the KVキャッシュ(各トークンの推論状態を保存するメモリ)のサイズを大幅に削減するもので、この実装が効率的かどうかで扱えるコンテキスト長に大きな差が出る。

ik_llama.cpp(ikawrakow氏によるfork)はMLA対応に特に力を入れており、家庭用環境でもMLAの恩恵を受けながら大きなコンテキストを扱えるようになっている。ただし、このforkで作られた特殊な量子化形式(_r4サフィックスがつくもの)は、通常のllama.cpp、Ollama、LM Studio、KoboldCPPでは動作しないため注意が必要だ。

📋 推論エンジン選択ガイド

環境 推奨エンジン 理由
8×H20等の業務用マルチGPU SGLang MLA最適化・コンテキスト長
ゲーミングPC(単GPU) llama.cpp / ik_llama.cpp mmap対応・柔軟なオフロード
初心者・手軽に試したい Ollama / LM Studio GUI・ワンコマンド起動
Macユーザー llama.cpp(metal対応) / LM Studio Apple Silicon最適化

生成速度を上げるためのexpert_used_countチューニング詳細

【AI】【業務効率化】【職場】生成速度を上げるためのexpert_used_countチューニング詳細

DeepSeek R1が採用しているMoE(Mixture of Experts:専門家の混合)アーキテクチャについて、もう少し深く理解することでexpert_used_countチューニングの意味が見えてくる

MoEとは、モデル全体を多数の「専門家(Expert)」モジュールに分割し、各入力トークンに対して「どの専門家を使うか」を動的に決定する仕組みだ。DeepSeek R1 671Bは合計256人の専門家を持ち、通常の推論時はデフォルトで8人の専門家を同時に使う(expert_used_count=8)。

📋 expert_used_countの変更による影響

expert_used_count 速度 品質(推測) 備考
8(デフォルト) 1.28〜1.45 tok/sec 最高 公式設定
4 2.12〜2.28 tok/sec やや低下の可能性 速度1.5〜1.7倍
2 さらに速い(推測) 低下が顕著(推測) 推奨しない場合が多い

「expert_used_count=4の方がデフォルトの8より速く(おそらく品質は低い)、APIプロバイダーがどのクオントと何人のエキスパートで動かしているかを確認するべきだ」
参照元:https://forum.level1techs.com/t/deepseek-r1-671b-backed-by-fast-read-iops/225008

llama.cppでのコマンドライン指定方法は以下の通り。

--override-kv deepseek2.expert_used_count=int:4

このオプション1つで速度が約1.5倍になる可能性があるため、96GB RAMという制約がある環境では試してみる価値は高い。ただし、あくまでも「おそらく品質に影響する」という前提であり、どの程度影響するかは使用するタスクや量子化レベルにも依存する。

また、MoEの性質上、モデルが「計算を行う」「自然言語を生成する」「別言語に切り替える」といった動作モードを変えるとき、使われる専門家セットが切り替わり、ディスクからの再読み込みが発生してレイテンシが上がることがある。これが推論途中で速度が変動する原因であり、mmap運用時の特徴的な挙動だ。


DeepSeek R1とDistillモデルの違い:選択基準を整理する

【AI】【業務効率化】【職場】DeepSeek R1とDistillモデルの違い:選択基準を整理する

「deepseek 96gb」を調べているうちに、「R1」「V3」「Distill」「671B」などさまざまな名前に混乱した人も多いはずだ。ここで整理しておく。

本物のDeepSeek R1とDistillモデルはまったくの別物だ。Distill(蒸留)モデルとは、本物のR1の出力データを教師データとして、Qwen2.5やLlamaなどの小型モデルを追加学習させたものだ。R1の「考え方のスタイル」を学ばせているが、ベースとなるモデルのアーキテクチャはR1とは異なる。

📋 モデルシリーズの関係性

モデル名 本体サイズ ベースモデル 特徴
DeepSeek R1 671B 6,710億パラメータ DeepSeek独自 本物のR1。CoT推論が最強
DeepSeek R1 Distill 70B 700億パラメータ Qwen2.5-72B R1出力で学習した蒸留版
DeepSeek R1 Distill 32B 320億パラメータ Qwen2.5-32B 人気の中間サイズ
DeepSeek R1 Distill 14B 140億パラメータ Qwen2.5-14B 軽量・高速
DeepSeek R1 Distill 8B 80億パラメータ Llama-3.1-8B 最も軽量
DeepSeek V3-0324 6,710億パラメータ DeepSeek独自 V3の最新アップデート版
DeepSeek R1-0528 6,710億パラメータ DeepSeek独自 R1の改良版(2025年5月)

「多くの人が自宅で動かしているR1モデルは実際にはR1ではなく、Qwen2.5-32BなどにコCCoT出力でfine-tuningした蒸留版だ。これを理解しないと、R1の評判に対して実際の体験が合わない原因になる」
参照元:https://forum.level1techs.com/t/deepseek-r1-671b-backed-by-fast-read-iops/225008

📋 用途別おすすめモデル選択ガイド

用途・環境 おすすめモデル 理由
96GB RAM(mmap使用) R1 671B UD-IQ1_S ギリギリ動かせる最小サイズ
96GB RAM + 24GB VRAM R1 Distill 32B Q4 または R1 671B IQ1 スムーズな動作を優先するなら32B推奨
256GB RAM R1 671B Q2_K_XL バランス良い品質と動作
512GB RAM以上 R1 671B IQ3_K 高品質かつ現実的なサイズ
速さ最優先 R1 Distill 14B Q4 VRAM内に収まりサクサク動く

2025年5月に公開されたDeepSeek-R1-0528は、元のR1 671Bの改良版で品質向上が確認されている。PPLがR1の3.21から3.27付近を維持したまま、さまざまなベンチマークで改善が見られると報告されている。96GB RAMユーザーには301GiBのIQ3_K_R4クオントは重すぎるが、212GiB以下のUD系クオントであればmmap運用で試せる範囲だ。


総括:deepseek 96gbのまとめ

【AI】【業務効率化】【職場】総括:deepseek 96gbのまとめ

最後に記事のポイントをまとめます。

  1. 96GB RAMのシステムでもDeepSeek R1 671Bは動作可能であり、llama.cppのmmap機能が鍵となる
  2. 動作速度は1.28〜2.28 tok/secが現実的な範囲で、快適に使うには遅さを許容する必要がある
  3. VRAMの96GBとシステムRAMの96GBはまったく別物で、VRAM(H20等)の方がはるかに高速なAI処理が可能
  4. deepseekをダウンロードする前に、RAMの容量・NVMe SSDの速度・GPUのVRAM容量を必ず確認すること
  5. ファイルサイズはUD-IQ1_Sが131GiBと最小で、96GB RAM環境での第一の選択肢となる
  6. expert_used_countを8から4に変更するだけで速度が1.5倍以上になる場合があり、容易に試せるチューニング項目だ
  7. H20(96GB VRAM)×8のような業務用構成ではSGLangが推奨され、vLLMとのコンテキスト長の差(6,500 vs 163,840)は無視できない
  8. DeepSeek R1 Distillモデルは本物のR1ではなく、小型モデルを蒸留した別物であることを理解しておく必要がある
  9. mmap運用ではGen4/Gen5 NVMe SSDの読み込み速度が速いほど性能が上がり、HDDやSATAは実用的でない
  10. ik_llama.cpp forkはMLA対応やIQ系量子化に優れているが、通常のOllamaやLM Studioとは互換性がない点に注意
  11. DeepSeek-R1-0528(2025年5月公開)は改良版で品質向上が確認されており、96GB RAM環境でも適切な量子化で試せる
  12. 96GB RAMは趣味・実験用途では十分な価値があるが、日常的なAIアシスタント用途には速度面で課題が残る

記事作成にあたり参考にさせて頂いたサイト

各サイト運営者様へ
有益な情報をご公開いただき、誠にありがとうございます。
感謝の意を込め、このリンクはSEO効果がある形で設置させていただいております。
※リンクには nofollow 属性を付与しておりませんので、一定のSEO効果が見込まれるなど、サイト運営者様にとってもメリットとなれば幸いです。
当サイトは、インターネット上に散在する有益な情報を収集し、要約・編集してわかりやすくお届けすることを目的としたメディアです。
引用や参照の方法に不備、あるいはご不快に感じられる点がございましたら、お問い合わせフォームよりご連絡ください。
今後とも、どうぞよろしくお願いいたします。

ABOUT ME
カシワギ
『エグゼクティブワーク』編集長のカシワギです。 普段はITベンチャーで執行役員の40代男です。 元コンサルタントですが、今はテクノロジー企業で日々奮闘中。 仕事では厳しい顔をしていますが、家では小学生の子供2人のやんちゃなパパ。 休日はゴルフに行ったり、妻とワインを楽しんだり。
当サイトについて
当サイトでは、インターネット上に散らばるさまざまな情報を収集し、AIを活用しながら要約・編集を行い、独自の切り口で見解を交えながらわかりやすい形でお届けしています。 情報の整理・編集にあたっては、読者やオリジナル記事の筆者へご迷惑をおかけしないよう、細心の注意を払って運営しておりますが、万が一、掲載内容に問題がある場合や修正・削除のご要望がございましたら、どうぞお気軽にお問い合わせください。 迅速に対応をさせていただきます。 その際には、該当記事の URLやタイトルをあわせてお知らせいただけますと、より速やかに対応 することができますのでそちらもご協力いただけますと大変幸いでございます。 今後とも当サイトをよろしくお願いいたします。