モデルパラメータ数 (B) 量子化 (GGUF) コンテキスト長 (トークン) KVキャッシュ精度

VRAM 概算 —

モデル重み: —
KVキャッシュ: —
ランタイム余剰: —

載るか

VRAM に余裕を見るための概算で、正確値ではありません。足りないときは、量子化を下げる（Q4_K_M が定番）・コンテキストを短く・KVキャッシュを量子化（q8_0 / q4_0）・一部レイヤを CPU にオフロード（llama.cpp の -ngl）を試してください。

llama.cpp / Ollama / LM Studio / KoboldCpp などで GGUF モデルをローカルで動かすときに、どれくらい VRAM が要りそうかを概算するツールです。「7B モデルは何 GB の VRAM で動く？」「Q4_K_M と Q5_K_M でどれだけ変わる？」「自分の 8GB / 12GB の GPU に 14B は載る？」といった疑問に、モデルを落とす前に当たりを付けるために使います。見積もりは3つの要素に分けて出します。(1) モデル重み＝パラメータ数 × 量子化の実効 bits-per-weight ÷ 8。GGUF の Q2_K / Q3_K_M / Q4_K_M / Q5_K_M / Q6_K / Q8_0 / F16 をプリセットで持っています（Q4_K_M が容量と品質のバランスの定番）。(2) KVキャッシュ＝コンテキスト長に比例して増える分。Llama 3.1 8B・Qwen2.5・Gemma 2・Llama 3.x 70B などはレイヤ数・KVヘッド数・head_dim という実際のアーキ値から計算し、GQA（グループ化クエリ注意）でKVが小さいモデルとそうでない旧モデル（Llama 2 13B など）の差も反映します。KVキャッシュ自体を q8_0 / q4_0 に量子化した場合の節約も選べます。(3) ランタイムの固定オーバーヘッド（CUDA/Metal コンテキスト＋計算バッファ）。合計を出したうえで、6GB / 8GB / 12GB / 16GB / 24GB の GPU それぞれに「OK / ギリギリ / OOM」で載るかを表示します（9割を超えたら『ギリギリ』として余裕を見ています）。プリセットにないモデルは「Custom」でパラメータ数を直接入力できます（重みは正確に、KVキャッシュは概算で計算します）。これはあくまで概算で、実際の VRAM は量子化の実装・フラッシュアテンション・バッチ・OS が使う分などで変わります。足りないときは、量子化を下げる・コンテキストを短く・KVキャッシュを量子化・一部レイヤを CPU にオフロード（llama.cpp の -ngl）を試してください。計算はすべてブラウザ内の算術だけで行い、入力値を外部の API やサーバーへ送信することは一切ありません。SDの画像生成向けは姉妹ツールの VRAM 計算機（vram-calc）を、GGUF の中身確認は GGUF メタデータビューアをどうぞ。

使い方

モデルを選ぶ（Llama 3.1 8B / Qwen2.5 / 70B など）か、Custom でパラメータ数(B)を入力します。
GGUF 量子化（Q4_K_M など）・コンテキスト長・KVキャッシュ精度を選びます。
VRAM 概算と内訳（重み/KVキャッシュ/オーバーヘッド）、各 GPU（6/8/12/16/24GB）に載るかを確認します。

よくある質問

入力した値はどこかに送信されますか？

いいえ。VRAM の概算は、お使いのブラウザ内の算術だけで行います。モデル・パラメータ数・コンテキストなどの入力を外部の API やサーバーへ送信することはなく、すべて端末内で完結します。

7B のモデルは何 GB の VRAM で動きますか？

量子化とコンテキスト長によります。目安として 7〜8B を Q4_K_M・8K コンテキストで動かすなら、重み約4.5GB＋KVキャッシュ＋オーバーヘッドで概ね 6〜7GB 前後です。8GB の GPU なら比較的余裕、6GB だとギリギリ〜オフロードが必要、という当たりが付きます。実際の値はこのツールで量子化やコンテキストを変えて確認してください。

量子化（Q4_K_M / Q5_K_M / Q8_0）はどれを選べばいいですか？

VRAM と品質のバランスで Q4_K_M が定番です。VRAM に余裕があれば Q5_K_M / Q6_K で品質を上げられます。Q8_0 はほぼ fp16 相当の品質ですが容量が大きく、F16 は量子化なし（最大）です。逆に VRAM が厳しいときは Q3_K_M / Q2_K まで下げられますが、小さいモデルほど品質劣化が目立ちます。

コンテキスト長を伸ばすと VRAM はどれくらい増えますか？

KVキャッシュがコンテキスト長に比例して増えます。長文・長い会話・RAG で大きなコンテキストを使うほど VRAM を食うため、足りないときはコンテキストを短くするのが効きます。KVキャッシュ自体を q8_0 / q4_0 に量子化すると、その分（半分〜1/4）に節約できます。

GGUF のファイルサイズと『モデル重み』は同じですか？

ほぼ同じです。GGUF ファイルのサイズが概ねモデル重みの VRAM 使用量にあたり、これに KVキャッシュとランタイムのオーバーヘッドが加わったものが実際に必要な VRAM です。落としたファイルの量子化や中身を確認したいときは、姉妹ツールの GGUF メタデータビューアを使ってください。

VRAM が足りない（OOM）ときはどうすれば？

効果の大きい順に、量子化を下げる（例 Q5→Q4→Q3）・コンテキスト長を短くする・KVキャッシュを量子化する（q8_0 / q4_0）・一部のレイヤを CPU にオフロードする（llama.cpp の -ngl で GPU に載せる層数を減らす）を試してください。少しの不足ならオフロードで動きますが、速度は落ちます。