- モデル重み
- —
- KVキャッシュ
- —
- ランタイム余剰
- —
VRAM に余裕を見るための概算で、正確値ではありません。足りないときは、量子化を下げる(Q4_K_M が定番)・コンテキストを短く・KVキャッシュを量子化(q8_0 / q4_0)・一部レイヤを CPU にオフロード(llama.cpp の -ngl)を試してください。
llama.cpp / Ollama / LM Studio / KoboldCpp などで GGUF モデルをローカルで動かすときに、どれくらい VRAM が要りそうかを概算するツールです。「7B モデルは何 GB の VRAM で動く?」「Q4_K_M と Q5_K_M でどれだけ変わる?」「自分の 8GB / 12GB の GPU に 14B は載る?」といった疑問に、モデルを落とす前に当たりを付けるために使います。見積もりは3つの要素に分けて出します。(1) モデル重み=パラメータ数 × 量子化の実効 bits-per-weight ÷ 8。GGUF の Q2_K / Q3_K_M / Q4_K_M / Q5_K_M / Q6_K / Q8_0 / F16 をプリセットで持っています(Q4_K_M が容量と品質のバランスの定番)。(2) KVキャッシュ=コンテキスト長に比例して増える分。Llama 3.1 8B・Qwen2.5・Gemma 2・Llama 3.x 70B などはレイヤ数・KVヘッド数・head_dim という実際のアーキ値から計算し、GQA(グループ化クエリ注意)でKVが小さいモデルとそうでない旧モデル(Llama 2 13B など)の差も反映します。KVキャッシュ自体を q8_0 / q4_0 に量子化した場合の節約も選べます。(3) ランタイムの固定オーバーヘッド(CUDA/Metal コンテキスト+計算バッファ)。合計を出したうえで、6GB / 8GB / 12GB / 16GB / 24GB の GPU それぞれに「OK / ギリギリ / OOM」で載るかを表示します(9割を超えたら『ギリギリ』として余裕を見ています)。プリセットにないモデルは「Custom」でパラメータ数を直接入力できます(重みは正確に、KVキャッシュは概算で計算します)。これはあくまで概算で、実際の VRAM は量子化の実装・フラッシュアテンション・バッチ・OS が使う分などで変わります。足りないときは、量子化を下げる・コンテキストを短く・KVキャッシュを量子化・一部レイヤを CPU にオフロード(llama.cpp の -ngl)を試してください。計算はすべてブラウザ内の算術だけで行い、入力値を外部の API やサーバーへ送信することは一切ありません。SDの画像生成向けは姉妹ツールの VRAM 計算機(vram-calc)を、GGUF の中身確認は GGUF メタデータビューアをどうぞ。
使い方
- モデルを選ぶ(Llama 3.1 8B / Qwen2.5 / 70B など)か、Custom でパラメータ数(B)を入力します。
- GGUF 量子化(Q4_K_M など)・コンテキスト長・KVキャッシュ精度を選びます。
- VRAM 概算と内訳(重み/KVキャッシュ/オーバーヘッド)、各 GPU(6/8/12/16/24GB)に載るかを確認します。
よくある質問
入力した値はどこかに送信されますか?
いいえ。VRAM の概算は、お使いのブラウザ内の算術だけで行います。モデル・パラメータ数・コンテキストなどの入力を外部の API やサーバーへ送信することはなく、すべて端末内で完結します。
7B のモデルは何 GB の VRAM で動きますか?
量子化とコンテキスト長によります。目安として 7〜8B を Q4_K_M・8K コンテキストで動かすなら、重み約4.5GB+KVキャッシュ+オーバーヘッドで概ね 6〜7GB 前後です。8GB の GPU なら比較的余裕、6GB だとギリギリ〜オフロードが必要、という当たりが付きます。実際の値はこのツールで量子化やコンテキストを変えて確認してください。
量子化(Q4_K_M / Q5_K_M / Q8_0)はどれを選べばいいですか?
VRAM と品質のバランスで Q4_K_M が定番です。VRAM に余裕があれば Q5_K_M / Q6_K で品質を上げられます。Q8_0 はほぼ fp16 相当の品質ですが容量が大きく、F16 は量子化なし(最大)です。逆に VRAM が厳しいときは Q3_K_M / Q2_K まで下げられますが、小さいモデルほど品質劣化が目立ちます。
コンテキスト長を伸ばすと VRAM はどれくらい増えますか?
KVキャッシュがコンテキスト長に比例して増えます。長文・長い会話・RAG で大きなコンテキストを使うほど VRAM を食うため、足りないときはコンテキストを短くするのが効きます。KVキャッシュ自体を q8_0 / q4_0 に量子化すると、その分(半分〜1/4)に節約できます。
GGUF のファイルサイズと『モデル重み』は同じですか?
ほぼ同じです。GGUF ファイルのサイズが概ねモデル重みの VRAM 使用量にあたり、これに KVキャッシュとランタイムのオーバーヘッドが加わったものが実際に必要な VRAM です。落としたファイルの量子化や中身を確認したいときは、姉妹ツールの GGUF メタデータビューアを使ってください。
VRAM が足りない(OOM)ときはどうすれば?
効果の大きい順に、量子化を下げる(例 Q5→Q4→Q3)・コンテキスト長を短くする・KVキャッシュを量子化する(q8_0 / q4_0)・一部のレイヤを CPU にオフロードする(llama.cpp の -ngl で GPU に載せる層数を減らす)を試してください。少しの不足ならオフロードで動きますが、速度は落ちます。