VRAMごとのローカルLLMの選び方

ハウツー

全部読んでいる暇のない人向けにまとめると、

  • コーディングしたいなら16GB以上でQwen3.6-35B-A3Bか、24GBでQwen3.6-27B
  • 創作はかなり不得意だが、どうしてもさせたいなら24GBでGemma4-31B
  • 雑談・ロールプレイ相手なら16GB以上でGemma4-26B-A4Bか、24GB以上でGemma4-31B
  • 日英・英日翻訳なら12GB以上でPlamo-2-translate
    です。

なんでVRAMが重要なの? NPUじゃだめ?

だめです。
LLMの学習と推論はVRAMとGPUで行われます。RAMとCPUを使って推論することもできますが、呆れるほど遅いです。VRAMに収まらない分をRAMに送ってCPUで処理する仕組み(スワップ)もありますが、それが大きなボトルネックとなって、これまた呆れるほど遅くなります。GPUが正義です。
もちろんNPUでもできますが、今度はRAMの読み取り速度がボトルネックとなって遅くなります。
ユニファイドメモリというものもあります。これはRAMとVRAMを区別せず、両方の用途で高速にアクセスできるようになっているメモリのことです。これを利用してCPU, GPU, NPUに推論させることもできます。ユニファイドメモリ+GPUの組み合わせならそこそこの速度ができるようですが、他はだめです。特に、入力された文章を読み込むPrefillという工程がありえんくらい遅いので、使い物になりません。
GPUが正義です。

q4(4bit)量子化を前提に話をします

q4_0、q4_k_mなどです。最近の覇権ローカルLLMを見ていると、q4量子化されたGGUF(量子化形式のひとつ)を想定してサイズを設計しているなあと感じます。
q4量子化は、13Bパラメータあたりのモデルの性能が怪しくなってくるギリギリのラインです。q3では性能が確実に落ち、q5ではちょっと冗長すぎます。
詳しくは小さいモデルほど量子化で劣化する:モデルとGGUF量子化の関係をご覧ください。
あとKVキャッシュも4bit量子化しています。

コーディングと倫理スレスレの話題のQwen、ロールプレイのGemma

Qwenはコーディングが得意です。
GemmaはQwenよりEQが高く、ロールプレイにも向いています。ただし差別に関する話題などを振ると、それが差別的であるか否かに関わらずよく回答を拒否します。

12GBの部

8GBに載せられるLLMはまだ性能が悪すぎます。bonsaiとかはまだマシかな?
12GBではエージェンティックコーディングは難しいですが、コードの補完や雑談くらいなら日本語でもこなせるようになってきました。

Qwen3.5-9B

小さなReasoningモデル(回答の前に一旦考えてくれるモデル)です。あらゆる用途でまだ性能が不足していますが、次の世代のポテンシャルがかなりあります。Qwen4-9Bが出たら使える用途が出てくるのではないかと思います。まだ待て。

Gemma4-12B

最近出た(現在2026/06/05)モデルです。雑談にはよく付き合ってくれます。ロールプレイは少し苦手で、システムプロンプトに書かれた情報を脈絡なくそのままの文章で出力してしまったり、話の流れが不自然になったりします。

Plamo-2-translate

日英・英日翻訳に特化したモデルです。かなり妥当な翻訳をしてくれますが、ちょっとしたシステムプロンプトの指定があるので少しセッティングの手間がかかります。翻訳に関しては、もっと大きなサイズのモデルを考えてもこれで十分でありベストな選択肢だと思います。

gpt-oss-20b

ちょっと古いモデルですが、後述のMoEというモデルなので、12GBのVRAMと多少のRAMの空きがあれば快適に動きます。
LM Studio上のチャットで行うtool callに限ってはものすごいヘタクソですが、コードのデバッグが得意です。

16GBの部

MoEモデルならだいぶ動かせます。

Qwen3.6-35B-A3B

MoE(Mixture of Expert)モデルです。35B-A3Bというのは、35Bパラメータのうち実際に推論で使用するのは3Bパラメータだけですよ、という意味です。これをMoEモデルといいます。このモデル自体は16GBのVRAMに収まりきらないのですが、MoEモデルはアクティブパラメータ(ここでいう3Bの部分)さえVRAMに載っていれば多少RAMにスワップしてもかなりの速度が出ます。
このモデルはエージェンティックコーディングができます。私はたまにopencodeで使っています。ただdenseモデル(全てのパラメータを推論に使うモデル)に比べるとMoEモデルは思考能力やtool callの能力に難があるので、タスクをスモールステップに分ける、できるだけ少量のコンテキストの入力に抑えるといったコツが要ります。

Gemma4-26B-A4B

ちょっとアホかなー。Gemma4-31Bはロールプレイが得意なのですが、こちらはちょっと不安定です。怖くてコーディングには使ったことがありません。雑談には使えます。Qwenよりはロールプレイが得意ですが、会話が続く(コンテキストが長くなる)と不自然な応答が増えてきます。

24GBの部

一般のご家庭で動かせる最近のLLMはこのあたりをターゲットにしてサイズが設定されています。

Qwen3.6-27B

このサイズでめっちゃコーディングができるすごいやつです。数千行以上を読む必要があるプロジェクトでなければこれで事足ります。私はそこまで大きいものを作っていないので、RX7900XTXにこれを積んでopencodeでコーディングさせています。1時間くらい自走してくれることもあります。それでいて破綻がありません。
Reasoningをオンにしても性能があまり上がらないという意見があり、Reasoningにかかる時間を考えてオフにする人もいるようです。

Gemma4-31B

かなり雑談とロールプレイの能力が高いです。この分野ではもうこれで十分だと思います。
ただ、コンテキストが数万tokensくらいになるとKVキャッシュを4bit量子化していたとしてもKVキャッシュがRAMにスワップして遅くなるので、エージェンティックコーディングは試していません。性能が高かったとしても遅いと使い物になりませんから。

まとめ

24GBのVRAMを積んだグラボを買えばモデルの選定に悩むことがなくなりますよ!

コメント

タイトルとURLをコピーしました