各種ローカルLLMの使い分け

LLMを語るにあたって、ベンチマークテストの話はしません。実際の使用感とテストの結果はしばしば乖離するためです。たぶんハックされています。

対象
Qwen
Gemma4
じゃあ何にプロプライエタリモデルを使っているの？

対象

hereticなどの派生モデルは省きます。

qwen3.5-27b
qwen3.6-35b-a3b
gemma4-31b

Qwen

コーディング・プランニング
長文読解
軽い壁打ち
検索

現状qwen3.5-27bは使っておらず、qwen3.6-35b-a3bを使っています。27bはDenseモデルで、トークン生成が遅いのです。24GBのVRAMから35bパラメータとKVキャッシュは溢れてしまうのですが、アクティブパラメータは3bなのでこちらのほうが生成が速いです。
qwen3.6b-a3bはコーディング、長文読解、壁打ち、検索に使っています。
アクティブパラメータに9倍の開きがあるのにqwen3.5-27bとqwen3.6-35b-a3bで両者のコーディング・プランニング能力に差を感じたことがありません。ちなみにqwen3.5-35b-a3bは結構ポンコツでした。
自作の80000字程度の小説を読ませて長文読解力を測ってみたところ、qwen3.6-35b-a3bのほうがよほど安定していました。小説に含まれる膨大な事実関係を矛盾なく説明できます。ですが、微妙なニュアンスや会話している人物のそれぞれの思惑などを察する能力がまだ足りていないと感じます。
思考実験の軽い壁打ちにも使えます。「障害者にも生活があるので国は障害者雇用を推進したいが、企業にとっては労働生産性が低くなりがちな障害者を雇用したくない、というジレンマをどう解決したらいいでしょうか？」というような。「障害者は障害を持っていること以外”普通の”人間と変わりなく、障害は障害でしかないため、障害が新しく経済的な価値を生むことは基本的にはない」といった踏み込んだ発言をこちらがすると、Gemma4は回答を拒否してしまうので、倫理的な問題はとりあえずQwenに投げます。
優れた長文読解力は検索にも役立ちます。Prefillに時間がかかるのでプロプライエタリモデルほどサクッと検索してはくれませんが、巨大なプロプライエタリモデルを使うよりエコなのでしばしば利用します。

Gemma4

雑談
ロールプレイ

用途として雑談を挙げておいてなんですが、ちょっとGPT 4oくさくてうざいです。ただQwenよりもEQが高いと感じる場面があるのでこちらを使っています。
ロールプレイが上手です。gemma3-27bなんかも上手だったので、Gemmaにはロールプレイに対する信頼感があります。人物像をシステムプロンプトとしてしっかりまとめておくと、その通りに役を演じてくれます。Qwenはあまり得意ではありません。
実務のQwen、遊びのGemma4といった感じです。
e2bをスマホに入れていますがあまり使いません。APIで家のPCからいつでも良いモデルを呼べるので。

じゃあ何にプロプライエタリモデルを使っているの？

小説を読ませて次の展開を提案させる
クソデカコーディング
ドメイン知識が要る話題

小説の展開を提案させるのはローカルLLMでは難しいです。一応それっぽいことを言ってくれるのですが、圧倒的に面白みに欠けます。Claude Opusでも事実関係の把握がおぼつかないことがあるので、未来に期待しています。
多くのことを憶えておく必要がある大規模なコーディング(大きな機能をゼロから書いたり、すでにあるプロジェクトに手を加えたり)にはClaude Opusを使っています。4.5 Sonnetができる程度の作業はqwen3.6b-a3bで十分なのですが、それでは心許ないときにClaude Opusを召喚します。
ドメイン知識が要る話題には、多くの知識を保持している巨大なLMが向いています。具体的には東方Projectの二次創作小説を理解させ作業をするのに使っています。ローカルで実行できるような小さいモデルだと東方Projectに関する知識が乏しく、しばしばReasoning中に変なこと(無限ループなど)が起きます。いちいち知識を検索させたりプロンプトで教えたりするのは面倒です。
軽い検索以外ではプロプライエタリモデルはClaude Opusしか使っていません。「使用量」の消費が激しすぎてProでは辛いですが……