ローカルLLMに備えろ

プロプライエタリとローカルの違い
ローカルなら全てのデータもモデルもあなたのもの
ローカルはエコ
ローカルは検閲されない

プロプライエタリとローカル
ローカルLLMを動かすために必要な性能

プロプライエタリとローカル

LLM(SLM)には大別してプロプライエタリとローカルがあります。前者は一企業にモデルが独占されているクローズドな状態で、後者は公開(オープンウェイト)されており、誰でもダウンロードして使うことができる状態です。

	課金形態	データの秘匿性	性能	モデルの一貫性
プロプライエタリ	月額課金か従量課金	企業に渡す	高くなりがち	なし
ローカル	初期投資と電気代	自分だけのもの	低くなりがち	あり

以上のような特徴があることは有名です。一般的にプロプライエタリでは比較的費用が安く済む一方で、ローカルLLMを動かすには大量のVRAM(あるいはMacやDGX Sparkが持つような高速のRAM)が必要になるため、初期投資がかさみます。4Bパラメータ程度なら一般的なPCで(ノートPCででも)動きますが、推論の精度が低いです。

当然プロプライエタリは企業が運営していますから、利用する際にLLMに渡したデータは全て企業に渡すことになります。我々は必要な性能のモデルを使うために企業にデータを渡さなければいけないのでしょうか？　秘密保持契約を結んだプロジェクトで利用できなかったり、誰にも知られたくないような会話が企業に筒抜けになったりしてしまうのに？　答えは、現状ではYes、未来ではNoです。プロプライエタリかローカルかに関わらず、LLMはめざましい発展を遂げています。発展がこのまま続いた未来を少し考えてみましょう。プロプライエタリは他の追随を許さない高性能で巨大なモデルになります。しかしそれを誰もが求めているわけではありません。例えば超巨大なプログラムを含むプロジェクトの全体を同時に読み込ませて大規模な改修を行いたい人や、大量の情報を踏まえた上で意思決定を行わなければならない人は全体の数%にも満たないでしょう。それよりは、プロジェクトの機能の一部を読み込んで少し書き足したり、改修したり、日々のちょっとした意思決定にLLMを利用するといった人が大半です。未来ではそれがローカルLLMでできるようになります。

プロプライエタリなモデルはしばしば変更されます。GPT 4oが廃止され、5.2や5.3 Codexしか使えなくなるといったように。keep4oという運動が見られたことからわかるとおり、そのモデルに特有の話し方や性格を求める人たちがおり、彼らはモデルの交代の時に痛い目を見ます。しかしローカルLLMなら、自分自身でモデルを換えない限り、永久に我々のそばにいてくれます。

さらにローカルLLMは小さいモデルから大きいモデルまで様々あります。小さいモデルでタスクをこなせるようになれば、それに越したことはありません。1Tパラメータのモデルに巨大な意思決定をさせず雑談をふっかけることの愚かさを考えてみてください。ただこんにちはと挨拶するだけでその信号は日本から海を渡って中国やアメリカへ向かい、コンピュータの冷却のために地球上の水が大さじ一杯分消費されたあとでまた海を渡るのです。誰もがLLMを利用する時代に、用途に合わせたパラメータ数のモデルを選択することは、限りある資源を有効利用するための我々消費者の責任です。

データの秘匿性に関連して、ローカルLLMにはuncensoredやabliteratedモデルというものがあります。これらはモデルに学習された検閲機能を排除して、どんな問いかけにも直接的に応答できるようにしたモデルです。プロプライエタリなモデルで検閲を回避しようとする(jailbreak)と、重いペナルティを科され、場合によってはアカウントを凍結されます。しかしabliteratedモデルはローカルですから、アカウントという概念自体がなく、どんな話題でも制約なしに楽しむことができます。これは犯罪やNot Safe For Workのためだけではありません。企業が勝手に決めた表現上の思想を強制されずに済むということです。これからLLMはもっと身近になり、LLMがミームを規定する(LLMの言葉や考えが人間のそれに影響する)ようになる近未来では、大変重要なことです。一つの企業が決めた思想が世界中に影響する光景を想像してみてください。それは実質的な言論統制です。私がローカルLLMを強く推す理由はこれなのです。またabliteratedモデルでは、推論の中で検閲するという莫大なコストを払う必要がありません。言い換えると、通常のモデルでは検閲のためにわざわざコストをかけているということです(Safety Tax, Alignment Taxといいます)。その必要がないabliteratedモデルなら、そのぶんの推論コストを本当に必要な推論に費やすことができているかもしれません(しかし事態はより複雑で、肯定的な主張もあれば否定的な主張もあります)。

まとめると、ローカルLLMには多くのメリットがあり、数少ないデメリットの一つである性能の低さは近い未来に問題ではなくなります。

ローカルLLMを動かすために必要な性能

MacやDGX Sparkなど、システムメモリが基盤に統合されてしまっているPCを買うのが一番幸せになれると思いますが、24GB~32GBのVRAMを持つGPUを今あるPCにつけるのもありです。私はそうしています(中古のRX 7900 XTX)。目安として、24GBでは30Bパラメータの4bit量子化モデルがギリギリ入ります。しかしギリギリなので、必要なコンテキストウィンドウを十分に確保できません。これから検索機能もローカルLLMに任せるようになることを考えると、コンテキストウィンドウはそのモデルの限界まで確保するのが望ましいです。24GBでちょうどいいモデルはgpt-oss 20Bです。DGX Spark(128GB)なら、量子化されたgpt-oss 120Bを動かせます。Corei5 1135g7(かなり弱いCPU)でも4b程度のモデルなら人が読むくらいの出力スピードで動かせます。

ローカルLLMの台頭に備えて設備投資をしましょう！