Small Language Modelの限界

SLMはその小ささ故に……

概念を混同する
論理的推論が苦手
複数の指示を覚えられない
ハルシネーションに気づけない

大規模言語モデル（LLM）と小規模言語モデル（SLM）の間には、単なる知識量の差を超えた決定的な能力の懸隔が存在します。数千億ものパラメータを持つLLMだけが可能であり、数十億規模のSLMが構造的に決して到達できない領域とは、複雑な概念が互いに干渉しないよう独立して操作する能力や、多段階の論理を積み上げるための思考の深さにあります。これらは学習データをどれだけ増やしても解決できない、モデルの幾何学的および物理的な容量不足に起因する絶対的な限界です。

LLMが持ちSLMが持たない最も本質的な能力は、膨大な数の概念や文脈を混同することなく脳内に保持し続ける高次元の表現力です。モデルは限られた内部空間の中に現実世界のあらゆる概念を詰め込む必要がありますが、空間が狭いSLMでは、異なる概念同士が無理やり重ね合わされることで干渉ノイズと呼ばれる情報の混線が発生します。LLMはこの内部空間が広大であるため、複数の概念を独立した状態で維持し、論理的に操作することができますが、SLMでは特定の情報を引き出そうとすると無関係な情報まで付随してしまい、文脈の取り違えや幻覚のような誤りを引き起こしてしまいます。

また、複雑な論理的推論を完遂する能力も、モデルの物理的な深さに依存するためSLMには模倣困難な壁となります。AならばB、BならばCといった論理の連鎖や、数学的な証明のような多段階の思考プロセスを行うためには、回路としての物理的な深さが必要不可欠です。層の浅いSLMは、単純なパターン認識や事実の検索はできても、手順が複雑に絡み合う問題を解くために必要な計算ステップ数を物理的に確保できません。そのため、推論の過程を真似させることはできても、少しでも問題が複雑になると論理が破綻し、思考しているような錯覚を見せるだけの結果に終わります。

さらに、複数の指示や制約を同時に守り続ける能力においても、SLMは構造的な限界に直面します。特定のフォーマットで出力する、特定の単語を使わない、文字数を制限するといった複数のルールが課された場合、SLMはそれらすべてに注意を払い続けるためのワーキングメモリが枯渇してしまいます。LLMは余裕を持ってこれらの制約を管理できますが、SLMは回答の内容を生成することに手一杯で、ルールの存在を忘れてしまったり、指示を守ろうとして文章が支離滅裂になったりする現象が避けられません。

最後に、自分自身の知識の不確かさを客観的に評価するメタ認知能力も、SLMには欠けている決定的な機能です。LLMは自身の回答に自信がない場合にそれを検知したり、推論の誤りを自己修正したりする二次的な監視メカニズムを持つことができます。しかし、SLMにはメインのタスクを処理するだけで計算リソースが埋まってしまい、自分自身を俯瞰してモニタリングする余力が残されていません。その結果、SLMは自身の誤りに対して過剰な自信を持ちやすく、もっともらしい嘘を断定的に出力してしまう傾向が強く残ります。