ローカルLLM

ローカルLLM

TurboQuant: KVキャッシュ圧縮の理論的限界に迫るGoogleの新手法

Google Research発のKVキャッシュ圧縮技術「TurboQuant」を解説。3ビットでほぼ無劣化の圧縮を実現する仕組み、論文では触れられていないQJLの実用上の問題点、llama.cppやvLLMへの統合状況まで、ローカルLLMユーザー視点でまとめています。
ローカルLLM

Qwen3.5-27Bがえぐすぎる(当然弱みもある)

Qwen3.5-27Bの強みと弱みを説明しています。
ローカルLLM

Qwen3.5-27b 久々のまともなLLM

Qwen3.5-27bをLM Studioで動かしてみた手触りを報告しています。正しい日本語を扱い、正しいReasoningをし、バイブコーディングもできます。
ローカルLLM

Small Language Modelの限界

大規模言語モデルと小規模言語モデルの間に存在する決定的な能力差は、知識の量ではなく、複雑な情報を処理するための物理的な構造の違いに起因します。小規模なモデルでは内部空間の制約により概念同士が干渉しやすく、論理的な推論や複数の指示を同時に守るタスクにおいて構造的な限界を迎えてしまいます。本記事では、学習データの量では解決できないモデルの容量不足がもたらす思考力や自己監視能力への影響について解説し、なぜ特定の高度なタスクが大規模モデルにしか実行できないのかを明らかにします。
ローカルLLM

Nemotron-v2 transformerとmamba2のハイブリッドモデル

なぜ革新的なLLM技術は実装されないのか?その定説を覆す、NVIDIAのTransformer×Mamba-2ハイブリッドモデル「Nemotron v2」が登場。計算量とメモリの壁を突破し、ローカルAIを加速させる次世代アーキテクチャを解説します。
ローカルLLM

Qwen: Qwen3.5 397B A17Bが登場

いやでっか…… 誰がこんなのPCに載せられんねん……Qwen3.5はマルチモーダルReasoningモデルです。公式ページではThinkingと非Thinking両方の性能がグラフに載っているようですが、現在モデルはひとつしか公開されていま...
ローカルLLM

ローカルLLMに備えろ

プロプライエタリモデルとローカルモデルのメリットとデメリットを比較し、ローカルLLMの性能が今後向上していくことを見込んで、ローカルLLMを推しています。