ローカルLLM

ローカルLLM

LM StudioがMTPに対応したので使ってみる

LM StudioがMulti Token Prediction(MTP)に対応しました。24GB VRAM環境でQwen3.6シリーズを使い、トークン生成速度の向上幅やVRAM消費、Prefillへの影響を実際に検証した結果をまとめています。一般家庭のスペックではMTPの恩恵は限定的です。
ハウツー

ローカルLLMにブラウザを操作させる(BrowserOS+LM Studio)

AIネイティブブラウザ「BrowserOS」をローカルLLM(Qwen3.6-27B)で動かしてみた。できること・遅さ・ハルシネーション・CAPTCHAの実態・プロンプトインジェクションのリスクまで正直にレビュー。
ハウツー

ローカルLLMでコーディングエージェントを運用する(LM Studio + OpenCode)

Claude Codeの制限・従量課金に疲れたなら、ローカルLLMという選択肢があります。Qwen3.6とLM Studio、OpenCodeを組み合わせてコーディングエージェントを自前で動かすセットアップ手順を解説します。
ローカルLLM

スマホでLLM:エッジデバイスAIの現在地と未来

スマホでLLMを動かす時代がやってきます。Gemma4 E2B/E4Bを例に、エッジデバイスでSLMが動くと何が嬉しいか、現状の限界はどこにあるか、そして将来本当に残り続ける制約は何かを整理します。
ハウツー

小さいモデルほど量子化で劣化する:モデルとGGUF量子化の関係

GGUF量子化の最適解を探る。8bit以下の劣化傾向、K-quants/I-quants/UDの技術的違い、小規模モデルの量子化リスク、実用的なモデル選定基準をまとめました。
ローカルLLM

ローカルLLMのキャラ付けにLoRAは不要。RAGやプロンプトで十分

ローカルLLMでキャラクター再現にLoRAファインチューニングが不向きな理由を解説。口調制御はプロンプトで十分、ドメイン知識の注入にはDoRAやRAGが有効。版権キャラを演じさせる現実的なアプローチを比較検討します。
ローカルLLM

各種ローカルLLMの使い分け

ローカルLLMの使い分けを実務経験から解説。Qwen3.6-35b-a3bはコーディング・長文読解・検索に、Gemma4は雑談・ロールプレイに活用。プロプライエタリモデルが必要な場面との境界線も正直に語ります。
ローカルLLM

TurboQuant: KVキャッシュ圧縮の理論的限界に迫るGoogleの新手法

Google Research発のKVキャッシュ圧縮技術「TurboQuant」を解説。3ビットでほぼ無劣化の圧縮を実現する仕組み、論文では触れられていないQJLの実用上の問題点、llama.cppやvLLMへの統合状況まで、ローカルLLMユーザー視点でまとめています。
ローカルLLM

Qwen3.5-27Bがえぐすぎる(当然弱みもある)

Qwen3.5-27Bの強みと弱みを説明しています。
ローカルLLM

Qwen3.5-27b 久々のまともなLLM

Qwen3.5-27bをLM Studioで動かしてみた手触りを報告しています。正しい日本語を扱い、正しいReasoningをし、バイブコーディングもできます。