ローカルLLM

LM StudioがMTPに対応したので使ってみる

LM StudioがMulti Token Prediction(MTP)に対応しました。24GB VRAM環境でQwen3.6シリーズを使い、トークン生成速度の向上幅やVRAM消費、Prefillへの影響を実際に検証した結果をまとめています。一般家庭のスペックではMTPの恩恵は限定的です。
ハウツー

ローカルLLMにブラウザを操作させる(BrowserOS+LM Studio)

AIネイティブブラウザ「BrowserOS」をローカルLLM(Qwen3.6-27B)で動かしてみた。できること・遅さ・ハルシネーション・CAPTCHAの実態・プロンプトインジェクションのリスクまで正直にレビュー。
ハウツー

ローカルLLMでコーディングエージェントを運用する(LM Studio + OpenCode)

Claude Codeの制限・従量課金に疲れたなら、ローカルLLMという選択肢があります。Qwen3.6とLM Studio、OpenCodeを組み合わせてコーディングエージェントを自前で動かすセットアップ手順を解説します。
ローカルLLM

スマホでLLM:エッジデバイスAIの現在地と未来

スマホでLLMを動かす時代がやってきます。Gemma4 E2B/E4Bを例に、エッジデバイスでSLMが動くと何が嬉しいか、現状の限界はどこにあるか、そして将来本当に残り続ける制約は何かを整理します。
解説

LLMの長文読解に有利なのはRAGかコンテキストか?

RAGとLCW(Long Context Window)の仕組み・特徴を比較し、それぞれの検索精度やコスト面での違い、ハイブリッド構成の考え方までを解説します。
解説

モデル崩壊:AIはAIを食いつぶさない

「AI生成データでAIが劣化する」と言われるモデル崩壊。実は定義が8つに分かれる曖昧な概念で、現実的な訓練条件では致命的崩壊は起きないとする研究もある。ArXiv主要論文をもとに、崩壊の分類・実態・防止策を整理した。
解説

ReasoningがLLMの回答精度を下げることがある

LLMのReasoningは常に精度向上に寄与するわけではありません。事実回答タスクではハルシネーション率が上昇し、小規模モデルほど誤推論が累積します。生成時間が20〜80%増加するのに対し精度向上は3%未満にとどまります。研究に基づいて、いつReasoningを使うべきかを整理します。
ハウツー

小さいモデルほど量子化で劣化する:モデルとGGUF量子化の関係

GGUF量子化の最適解を探る。8bit以下の劣化傾向、K-quants/I-quants/UDの技術的違い、小規模モデルの量子化リスク、実用的なモデル選定基準をまとめました。
ローカルLLM

ローカルLLMのキャラ付けにLoRAは不要。RAGやプロンプトで十分

ローカルLLMでキャラクター再現にLoRAファインチューニングが不向きな理由を解説。口調制御はプロンプトで十分、ドメイン知識の注入にはDoRAやRAGが有効。版権キャラを演じさせる現実的なアプローチを比較検討します。
解説

プロンプトインジェクション──LLMの構造的弱点はなぜ消えないのか

プロンプトインジェクションはLLMが命令とデータを区別できない構造的脆弱性だ。直接・間接インジェクションの攻撃手法と実例、根本解決が困難な理由、多層防御による現実的な対策アプローチを体系的に解説する。