学習とは忘却である：非可逆圧縮としてのLLM訓練

2026年4月、興味深い論文がarXivに投稿された。タイトルは Learning is Forgetting: LLM Training As Lossy Compression。Henry Conklinらの研究で、LLMの訓練を情報理論の枠組みで記述し直そうという試みだ。

学習とは忘却である。挑発的なタイトルだが、読み進めると納得させられる。

LLMは何をしているのか
2つのフェーズ
モデルごとに違う忘れ方
compression is opinionated
余談：AI製の記事はなぜ読む気が失せるのか、との接続

LLMは何をしているのか

LLMの訓練を一言で表すなら、次のトークンを予測する精度をひたすら上げる作業だ。膨大なテキストデータを食わせて、この単語の次にはこの単語が来やすい、というパターンを学ばせる。ここまでは広く知られている。

この論文が面白いのは、その過程をlossy compression——非可逆圧縮として捉え直した点にある。

非可逆圧縮とは何か。JPEGを思い浮かべるとわかりやすい。写真を保存するとき、人間の目には見分けがつかない程度にデータを間引いてファイルサイズを減らす。元の画像と完全には一致しないが、実用上は十分使える。捨てた情報は二度と戻らない。これが非可逆圧縮だ。

論文の主張はこうだ。LLMは訓練の過程で、次トークン予測という目的に関連する情報だけを残し、それ以外を捨てている。つまり学習しているのではなく、選択的に忘却している。残った情報の構造こそがモデルの能力を決める。

2つのフェーズ

この論文の核心は、情報ボトルネック（IB）理論を使って訓練のダイナミクスを分析した部分だ。

IB理論の予測では、深層学習の訓練は2つのフェーズをたどる。

まずフィッティング・フェーズ。訓練初期のモデルは、出力側——つまり次のトークンを当てるという目標——との相互情報量をひたすら増やす。とにかく手当たり次第に情報を取り込んでいる段階だ。引っ越し直後に段ボールの中身を片っ端から部屋に広げるようなものだと思えばいい。

次に圧縮フェーズ。ある時点からモデルは方向を変える。訓練ロスが飽和し始める——つまりこれ以上予測精度が大きく伸びなくなる——と、入力側の情報を積極的に圧縮し始める。不要な情報を捨てて、本当に必要なものだけを残す作業に入る。広げた荷物を仕分けして、いらないものを捨てているフェーズだ。

論文ではOLMo2 7Bモデルの訓練軌跡がこの2フェーズの予測と見事に一致することを示している。訓練の大部分は、実はこの圧縮フェーズに費やされている。つまりLLMの訓練時間の大半は、何かを学んでいるのではなく、何かを忘れている時間だということになる。

モデルごとに違う忘れ方

ここからがさらに面白い。

論文はOLMo2だけでなく、公開されている多数のオープンウェイトモデルを比較分析している。その結果、モデルごとに圧縮の仕方が異なることがわかった。訓練データが違えば、レシピが違えば、残る情報も変わる。当然といえば当然だが、これを情報理論の枠組みで定量的に示したのがこの論文の価値だ。

そして重要なのは、モデルのファミリーが違っても、圧縮の最適性——どれだけ理論限界に近い圧縮ができているか——と、表現の中に残っている情報の量から、下流タスクの性能を予測できるという発見だ。

言い換えると、モデルの性能は何を学んだかではなく、何をどう忘れたかで決まる。

compression is opinionated

この論文で最も示唆に富むのは、圧縮は本質的に意見を持つ行為だという指摘だろう。

何を残して何を捨てるかは中立的な操作ではない。JPEG圧縮が人間の視覚特性に合わせて情報を間引くように、LLMは次トークン予測という目的に最適化された基準で情報を取捨選択する。その基準は訓練データの統計的構造から導かれるものであって、誰かが意図的に設計したわけではない。

論文はこれを、個々の回路やニューロンを調べるのではなく、モデル全体のスケールで学習と汎化を理解するための枠組みとして位置づけている。解釈可能性（interpretability）の研究が個別のヘッドやニューロンの機能を解析するミクロなアプローチをとっているのに対して、この論文はマクロな視点からモデル全体の表現構造を記述しようとしている。

さらに、圧縮は人間にも同じことが言えるという視点も興味深い。人間の学習もまた、膨大な経験から不要なものを忘れ、重要なものだけを残す非可逆圧縮のプロセスだ。ただし人間の場合、何を残すかの判断には個人の経験、関心、価値観が反映される。LLMの場合、その判断は訓練データの統計分布に委ねられている。この違いは小さくない。

余談：AI製の記事はなぜ読む気が失せるのか、との接続

ここからは論文の内容を離れて、このブログで以前扱ったテーマとの接続を考えてみる。

LLMが次トークン予測に最適化された圧縮を行っているなら、その出力は必然的に最大公約数的な表現に収束する。訓練データ全体において最も確率の高い系列を生成するのがモデルの仕事だからだ。

AI製の文章を読んだときに感じるあの均質さ——どこかで見たことがある感じ、誰が書いたのかわからない感じ——は、このメカニズムから説明できるかもしれない。モデルは個別性の高い情報、つまり特定の書き手にしかない癖やリズムや視点を、圧縮の過程で切り捨てている。それは次トークン予測の精度向上にはあまり寄与しない情報だからだ。

compression is opinionated。しかしその意見の主体は統計分布であって、書き手ではない。読者が感じる違和感の正体は、そこにあるのかもしれない。

参考 Conklin, H. C. et al. (2026). Learning is Forgetting: LLM Training As Lossy Compression. arXiv:2604.07569.