モデル崩壊：AIはAIを食いつぶさない

インターネット上にAI生成物が反乱することによって、それを学習する生成AIの出力が劣化し続ける、という言説があります。これをModel Collapse(モデル崩壊)といいます。これを「タコが自分の足を食べる」と表現し、しばしば生成AI反対派のおもちゃにされています。

この言葉が覆い隠している分類

そもそも定義が曖昧な言葉です。
モデル崩壊とひとくちにいっても、それが表すものは8つあるという主張があります(Position: Model Collapse Does Not Mean What You Think)。
ただし、複数の定義をまたいで話をするので、モデル崩壊という言葉がこの記事で出てきたらどのモデル崩壊のことを言っているのかを意識してください。また、これらの定義はMECEではありません(つまり互いに背反でもなければレイヤーが揃っているわけでもない)。複数の定義を含むことがあります。

母集団リスクの壊滅的な増加

合成(AI生成された)データが存在することで、モデルのパフォーマンスが致命的かつ急激に悪化すること、と定義します。この場合のパフォーマンスの悪化を母集団リスクといいます。ただ、何を持って致命的、急激とするかは人の主観です。
これが最も一般的にイメージされる定義の一つです。

(どのような場合でさえ)母集団リスクの増加

少しでもパフォーマンスが悪化すればそれをモデル崩壊と呼ぶことがあります。

母集団リスクの漸増

合成データを学習し、さらなる合成データを生成し、それをまた学習し……というプロセスを経てだんだんとパフォーマンスが悪化していくことをモデル崩壊と呼ぶパターンです。生成AI反対派はこれを想定している気がします。
ここまでは程度の差による定義揺れです。

分散の減少

モデルの学習を繰り返す過程で、生成物の多様性が失われていく現象です。これも反対派がたまに問題として取り上げます。

スケーリング則の変化

モデルのパラメータ数が大きいほど生成の精度が上がることをスケーリング則といいます。合成データを学習することでこのスケーリング則が変化するという主張があります。パラメータ数を増やしても性能が上がらない、といったことです。

現実のデータモードの消失または交絡

現実のデータモードとは、データが持つある種のパターンのことです。合成データによってそのパターンが見えなくなったりすることで学習を妨げます。モード崩壊ともいいます。

現実のテールデータの消失

出現頻度の高い情報をの出現頻度を合成データがさらにかさ増しすることで、発生頻度の低いニッチな現実のデータが過小評価され、切り捨てられるという現象です。分布のうち出現頻度の低い端のほうをテール(しっぽ)と慣習的に呼んでいます。これはカバレッジ崩壊とも呼ばれています。

ハルシネーションを含む合成データの出現

モデルの世代が進むにつれて、現実のデータに存在しなかった情報を含む合成データが生まれ始めるという現象があります。

崩壊の順序

早期崩壊としてテールデータが消失し、後期崩壊として生成物の分散が減少します。ただし、これは特定の一本の論文で言われていることです(Shumailov et al. (2023))。

ほんとに崩壊するの？

まず、モデルの崩壊を示した実験の多くは「学習中の各世代で前世代のデータを完全に削除する」「合成データのみで訓練する」といった、モデルを訓練する上で現実的にはやらないようなことをあえて行っています。これから個別の崩壊事例について説明しますが、あえて変な訓練をしない限り崩壊しないと思っていただいて構いません。

母集団リスク

Population risk will not increase catastrophically or di-
verge asymptotically. ((現実的な設定では)母集団リスクは破滅的に増加することも、”漸近的に発散”することもない)

現実的な条件(データ累積設定)のもとでは、世代を重ねても母集団リスクが急激に悪化することはなく、また際限なく増加し続けることもない(有限の上界に収まる)ということです。

分散の減少(早期崩壊)

現実的な設定(過去の実データと合成データが混在して蓄積される状態)において、モデルが「全く使えなくなる」ほどの母集団リスクの急増や発散は起きないと考えられます。

ただし注意すべき点があります。モデルが使えなくなることと出力の多様性が失われることは別物である点です。論文は、実データを混在させても、データ分布の端(テール)にあるレアケースの情報が薄まったり、生成物の多様性が低下したりするリスクは依然として残ると指摘しています。

合成データが氾濫してもモデルは壊れないと楽観視するのではなく、”壊れることはないが、出力が単調になり、ニッチな知識や少数派の情報が失われる『多様性の崩壊』に注意すべきだ”というのがPosition: Model Collapse Does Not Mean What You Thinkの正確な主張です。

何によって分散の減少が起きるの？

頻出するデータはより生成されやすい

ので、あまり表れなかったデータはより生成されにくくなります(多様性が失われていきます)。

Relpace paradigmとAccumulate Paradigm

前者は訓練時に前の世代のデータをすべて削除し、合成データのみで次の世代を訓練する場合を指します。Replace Paradigmでは、分散の減少とテールデータの消失が急速に起こり、最終的にモデルの出力の多様性が完全に失われます(どんな入力でも同じデータを吐くようになる)。

後者は実データに加えて合成データを蓄積して訓練する場合です。現在行われている訓練はこれにあたります。この場合、先ほど述べたように母集団リスクの発散は起きえません。ただし多様性は徐々に失われていくようです。

じゃ、防ごう

実データと合成データを明確に分け、合成データの割合を一定以下に保つ

データセットを構築するためにページをクロールするとき、それが実データか合成データかを識別してラベルを貼ります。また、簡単に識別できるよう生成AIによる生成時に透かしを入れることも重要です。実データと合成データの区別がつかなければ合成データの割合を減らすことができませんから。

多様性指標を導入する

出力されたデータの多様性がどれだけ保たれているかを常にモニターします。

Verifier(検証器)パイプラインを設ける

出力されたデータの質をモニターする機構です。まず大量にデータを吐かせて、吐き出されたデータをVerifierによって選別して次の世代に渡します。RLHF報酬モデル(人間の選好を学習したモデルによるジャッジ)、ルールベース検証(コードならそれがエラーなく実行できるか、数式ならちゃんと整合しているかを機械的に検証する)、LLM-as-judge(これは良い出力ですか？　とLLMに聞く)の3つを通すと質の高いデータが残るといいます。
このVerifierが完璧ではなくても、データの質の向上に大きく貢献するようです。
ただしVerifierで選別を行うということはつまり多様性を失わせるということなので、Verifyの指標として先ほどのタ油性指標を組み合わせる必要があります。

スケーリング則の変化

スケーリング則自体が変化し、従来の性能予測が当てはまらなくなる可能性は指摘されていますが、それが直ちに崩壊を意味するかどうか、またはどの程度影響するかは、現時点では研究段階であり結論が出ていません。これについては判断を保留すべきです。ただし現在LLMの性能は伸び続けています。

まとめ

「タコが自分の足を食べて」死ぬには、合成データのみで訓練し、多様性を失わせる必要があります。しかしそれを防ぐ仕組みがいくつも提案されているため、少なくとも母集団リスクの発散と多様性の喪失は防がれることでしょう。これらが最も多く語られる「モデル崩壊」であることを考えると、おおかたの崩壊シナリオは潰れたといえると思います。