ReasoningがLLMの回答精度を下げることがある

推論とReasoningを区別しています。学習されたニューラルネットワークモデルに入力をして出力を得る行為を推論といい、Extended reasoning chainsを備えた「推論モデル」と被ってしまうので、後者の推論を和訳せずにReasoningと呼んでいます。

この記事を書くための情報収集に自作のDeep Researchツールを使ってみました。そのツールが吐き出したレポートと参考文献をもとにしてこの記事は書かれています。

Reasoningで精度が上がるタスクと下がるタスクがある
小さいモデルほど誤解を重ねやすく、Reasoningで回答精度が下がる
Reasoningによる精度向上は、延びる生成時間に対して割に合わない
1. ロールプレイではどうか？
コンテキストが増えるほど回答精度が下がる
参考文献

Reasoningで精度が上がるタスクと下がるタスクがある

数学や高度な推論を必要とする課題ではReasoningを行うことによって回答の精度が上がります。これはLLMが持っている知識ではなく与えられた事実のみを使って推論を重ねることが必要である(ハルシネーションの入る余地が少ない)ためと考えられます。
一方で、単に事実を答える課題ではReasoningが悪く働き、回答の精度が下がります。これはLLMの内部にある知識を活用して答える必要があり(ハルシネーションの入る余地がある)、ただ答えればいいのに推論を重ねてしまう(ハルシネーションで崩れた前提を利用して間違った推論を重ねてしまう)ことが原因だと考えられます。
Metaの報告では、Reasoningを行わせると、行わせない場合に比べてハルシネーションを起こす率が10から13%多かったとのことです。これはExtended reasoning chains(LLMの機能として備えられたReasoning)が誤解の累積源となることが原因だとされています(それってタスクの種類に関わらずReasoningそのものが起こす問題では？)。

小さいモデルほど誤解を重ねやすく、Reasoningで回答精度が下がる

小さいモデルは間違った推論をしやすいようです。その状態で推論を重ねるということは、間違った前提をもとにして推論を重ねていくということなので、当然精度が落ちます。
7Bパラメータでその傾向が現れ、3Bパラメータでより顕著になるとのことです。

Reasoningによる精度向上は、延びる生成時間に対して割に合わない

GPT o3 mini, o4 miniというふたつのReasoning特化モデルを対象にしてベンチマークテストを行った結果、Reasoningによって生成時間が20から80%増加したのに対して、回答精度の上昇は2.9から3.1%にとどまったとのことです。割に合わなすぎる。

ロールプレイではどうか？

私はよくGemma4にロールプレイをさせています。私の感覚に根ざしたものなので信憑性に欠けるかもしれませんが、確かにReasoningをさせると与えられた設定をより忠実に再現してくれるものの、生成時間が1, 2分伸びるのに対してその精度の向上は割に合わないと感じます。一度の会話のラリーで何分も待たされていてはたまりません。
Reasoningでより忠実なロールプレイが可能になる理由としては、数学の問題を解く課題と同じく、与えられた情報と矛盾がないように文を作る作業が主である点だと考えられます。

コンテキストが増えるほど回答精度が下がる

それはそう。ただ、その精度低下はそのLLMが確保できる最大コンテキストウィンドウの半分程度の消費でも起きることが確認されています。しかしこれは、小説をまるごと一本読んで把握できるLLMが登場したことからもわかるとおり、時間が解決する問題かもしれません。コンテキストウィンドウは伸び続け、同時に実際にLLMが把握できるコンテキストの量も伸び続けています。
小説を読ませてReasoningさせると、情報の濁流に混乱して誤読を繰り返す様子を見ることができます。