Nemotron-v2 transformerとmamba2のハイブリッドモデル

このサイトにおける一番初めの記事では革新的な技術がなぜなかなかLLMに採用されないのかということをお伝えしました。しかしその数日後、transformerとmamba2を両方取り入れたまさに革新的なモデルが発表されてしまったのです。

NVIDIA Nemotron 2 Nano 9B Japanese: 日本のソブリンAIを支える最先端小規模言語モデル

それが、NVIDIAが突如として公開したNemotron-Nano-9B-v2、そして日本の環境に向けてチューニングされた日本語版モデルです。前回の論考で指摘した、既存のトランスフォーマーインフラへの過剰な依存や、新しいアーキテクチャへの移行に伴う経済的・技術的リスクという分厚い壁に対し、NVIDIAは既存のものを完全に捨てるのではなく、精度の高い自己注意機構と計算効率に優れたMamba-2のハイブリッド化という現実的かつ鮮やかなアプローチで突破してきました。

このモデルの最大の特徴は、アーキテクチャ内の自己注意層の大部分を、状態空間モデルであるMamba-2の層に大胆に置き換えている点にあります。従来のトランスフォーマーの最大の弱点は、入力される文章が長くなるほど計算量とメモリ消費が二乗に比例して爆発してしまうことでした。しかし、計算量が線形でしか増えないMamba-2をモデルの主軸に据えることで、トランスフォーマーの持つ高い推論能力や文脈理解力を維持したまま、計算コストの劇的な削減に成功しています。つまり、両者の長所だけを抽出した構造論的なブレイクスルーと言えます。

このハイブリッド構造がもたらす実用上のメリットは計り知れません。まず、同規模の従来型モデルと比較して、長い入出力が求められる高負荷なシナリオにおいて桁違いの推論速度を叩き出します。さらに、90億という軽量なパラメータサイズに収められているため、一般的な単一のGPU環境であっても、最大で100万トークンもの長大なコンテキストを処理することが可能です(LM Studioの表記上ではそうですが、Nemotron-Nano-9B-v2-japaneseで試したところ日本語を65000文字も把握できませんでした)。前回の記事で触れたハードウェアの限界とメモリの壁を、まさにアーキテクチャの工夫によって見事に乗り越えています。また、日本語版は関数呼び出しなどの自律的なタスク遂行能力において鍛え上げられており、10bパラメータ以下の軽量クラスとして最高峰の性能を記録しています。