Zieens

2026/05/08

Sparse Attention機構を採用した新LLMモデル「SubQ」について

Subquadratic社が発表した記事「Introducing SubQ: The First Fully Subquadratic LLM」についての学習メモ

  • LLM

はじめに

2026/5/5 に Subquadratic 社が発表した新モデル「SubQ」およびその紹介記事が興味深かったので、内容についてChatGPTと議論して学習した内容をまとめる。

概要

  • Subquadratic 社が Sparse な Attention 機構を採用した新たな LLM 「SubQ」を発表した
  • Sparse Attention とは、すべてのトークン間の Attention スコアを計算する(Dense)のではなく、重要度の高いトークン間のみ Attention スコアを計算する機構
  • 12 M tokens という超ロングコンテキストにおいても、離れた位置の単語同士の関連性を適切に認識できると主張
  • SWE-Bench Verified などの実用ベンチマークにおいて Claude Opus 4.6 級の性能を実現
  • ただし、重要度の高いトークンペアの選定メカニズムなどの詳細は未発表

SubQの詳細

そもそもなぜロングコンテキストが難しいのか

現在のLLMの主要アーキテクチャである Transformer において、各トークンが「自身にとって他のどの単語が重要か?」という情報を判断するための仕組みが「Attention」である。

Attention は、注目トークン以前に出現したトークンとの関連度スコアを総当たりで計算する。したがって、コンテキスト長が伸びると計算量が爆発的に増える(コンテキスト長の2乗に比例)ことがボトルネックとなっていた。

この課題についてはこれまで以下に示す例のような様々なアプローチで解決が図られてきた。いずれも Attention の計算時に見るペアを減らすことを主眼に置くものであるが、同時に弱点も存在し、結局は性能を維持しながら計算量を減らす画期的な手法はまだ存在しない。

方式仕組み長所弱点
固定パターン型スライディングウィンドウなど計算量削減遠くにある情報は認識されない
状態空間型 / 再帰型過去の情報を圧縮した状態を使用線形スケーリングが実現長文では情報が要約されてぼやける
ハイブリッドアーキテクチャ効率的レイヤーと密な Attention レイヤーの組み合わせ機能はする密なレイヤーが存在するので計算量はそれほど落ちない
DeepSeek Sparse Attention見るべき情報を「インデクサー」が選ぶAttention の計算量は減るインデクサーの計算量が結局2乗スケーリング(計算コストが移動しただけ)

SubQ の特徴

SubQ は上記に続く新たなアプローチとして、Subquadratic Sparse Attention (SSA) という機構を提案している。

通常の Dense Attention が「どの関係が重要か分からないからすべての組み合わせを計算する」のに対して、SSA は「どの場所を見るべきかを内容に基づいて選び、選ばれた場所のみ Attention を計算する」と説明されている。すなわち、従来の LLM では Attention の計算量がコンテキスト長の2乗に比例して増加していたが、SubQ ではコンテキスト長に対して線形に計算量が伸びる。

一見すると DeepSeek Sparse Attention によく似た考え方に思われるが、残念ながら SSA がどのようにして意味に基づいて見るべきトークンペアを選定しているのかは開示されていない。(続報があれば本記事に追記予定)

この SSA によって、SubQ は 12 M tokens もの超ロングコンテキストを扱うことが可能(これはただ「ロングコンテキストがモデルに入る」というだけではなく、その上で「ちゃんと離れた位置の単語同士の関連性が適切に評価されている」ことを意味する)となり、さらには 150 tokens/s の処理速度および主要 LLM の約 1/5 のコストを実現したと主張している。

SubQ の学習プロセス

超ロングコンテキストを適切に扱うためにはアーキテクチャだけでは不十分であり、SubQ では以下の一連のプロセスで訓練されている。

  1. 事前学習: 基盤となる言語モデリングと、トークンペア選択メカニズムを用いたロングコンテキスト表現を獲得する
  2. 教師ありファインチューニング: 指示の遵守、構造化された推論、コード生成パターンの能力を獲得する
  3. 強化学習: 局所的な推論に頼るのではなく利用可能なコンテキストを積極的に活用して、ロングコンテキストの検索やコーディングの能力を獲得する

特に最終段階の強化学習が重要である。トレーニングデータは、トークンペア選択のメカニズムに、位置的に離れたトークン間のルーティングを学習させるよう設計されたものを用いている。

ベンチマークスコア

SubQ の性能について、以下のようなベンチマークスコアを報告している(抜粋してまとめた)。もしこれが本当であれば、Claude Opus 4.6 クラスの化け物モデルが 12 M という特大コンテキストウィンドウで使えることになる。(MRCR v2で Opus 4.6 >> Opus 4.7 になってるのが謎だが)

ModelMRCR v2SWE-Bench Verified
SSA / SubQ65.9%81.8%
Gemini 3.1 Pro26.3%80.6%
Opus 4.678.3%80.8%
Opus 4.732.2%87.6%
GPT 5.436.6%Not reported
GPT 5.574.0%Not reported

さいごに

ここ最近は主要プロバイダが揃って 1 M コンテキストに対応したモデルを提供してきているが、やはりいずれもコンテキスト長が伸びてくると露骨な性能低下が見られるのが現状である。そんな中で出てきた SubQ が GPT / Claude / Gemini の御三家(最近は GPT と Claude の二強?)に一石を投じることができるか注目したい。

ちなみに SubQ は 12 M tokens を扱えるとのことだが、これは Python 3.13 の標準ライブラリ全体(約 5.1 M tokens)や React リポジトリへの過去半年分のプルリクエスト約 1,500 件分(約 7.5 M tokens)を丸ごとプロンプトに入れられる規模らしい。途方もなくてすごい。

あとは肝心のトークンペア選択のメカニズムが開示されていないので詳報が早く欲しいな…興味あるので開示してくれるといいな…