推論が希少な資源となるとき、価値は誰が獲得するのか

核心的な視点

IOSGベンチャーズ

2026-06-08 23:35:55

コレクション

最終的に勝ち残る企業は、最も多くのGPUを持っている企業ではなく、どのGPUがどこにあり、どの価格で利用できるかを教えてくれ、すべてのワークロードを最も低コストで実行できる場所にルーティングできる企業です。

著者：Frank Fu，IOSG

2023年、David Cahnが提起したその穴は、トレーニング側では決して埋められなかった。それは推論側で埋められ、市場は過去数週間でようやくそれを価格に織り込むようになった。NVIDIAが「サービストークン」を中心に財務報告の基準を再編成し、Cerebrasが上場して20倍の超過申込を受けたとき、ボトルネックの争いはすでに終わっていた。本当の問題は次のことに変わった：推論が希少な資源となったとき、価値は計算力スタックのどの層に蓄積されるのか。

一、GPUに従う：2000億ドルの問題から6000億ドルの問題へ

2023年、SequoiaのDavid Cahnは、AI構築全体にかかるその問題、すなわち「2000億ドルの問題」を提起した。GPUに1ドルを使うごとに、データセンターでそれに電力を供給するためにさらに1ドルを使う必要があるため、毎年のGPUのCapExは、これらのチップが最終的に約2000億ドルの収入を生み出さなければならないことを意味する。AI収入に非常に寛大な仮定をしても、彼は「投入」と「エンドユーザーが実際に支払う金額」の間に1250億ドル以上の穴が存在することを発見した。懸念は非常に明白だった：GPUは実際の需要を超えて過剰に建設されている。

1年後、ギャップは縮まるどころか、逆に拡大した。Cahnは2024年の続編で、超大規模企業のCapExが膨張する中で、それを「6000億ドルの問題」と再定義した。弱気の論理は、過剰建設が供給過剰を引き起こし、過剰が資本を焼き尽くすという馴染みのある形に収束した。

2つの記事は実際には同じことを尋ねている：誰がこの穴を埋めるのか？答えは「トレーニング」側の帳簿には決して現れなかった。それは推論側に現れ、市場は過去数週間でようやくそれを価格に織り込むようになった。

二、Cerebras IPOと推論の圧迫

Cerebrasは木曜日に上場した。このIPOは20倍の超過申込を受け、価格は水曜日の最終的な引き上げのほぼ2倍に達した。需要は「次のNVIDIAの殺し屋」への賭けから来たのではなく、より単純な事実から生じている：市場はAIにおける真のボトルネックが推論であり、トレーニングではないことに気づき始めた。

Cerebrasの得意技は、推論を非常に迅速にするチップアーキテクチャである。トレーニングではなく、推論である。これがウォール街を興奮させるポイントだ。推論市場は定期的であり、使用量が拡大する。Claudeが質問に答えるたび、エージェントがタスクを実行するたびに、計算力が消費される。トレーニングは一度だけ発生し、推論は決して停止しない。

J.P. Morganは推論市場の規模をトレーニングの10倍から50倍と見積もっている。機械が他の機械から指示されたタスクを実行し始めると、エージェント式の拡張が始まり、推論の需要はユーザー数の拡大ではなく、計算力自体の拡大に従うようになる。

三、NVIDIAが地図を再描画：推論が見出しに

もしCerebrasが市場の覚醒であるなら、NVIDIAの最新四半期の財務報告は産業チェーンの頂点からの確認である。最新の財務報告の電話会議で、Jensen Huangはその暗黙の言葉を明らかにした：AIの需要は放物線的に増加している。理由は簡単だ：エージェントAIが到来したからだ。主流のAIは一回限りの推論から論理的推論に移行し、次に自らツールを呼び出し、タスクを編成するエージェントの段階に入った。Huangは「トークンは今や利益を生む」と述べた。AI時代において、計算力は収入と利益である。

これは業界全体を再構築した。トレーニングはモデルを構築するための一回限りのコストであり、推論はそれを運用するための定期的なコストであり、現在のボトルネックは推論にあり、トレーニングにはない。

NVIDIAはこの判断を自社の財務報告の基準に書き込んだ。現在、彼らは1つのプラットフォームではなく、2つのプラットフォームで開示している：データセンターとエッジコンピューティング。データセンター（当四半期約750億ドル、前年同期比+92%）はさらにハイパースケール（約380億ドル、前四半期比+12%）とACIE、すなわちAIクラウド、産業および企業（約370億ドル、前四半期比+31%）に分けられる。新たなラインはエッジコンピューティングであり、64億ドル、前年同期比+29%で、エージェントAIとフィジカルAIが実際に運用されるエンドポイント、例えばPC、ワークステーション、AI-RAN基地局、ロボット、自動車をカバーしている。

エッジは現在、総収入の8%未満を占めているが、NVIDIAはそれをデータセンターと並ぶ「第二プラットフォーム」に引き上げた。この信号は、推論が2つの戦線に分裂していることを示している：データセンター内のクラウド推論と、エッジ側のエンドポイント推論であり、AIは物理的な世界で見る、移動する、行動する必要がある。ロードマップは同じ論理に従っている：第3四半期から出荷されるVera Rubinは、推論スループットがBlackwellの35倍に達する可能性がある；Huangはエージェント負荷向けに設計されたVera CPUの新たな2000億ドルのTAMを示した。すべての最前線モデル企業は、初日から全面的にそれに移行することが予想される。

地球上で最も時価総額の高い企業が「サービストークン」を中心に財務開示を再編成する際、ボトルネックの争いはすでに決着がついていた。本稿の残りの部分では、推論（トレーニングではなく）が希少な資源となったとき、価値が誰によって捕らえられるのかを議論する。

まず範囲を明確にする。この2つの戦線の中で、本稿が議論するのはクラウド推論、すなわち外部にAPIトークンサービスを提供するために借りたデータセンターのGPUである。エンドポイント推論は、デバイス自体の内部にあるローカルチップ上で動作し（NVIDIAのJetson、RTX、Drive、AI-RAN）、その下のGPUのレンタルや集約スタックを経由しない。ここでは、これを全体の推論経済を拡大し、ボトルネックの論点を証明する追い風と見なすべきであり、HyperbolicやVeniceが存在する市場とは異なる、完全にクラウド側に位置するものである。

四、圧迫はすでに到来している

Anthropicは炭鉱のカナリアである。使用量は事前に設定された能力を大幅に超えており、Claudeが「脳葉切除」されたという不満がネット全体で広がっている。これには、制限された応答、遅くなった推論、圧縮されたコンテキストウィンドウが含まれる。解決策は明白な計算力である：2026年5月、AnthropicはSpaceXからColossus 1データセンター全体を引き継ぎ、22万枚以上のNVIDIA GPU、300メガワットを専ら推論に使用することにした。

この部分の能力は一連の制限の変動を解放し、毎回が信号となる。5月6日、AnthropicはClaude Codeの5時間の制限を倍増し、ピーク時の制限を解除し、OpusのAPI速度制限を大幅に引き上げた。5月13日には、Claude Codeの週の制限をさらに50%引き上げた（7月13日まで）。その後、6月15日からは「寛大」とは逆のことを行った：エージェント的およびプログラム的使用（Agent SDK、ヘッドレスモードclaude -p、CIパイプライン）をフラットサブスクリプションから切り離し、独立した計測のクレジットプールに移した（毎月20ドルから200ドル、API価格に基づく）。最後のこのステップは、全体の論点を一つの動作に凝縮した：エージェントが消費する推論の速度は、フラットサブスクリプションの設計の許容能力を大幅に超えているため、元々の「定期的なコスト」に基づいて価格設定する必要がある。

トレーニングは一回限りの資本支出である。推論は定期的な運営コストであり、新しいユーザーや新しいエージェントごとに複利的に蓄積される。

五、このスタック：6層、一つのボトルネック

すべてのAIアプリケーションは、TSMCのウェハ工場から始まり、APIエンドポイントで終わるサプライチェーンに位置している：

ほとんどの企業はその中の一層しか所有していない。NVIDIAはシリコンを所有し、CoreWeaveは裸の金属を所有し、Together AIは推論の最適化を所有し、OpenRouterはモデルAPIのルーティングを所有している。

唯一の例外がある。

六、Hyperbolic：三層を横断する唯一の企業

Hyperbolicは2025年6月にそのオンデマンドGPU市場を立ち上げた。最初の数ヶ月で、開発者数は20万人を超え、最前線のAIラボ、検索、大規模な消費者プラットフォームをカバーしている。

興味深いのはそのアーキテクチャである。

Hyperbolicは自社でGPUを一枚も保有していない。すべてのカードはneocloudやデータセンターから来ており、CoreWeave、Lambda Labs、Nebius、そして余剰能力を持つより小さなオペレーターが含まれている。これは弱点のように聞こえるが、実際には防御の堀である。

GPU供給者と消費者の間に座ることで、Hyperbolicは他の人が見えないリアルタイムデータを見ることができる。誰がどの価格で、いつ、どのGPUを購入しているのかを知っている。供給過剰が公にされる前にそれを見ており、需要が急増して市場に衝撃を与える前にそれを見ている。

現在、防御の堀自体がこのmulti-cloudの集約である。Hyperbolicは数十の独立したクラウドとデータセンターからの断片化された能力を縫い合わせ、標準化された統一プールを作り、開発者は各オペレーターと交渉する必要もなく、アカウントを管理する必要もなく、どこでも最も安価な利用可能なGPUを借りることができる。接続するクラウドが多ければ多いほど、流動性は深まり、価格データは豊富になる。その後、チームはこれらのデータを使用してGPU価格曲線をモデル化し、最終的には自社資本を投入して供給と需要を平滑化し、物理的な計算力のマーケットメーカーの役割を果たす方法を探求しているが、この目標はまだ初期段階にあり、実際に現在複利的に成長しているのは集約層である。

これがフライホイールである：

より多くのクラウドに接続 → より多くの集約された供給
より多くの供給 → より深い市場とリアルタイムの価格データ
より良いデータ → 現在のより賢いルーティング、長期的には価格モデル
より良い流動性と価格 → より多くの開発者 → より多くのクラウドが接続したい

他の企業はこの事を試みていない。HyperbolicはGPUレンタル層、デプロイ層、モデルAPI層を同時に横断する唯一の企業である。

七、Veniceという鏡

Veniceは推論経済がアプリケーション層で最も明確に表現されているものであり、Hyperbolicの位置との有用な対照でもある。それはプライバシー優先の推論アプリケーションであり、OpenAI互換のAPIのセットに加え、消費者向けのサブスクリプション（Free / Pro / Pro+ / Max）を提供し、約75のモデルにリクエストをルーティングしている。そのうち約3分の2はオープンソースまたは自己ホスト型のモデル（Llama、Mistral、Qwen、DeepSeek）であり、残りはクローズドソースの最前線モデルの匿名透過である。重要なのは、Venice自体は意味のある計算力を所有していないことである。公開されていないGPUのパートナーや機密計算の供給者（NEAR AI Cloud、Phala）からレンタルし、最前線のラボに透過的に支払っているため、実際の収益コストは推論の計算力であり、SaaSホスティングではない。

Veniceが本当に売っているのはプライバシーである。ここで言う「プライバシー化」とは、公共の計算力を私有化することではなく、商品化された推論に保証の層を加えることである：データを保存せず、トレーニングに使用せず、リクエストを匿名化し、一部の負荷はTEE内で実行され、オペレーター自身も平文を見ることができない。基盤となる計算力は一般的なものであり、追加料金で売られているのはこのプライバシーの包装である。そしてこの保証は層状であり、均質ではない：自己制御またはTEE GPU上で実行されるオープンソースモデルに対しては、エンドツーエンドの機密計算に近いことができるが、ClaudeやGPTのようなクローズドソースモデルの匿名透過に対しては、プライバシーは単にアイデンティティを剥離するだけであり、最前線のラボ側ではあなたの元のプロンプトを処理している。したがって、最も強力なプライバシーはオープンソースの部分をカバーし、最前線モデルの部分は「匿名」であって「真の機密」ではない。Veniceの粗利益は=サブスクリプション価格−下流に支払う推論コストであり、彼らが裸のAPI価格よりも多く収集できる部分は、ほぼこのプライバシーのプレミアムによって支えられているため、これは薄利であり、前線の透過価格に制約される理由でもある。

トークン設計はこの部分の推論需要を包装している。Veniceは2つのトークンで運営されている：VVV（ステーキングとプラットフォームアクセス）とDIEM、後者は推論クレジットであり、各DIEMは約1ドルの計算力に相当する。支払いサブスクリプションはVVVのプログラム的な買い戻しを引き起こす（Pro / Pro+ / Maxはそれぞれ約2 / 5 / 10ドル）、排出は固定のスケジュールに従って減少する：毎月6M→5M→4M VVV、そして7月1日に3Mに引き下げられる。買い戻しは実際のものであるが、裁量的であり、まだ大きくはない：4月と5月にはそれぞれ約10.3万ドルが消失し、6月には約11万ドルに向かってゆっくりと上昇しているが、毎月20万ドルというラインには遠く及ばない。

基本的な面は見出しよりも健康的である。公開されている「7000万ドルARR」という数字は、サブスクリプションの更新を純粋な新規顧客獲得の産物と誤解した結果であることがほぼ確実であり、弁護可能な観測範囲は600万ドルから1500万ドルARRに近い。この下で、トラクションは実際である：約13.6万のホルダーアドレス、毎月約990万のウェブサイト訪問（毎日約33万）、新規Proサブスクリプションは毎日約1400のラインで推移している。これは実際のビジネスであるが、薄利のビジネスであり、その経済性は購入する計算力に制約されている。

これがHyperbolicがその上の層に位置する理由である。もしVeniceがガソリンスタンドであるなら、Hyperbolicは製油所である。Veniceはすべての人が依存する同じ制限された供給から計算力を購入している；Hyperbolicはその断片化された供給を集約し、標準化し、それをVeniceやそれに似たすべてのプレイヤーに販売している。推論需要が増加するにつれて、価値は消費計算力のアプリケーションに蓄積されるだけでなく、計算力を集約し、ルーティングし、これらのアプリケーションが支払う収益コストを捕らえる層にも蓄積される。

八、なぜこの事が今重要なのか

NVIDIAは「サービストークン」を中心に財務を再編成した。CerebrasのIPOは市場が推論がボトルネックであることを理解していることを証明した。Anthropicは能力のために奔走し、これは実際の問題であることを証明した。エージェント的およびフィジカルAIは需要を数桁増加させ、クラウドとエッジの2つのラインを横断する。

そしてそれは「6000億ドルの問題」の環を別の側から閉じた。Cahnの弱気の論理、すなわち過剰建設、そしてその後の過剰は、最終的には検証される可能性が高い。しかし、過剰はまさに軽資産の集約者にとって最適な状況である：GPU価格が下落し、供給が数十のクラウドに分散しているとき、ハードウェアを一切持たず、すべてのワークロードを最も安価な利用可能なカードにルーティングするプレイヤーが価格差を得ることになる。一方、常に減価償却されるGPUを持つオペレーターは損失を負う。Hyperbolicは過剰を買い上げるのではなく、過剰を利用している。

最終的に勝つ企業は、最も多くのGPUを持つ企業ではなく、どのGPUがどこで、どの価格で利用可能かを教え、すべてのワークロードを最低コストで実行できる場所にルーティングする企業である。

Hyperbolicはそのような企業を構築している。GPUを自社で所有せず、純ソフトウェアで、三層にわたって深く、しかし推論の究極の計算力の集約層として成長している。

Join ChainCatcher Official

Telegram Feed: @chaincatcher

X (Twitter): @ChainCatcher_

リスク警告