當推理成為稀缺資源，價值由誰捕獲

核心觀點

IOSG Ventures

2026-06-08 23:35:55

最終勝出的公司，不會是擁有最多 GPU 的那一家，而是能告訴你哪些 GPU 在哪裡、以什麼價格可用，並把每一份工作負載路由到能以最低成本運行之處的那一家。

作者：Frank Fu，IOSG

2023 年 David Cahn 提出的那個窟窿，從未在訓練側被填上。它被填在了推理側，而市場只是在過去幾週才開始把它計入定價。當英偉達圍繞「服務 token」重組財報口徑、Cerebras 上市獲 20 倍超額申購，瓶頸之爭已經結束，真正的問題變成了下一個：當推理成為稀缺資源，價值會沉澱在算力棧的哪一層。

一、跟著 GPU 走：從 2000 億美元問題到 6000 億美元問題

2023 年，Sequoia 的 David Cahn 提出了懸在整個 AI 建設之上的那個問題，即「2000 億美元問題」。每花 1 美元買 GPU，大約還要再花 1 美元在數據中心裡給它供電，因此每一年的 GPU CapEx，都意味著這些芯片最終必須產生約 2000 億美元的收入才能收回這筆資本。即便對 AI 收入做出非常慷慨的假設，他仍發現「投入」與「終端客戶實際付費」之間存在一個 1250 億美元以上的窟窿。擔憂很直白：GPU 正在被超前於真實需求地過度建設。

一年之後，缺口非但沒有收窄，反而擴大了。Cahn 在 2024 年的續作裡，隨著超大規模廠商 CapEx 膨脹，把它重新定義為「6000 億美元問題」。看空邏輯收斂成一個熟悉的形狀：過度建設導致供給過剩，而過剩會燒毀資本。

兩篇文章其實都在問同一件事：誰來填這個窟窿？答案從未出現在「訓練」這一側的賬本上。它出現在 inference（推理）這一側，而市場只是在過去這幾週才開始把它計入定價。

二、Cerebras IPO 與推理擠壓

Cerebras 於週四上市。這次 IPO 獲得 20 倍超額申購，定價接近週三最終加價的兩倍。需求並非來自對「下一個 Nvidia 殺手」的押注，而是源於一件更簡單的事：市場開始意識到，在 AI 中真正的瓶頸是 inference，而不是訓練。

Cerebras 的看家本領，是一種讓推理極快的芯片架構。不是訓練，是推理。這正是讓華爾街興奮的點。inference 市場是經常性的，它隨使用量擴張。每一次 Claude 回答問題、每一次 agent 執行任務，都在消耗算力。訓練只發生一次，推理永不停止。

J.P. Morgan 把 inference 市場規模估算為訓練的 10 到 50 倍。當機器開始執行由其他機器下達的任務，即 agentic（智能體）式擴張，inference 需求就不再隨用戶數擴張，而是隨算力本身擴張。

三、Nvidia 重畫版圖：推理成為頭條

如果說 Cerebras 是市場的覺醒，那麼 Nvidia 最新一季財報就是來自產業鏈頂端的確認。在最新財報電話會上，Jensen Huang 把那句心照不宣的話挑明了：AI 需求正在呈拋物線式增長。原因很簡單：agentic AI 已經到來。主流 AI 已經從一次性推理，過渡到邏輯推理，再進入會自己調用工具、編排任務的 agent 階段。Huang 說，「Tokens 現在是有利可圖的。」在 AI 時代，算力就是收入和利潤。

這重塑了整個行業。訓練是構建一個模型的一次性成本，inference 則是運行它的經常性成本，而如今的瓶頸在推理，不在訓練。

Nvidia 把這個判斷寫進了自己的財報口徑。它現在按兩個平台披露，而非一個：Data Center（數據中心）與 Edge Computing（邊緣計算）。數據中心（當季約 750 億美元，同比 +92%）進一步拆為 Hyperscale（約 380 億美元，環比 +12%）和 ACIE，即 AI 雲、工業與企業（約 370 億美元，環比 +31%）。全新的一條線是 Edge Computing：64 億美元，同比 +29%，覆蓋 agentic AI 和 physical AI 真正運行的終端，比如 PC、工作站、AI-RAN 基站、機器人和汽車。

邊緣目前仍占總收入不到 8%，但 Nvidia 已把它提升到與數據中心並列的「第二平台」。這個信號是：inference 正在分裂為兩條戰線，數據中心裡的 cloud inference（雲端推理），以及邊緣側的 endpoint inference（端點推理），AI 要在物理世界裡看見、移動並行動。路線圖遵循同樣的邏輯：從第三季度開始出貨的 Vera Rubin，推理吞吐量最高可達 Blackwell 的 35 倍；Huang 還為面向 agentic 負載打造的 Vera CPU 給出了一个全新的 2000 億美元 TAM。每一家前沿模型公司預計都會在第一天就全面轉向它。

當地球上市值最高的公司圍繞「服務 token」重組財務披露時，瓶頸之爭就已塵埃落定。本文餘下的部分，討論的是當 inference（而非訓練）成為稀缺資源後，價值由誰捕獲。

先做一個範圍說明。在這兩條戰線中，本文討論的是 cloud inference，即對外提供 API token 服務的、租來的數據中心 GPU。endpoint inference 跑在設備本身內部的本地芯片上（Nvidia 的 Jetson、RTX、Drive、AI-RAN），完全不經過其下的 GPU 租賃與聚合棧。在這裡，請把它視為放大整個 inference 經濟、佐證瓶頸論點的順風，而非 Hyperbolic 和 Venice 所在的市場，這兩家完全處在雲端那條線上。

四、擠壓已經到來

Anthropic 是煤礦裡的金絲雀。使用量遠超預先配置的產能，關於 Claude 被「腦葉切除」的抱怨刷屏全網，包括被限流的回覆、變慢的推理、被壓縮的上下文窗口。解法是赤裸裸的算力：2026 年 5 月，Anthropic 從 SpaceX 手中接管了整個 Colossus 1 數據中心，22 萬+ 張 Nvidia GPU、300+ 兆瓦，並將其專門用於 inference，而非訓練。

這部分產能解鎖了一連串限額變動，每一次都是一個信號。5 月 6 日，Anthropic 把 Claude Code 的五小時限額翻倍、取消高峰時段限流，並大幅提高 Opus 的 API 速率限制。5 月 13 日，又把 Claude Code 的周限額再提高 50%（至 7 月 13 日）。隨後，從 6 月 15 日起，它做了與「慷慨」相反的事：把 agentic 與程序化使用（Agent SDK、無頭模式 claude -p、CI 流水線）從扁平訂閱中切出去，放進一個獨立計量的 credit 池（每月 20 至 200 美元，按 API 價計費）。最後這一步把整套論點濃縮在一個動作裡：agent 消耗 inference 的速度，遠超扁平訂閱的設計承受能力，因此必須按它本來的「經常性成本」來定價。

訓練是一次性的資本支出。inference 是一項經常性的運營成本，隨每一個新用戶、每一個新 agent 而複利累積。

五、這套棧：六層，一個瓶頸

每一個 AI 應用，都坐落在一條從 TSMC 晶圓廠開始、到 API 端點結束的供應鏈上：

大多數公司只擁有其中一層。Nvidia 擁有矽，CoreWeave 擁有裸金屬，Together AI 擁有推理優化，OpenRouter 擁有模型 API 路由。

只有一家例外。

六、Hyperbolic：唯一橫跨三層的公司

Hyperbolic 於 2025 年 6 月推出其按需 GPU 市場。在最初幾個月裡，它的開發者數量就突破了 20 萬+，採用方覆蓋前沿 AI 實驗室、搜索，以及大型消費級平台。

有意思的是它的架構。

Hyperbolic 自己一張 GPU 都不持有。每一張卡都來自 neocloud 和數據中心，包括 CoreWeave、Lambda Labs、Nebius，以及手握閒置產能的更小運營商。這聽起來像弱點，實則是護城河。

通過坐在 GPU 供給方與消費方之間，Hyperbolic 能看到別人看不到的實時數據。它知道誰在以什麼價格、在什麼時間買什麼 GPU。它在供給過剩公開化之前就看到它，在需求飆升衝擊市場之前就看到它。

如今，護城河本身就是這套 multi-cloud 聚合。Hyperbolic 把來自數十個獨立雲與數據中心的碎片化產能，縫合成一個標準化的統一池，讓開發者無需與每一家運營商談判、也無需管理一堆賬戶，就能在任何地方租到最便宜的可用 GPU。它接入的雲越多，流動性越深，定價數據越豐富。再往後，團隊正在探索如何用這些數據來建模 GPU 價格曲線，並最終投入自有資本來平滑供需，扮演物理算力的做市商角色；但這一目標仍處早期，真正在當下複利的是聚合層。

這就是飛輪：

接入更多雲 → 更多被聚合的供給
更多供給 → 更深的市場與實時定價數據
更好的數據 → 當下更聰明的路由，長期則是定價模型
更好的流動性與價格 → 更多開發者 → 更多雲想接入

沒有其他公司在嘗試這件事。Hyperbolic 是唯一同時橫跨 GPU 租賃層、部署層與模型 API 層的公司。

七、Venice 這面鏡子

Venice 是 inference 經濟在應用層最清晰的體現，也是與 Hyperbolic 所處位置的一個有用對照。它是一個隱私優先的推理應用：一套 OpenAI 兼容的 API，加上面向消費者的訂閱（Free / Pro / Pro+ / Max），把請求路由到約 75 個模型上，其中約三分之二是開源或自托管模型（Llama、Mistral、Qwen、DeepSeek），其餘是對閉源前沿模型的匿名透傳。關鍵在於，Venice 自己並不擁有有意義的算力。它從未公開的 GPU 合作方和機密計算供應商（NEAR AI Cloud、Phala）那裡租用，並向前沿實驗室付費做透傳，所以它真正的 cost of revenue 是 inference 算力，而非 SaaS 托管。

Venice 真正賣的是隱私。這裡說的「隱私化」不是把公共算力變成私產，而是給商品化的推理裹上一層保證：不留存數據、不拿去訓練、請求匿名化，部分負載還跑在 TEE 裡，讓運營商自己都看不到明文。底層算力是大路貨，加價賣的就是這層 privacy 包裝。而且這層保證是分層的、並不均質：對跑在自己控制或 TEE GPU 上的開源模型，能做到接近端到端的機密計算；但對 Claude、GPT 這類閉源模型的匿名透傳，隱私只是剝離身份，前沿實驗室那端仍在處理你的原始 prompt。所以最強的隱私只覆蓋開源那部分，前沿模型那部分是「匿名」而非「真機密」。Venice 的毛利 = 訂閱價 − 向下游支付的 inference 成本，而它能比裸 API 價多收的那部分，幾乎全靠這層 privacy 溢價撐著，這也是它薄利、且受制於前沿透傳定價的原因。

代幣設計把這部分 inference 需求包裝了起來。Venice 跑在兩個代幣上：VVV（質押與平台準入）和 DIEM，後者是一種 inference credit，每個 DIEM 約等於每天 1 美元的算力。付費訂閱會觸發對 VVV 的程序化回購銷毀（Pro / Pro+ / Max 分別約 2 / 5 / 10 美元），排放則按一個固定時間表遞減：每月 6M → 5M → 4M VVV，並在 7 月 1 日下調至 3M。回購是真實的，但屬於自由裁量且仍然不大：4 月和 5 月各銷毀約 10.3 萬美元，6 月正緩慢爬向約 11 萬美元，遠低於每月 20 萬美元這條線。

基本面比標題更健康。公開流傳的「7000 萬美元 ARR」這個數字，幾乎可以肯定是把訂閱續費誤當成淨新增獲客的產物；可辯護的可觀測區間更接近 600 萬至 1500 萬美元 ARR。在這之下，traction是真實的：約 13.6 萬名持幣地址、每月約 990 萬次網站訪問（每天約 33 萬次），新增 Pro 訂閱徘徊在每天約 1400 這條線附近。這是一門真實的生意，但是一門薄利的生意，其經濟性受制於它所購買的算力。

這正是 Hyperbolic 處在它上面一層的原因。如果說 Venice 是加油站，Hyperbolic 就是煉油廠。Venice 從所有人都依賴的同一受限供給中購買算力；Hyperbolic 則把那部分碎片化供給聚合、標準化，再賣給 Venice 以及所有像它一樣的玩家。隨著 inference 需求增長，價值不僅向消費算力的應用累積，更向聚合並路由算力、並捕獲這些應用所支付的 cost of revenue 的那一層累積。

八、為什麼這件事此刻重要

Nvidia 圍繞「服務 token」重組了財務。Cerebras 的 IPO 證明市場已經明白 inference 是瓶頸。Anthropic 為產能四處奔走，證明這是一個真實的問題。agentic 與 physical AI 將把需求放大幾個數量級，橫跨雲端與端側兩條線。

而它也從另一側合上了「6000 億美元問題」的環。Cahn 的看空邏輯，即過度建設、然後過剩，最終很可能會被驗證。但過剩恰恰是輕資產聚合方的最優行情：當 GPU 價格下行、供給碎片化分散在數十個雲上，那个不持有任何硬件、把每一份工作負載路由到最便宜可用卡上的玩家會賺取價差，而持有不斷折舊 GPU 的運營商則承擔損失。Hyperbolic 是做多過剩，而非做空它。

Hyperbolic 正在打造這樣一家公司。不自己擁有 GPU，純軟體，縱深三層，但卻打造成為 inference 終極算力的聚合層。

欢迎加入 ChainCatcher 官方社群

Telegram 订阅： @chaincatcher

X (Twitter): @ChainCatcher_