掃碼下載
BTC $63,614.94 +2.35%
ETH $1,690.99 +3.74%
BNB $604.82 +1.80%
XRP $1.17 +2.48%
SOL $67.14 +3.00%
TRX $0.3259 -0.44%
DOGE $0.0867 +2.19%
ADA $0.1693 +3.99%
BCH $210.47 -6.36%
LINK $8.00 +3.40%
HYPE $64.30 +9.80%
AAVE $64.19 +1.84%
SUI $0.7635 +2.42%
XLM $0.2005 -3.27%
ZEC $451.48 +7.39%
BTC $63,614.94 +2.35%
ETH $1,690.99 +3.74%
BNB $604.82 +1.80%
XRP $1.17 +2.48%
SOL $67.14 +3.00%
TRX $0.3259 -0.44%
DOGE $0.0867 +2.19%
ADA $0.1693 +3.99%
BCH $210.47 -6.36%
LINK $8.00 +3.40%
HYPE $64.30 +9.80%
AAVE $64.19 +1.84%
SUI $0.7635 +2.42%
XLM $0.2005 -3.27%
ZEC $451.48 +7.39%

當推理成為稀缺資源,價值由誰捕獲

核心觀點
Summary: 最終勝出的公司,不會是擁有最多 GPU 的那一家,而是能告訴你哪些 GPU 在哪裡、以什麼價格可用,並把每一份工作負載路由到能以最低成本運行之處的那一家。
IOSG Ventures
2026-06-08 23:35:55
收藏
最終勝出的公司,不會是擁有最多 GPU 的那一家,而是能告訴你哪些 GPU 在哪裡、以什麼價格可用,並把每一份工作負載路由到能以最低成本運行之處的那一家。

作者:Frank Fu,IOSG

2023 年 David Cahn 提出的那個窟窿,從未在訓練側被填上。它被填在了推理側,而市場只是在過去幾週才開始把它計入定價。當英偉達圍繞「服務 token」重組財報口徑、Cerebras 上市獲 20 倍超額申購,瓶頸之爭已經結束,真正的問題變成了下一個:當推理成為稀缺資源,價值會沉澱在算力棧的哪一層。

一、跟著 GPU 走:從 2000 億美元問題到 6000 億美元問題

2023 年,Sequoia 的 David Cahn 提出了懸在整個 AI 建設之上的那個問題,即「2000 億美元問題」。每花 1 美元買 GPU,大約還要再花 1 美元在數據中心裡給它供電,因此每一年的 GPU CapEx,都意味著這些芯片最終必須產生約 2000 億美元的收入才能收回這筆資本。即便對 AI 收入做出非常慷慨的假設,他仍發現「投入」與「終端客戶實際付費」之間存在一個 1250 億美元以上的窟窿。擔憂很直白:GPU 正在被超前於真實需求地過度建設。

一年之後,缺口非但沒有收窄,反而擴大了。Cahn 在 2024 年的續作裡,隨著超大規模廠商 CapEx 膨脹,把它重新定義為「6000 億美元問題」。看空邏輯收斂成一個熟悉的形狀:過度建設導致供給過剩,而過剩會燒毀資本。

兩篇文章其實都在問同一件事:誰來填這個窟窿?答案從未出現在「訓練」這一側的賬本上。它出現在 inference(推理)這一側,而市場只是在過去這幾週才開始把它計入定價。

二、Cerebras IPO 與推理擠壓

Cerebras 於週四上市。這次 IPO 獲得 20 倍超額申購,定價接近週三最終加價的兩倍。需求並非來自對「下一個 Nvidia 殺手」的押注,而是源於一件更簡單的事:市場開始意識到,在 AI 中真正的瓶頸是 inference,而不是訓練。

Cerebras 的看家本領,是一種讓推理極快的芯片架構。不是訓練,是推理。這正是讓華爾街興奮的點。inference 市場是經常性的,它隨使用量擴張。每一次 Claude 回答問題、每一次 agent 執行任務,都在消耗算力。訓練只發生一次,推理永不停止。

J.P. Morgan 把 inference 市場規模估算為訓練的 10 到 50 倍。當機器開始執行由其他機器下達的任務,即 agentic(智能體)式擴張,inference 需求就不再隨用戶數擴張,而是隨算力本身擴張。

三、Nvidia 重畫版圖:推理成為頭條

如果說 Cerebras 是市場的覺醒,那麼 Nvidia 最新一季財報就是來自產業鏈頂端的確認。在最新財報電話會上,Jensen Huang 把那句心照不宣的話挑明了:AI 需求正在呈拋物線式增長。原因很簡單:agentic AI 已經到來。主流 AI 已經從一次性推理,過渡到邏輯推理,再進入會自己調用工具、編排任務的 agent 階段。Huang 說,「Tokens 現在是有利可圖的。」在 AI 時代,算力就是收入和利潤。

這重塑了整個行業。訓練是構建一個模型的一次性成本,inference 則是運行它的經常性成本,而如今的瓶頸在推理,不在訓練。

Nvidia 把這個判斷寫進了自己的財報口徑。它現在按兩個平台披露,而非一個:Data Center(數據中心)與 Edge Computing(邊緣計算)。數據中心(當季約 750 億美元,同比 +92%)進一步拆為 Hyperscale(約 380 億美元,環比 +12%)和 ACIE,即 AI 雲、工業與企業(約 370 億美元,環比 +31%)。全新的一條線是 Edge Computing:64 億美元,同比 +29%,覆蓋 agentic AI 和 physical AI 真正運行的終端,比如 PC、工作站、AI-RAN 基站、機器人和汽車。

邊緣目前仍占總收入不到 8%,但 Nvidia 已把它提升到與數據中心並列的「第二平台」。這個信號是:inference 正在分裂為兩條戰線,數據中心裡的 cloud inference(雲端推理),以及邊緣側的 endpoint inference(端點推理),AI 要在物理世界裡看見、移動並行動。路線圖遵循同樣的邏輯:從第三季度開始出貨的 Vera Rubin,推理吞吐量最高可達 Blackwell 的 35 倍;Huang 還為面向 agentic 負載打造的 Vera CPU 給出了一个全新的 2000 億美元 TAM。每一家前沿模型公司預計都會在第一天就全面轉向它。

當地球上市值最高的公司圍繞「服務 token」重組財務披露時,瓶頸之爭就已塵埃落定。本文餘下的部分,討論的是當 inference(而非訓練)成為稀缺資源後,價值由誰捕獲。

先做一個範圍說明。在這兩條戰線中,本文討論的是 cloud inference,即對外提供 API token 服務的、租來的數據中心 GPU。endpoint inference 跑在設備本身內部的本地芯片上(Nvidia 的 Jetson、RTX、Drive、AI-RAN),完全不經過其下的 GPU 租賃與聚合棧。在這裡,請把它視為放大整個 inference 經濟、佐證瓶頸論點的順風,而非 Hyperbolic 和 Venice 所在的市場,這兩家完全處在雲端那條線上。

四、擠壓已經到來

Anthropic 是煤礦裡的金絲雀。使用量遠超預先配置的產能,關於 Claude 被「腦葉切除」的抱怨刷屏全網,包括被限流的回覆、變慢的推理、被壓縮的上下文窗口。解法是赤裸裸的算力:2026 年 5 月,Anthropic 從 SpaceX 手中接管了整個 Colossus 1 數據中心,22 萬+ 張 Nvidia GPU、300+ 兆瓦,並將其專門用於 inference,而非訓練。

這部分產能解鎖了一連串限額變動,每一次都是一個信號。5 月 6 日,Anthropic 把 Claude Code 的五小時限額翻倍、取消高峰時段限流,並大幅提高 Opus 的 API 速率限制。5 月 13 日,又把 Claude Code 的周限額再提高 50%(至 7 月 13 日)。隨後,從 6 月 15 日起,它做了與「慷慨」相反的事:把 agentic 與程序化使用(Agent SDK、無頭模式 claude -p、CI 流水線)從扁平訂閱中切出去,放進一個獨立計量的 credit 池(每月 20 至 200 美元,按 API 價計費)。最後這一步把整套論點濃縮在一個動作裡:agent 消耗 inference 的速度,遠超扁平訂閱的設計承受能力,因此必須按它本來的「經常性成本」來定價。

訓練是一次性的資本支出。inference 是一項經常性的運營成本,隨每一個新用戶、每一個新 agent 而複利累積。

五、這套棧:六層,一個瓶頸

每一個 AI 應用,都坐落在一條從 TSMC 晶圓廠開始、到 API 端點結束的供應鏈上:

大多數公司只擁有其中一層。Nvidia 擁有矽,CoreWeave 擁有裸金屬,Together AI 擁有推理優化,OpenRouter 擁有模型 API 路由。

只有一家例外。

六、Hyperbolic:唯一橫跨三層的公司

Hyperbolic 於 2025 年 6 月推出其按需 GPU 市場。在最初幾個月裡,它的開發者數量就突破了 20 萬+,採用方覆蓋前沿 AI 實驗室、搜索,以及大型消費級平台。

有意思的是它的架構。

Hyperbolic 自己一張 GPU 都不持有。每一張卡都來自 neocloud 和數據中心,包括 CoreWeave、Lambda Labs、Nebius,以及手握閒置產能的更小運營商。這聽起來像弱點,實則是護城河。

通過坐在 GPU 供給方與消費方之間,Hyperbolic 能看到別人看不到的實時數據。它知道誰在以什麼價格、在什麼時間買什麼 GPU。它在供給過剩公開化之前就看到它,在需求飆升衝擊市場之前就看到它。

如今,護城河本身就是這套 multi-cloud 聚合。Hyperbolic 把來自數十個獨立雲與數據中心的碎片化產能,縫合成一個標準化的統一池,讓開發者無需與每一家運營商談判、也無需管理一堆賬戶,就能在任何地方租到最便宜的可用 GPU。它接入的雲越多,流動性越深,定價數據越豐富。再往後,團隊正在探索如何用這些數據來建模 GPU 價格曲線,並最終投入自有資本來平滑供需,扮演物理算力的做市商角色;但這一目標仍處早期,真正在當下複利的是聚合層。

這就是飛輪:

  1. 接入更多雲 → 更多被聚合的供給

  2. 更多供給 → 更深的市場與實時定價數據

  3. 更好的數據 → 當下更聰明的路由,長期則是定價模型

  4. 更好的流動性與價格 → 更多開發者 → 更多雲想接入

沒有其他公司在嘗試這件事。Hyperbolic 是唯一同時橫跨 GPU 租賃層、部署層與模型 API 層的公司。

七、Venice 這面鏡子

Venice 是 inference 經濟在應用層最清晰的體現,也是與 Hyperbolic 所處位置的一個有用對照。它是一個隱私優先的推理應用:一套 OpenAI 兼容的 API,加上面向消費者的訂閱(Free / Pro / Pro+ / Max),把請求路由到約 75 個模型上,其中約三分之二是開源或自托管模型(Llama、Mistral、Qwen、DeepSeek),其餘是對閉源前沿模型的匿名透傳。關鍵在於,Venice 自己並不擁有有意義的算力。它從未公開的 GPU 合作方和機密計算供應商(NEAR AI Cloud、Phala)那裡租用,並向前沿實驗室付費做透傳,所以它真正的 cost of revenue 是 inference 算力,而非 SaaS 托管。

Venice 真正賣的是隱私。這裡說的「隱私化」不是把公共算力變成私產,而是給商品化的推理裹上一層保證:不留存數據、不拿去訓練、請求匿名化,部分負載還跑在 TEE 裡,讓運營商自己都看不到明文。底層算力是大路貨,加價賣的就是這層 privacy 包裝。而且這層保證是分層的、並不均質:對跑在自己控制或 TEE GPU 上的開源模型,能做到接近端到端的機密計算;但對 Claude、GPT 這類閉源模型的匿名透傳,隱私只是剝離身份,前沿實驗室那端仍在處理你的原始 prompt。所以最強的隱私只覆蓋開源那部分,前沿模型那部分是「匿名」而非「真機密」。Venice 的毛利 = 訂閱價 − 向下游支付的 inference 成本,而它能比裸 API 價多收的那部分,幾乎全靠這層 privacy 溢價撐著,這也是它薄利、且受制於前沿透傳定價的原因。

代幣設計把這部分 inference 需求包裝了起來。Venice 跑在兩個代幣上:VVV(質押與平台準入)和 DIEM,後者是一種 inference credit,每個 DIEM 約等於每天 1 美元的算力。付費訂閱會觸發對 VVV 的程序化回購銷毀(Pro / Pro+ / Max 分別約 2 / 5 / 10 美元),排放則按一個固定時間表遞減:每月 6M → 5M → 4M VVV,並在 7 月 1 日下調至 3M。回購是真實的,但屬於自由裁量且仍然不大:4 月和 5 月各銷毀約 10.3 萬美元,6 月正緩慢爬向約 11 萬美元,遠低於每月 20 萬美元這條線。

基本面比標題更健康。公開流傳的「7000 萬美元 ARR」這個數字,幾乎可以肯定是把訂閱續費誤當成淨新增獲客的產物;可辯護的可觀測區間更接近 600 萬至 1500 萬美元 ARR。在這之下,traction是真實的:約 13.6 萬名持幣地址、每月約 990 萬次網站訪問(每天約 33 萬次),新增 Pro 訂閱徘徊在每天約 1400 這條線附近。這是一門真實的生意,但是一門薄利的生意,其經濟性受制於它所購買的算力。

這正是 Hyperbolic 處在它上面一層的原因。如果說 Venice 是加油站,Hyperbolic 就是煉油廠。Venice 從所有人都依賴的同一受限供給中購買算力;Hyperbolic 則把那部分碎片化供給聚合、標準化,再賣給 Venice 以及所有像它一樣的玩家。隨著 inference 需求增長,價值不僅向消費算力的應用累積,更向聚合並路由算力、並捕獲這些應用所支付的 cost of revenue 的那一層累積。

八、為什麼這件事此刻重要

Nvidia 圍繞「服務 token」重組了財務。Cerebras 的 IPO 證明市場已經明白 inference 是瓶頸。Anthropic 為產能四處奔走,證明這是一個真實的問題。agentic 與 physical AI 將把需求放大幾個數量級,橫跨雲端與端側兩條線。

而它也從另一側合上了「6000 億美元問題」的環。Cahn 的看空邏輯,即過度建設、然後過剩,最終很可能會被驗證。但過剩恰恰是輕資產聚合方的最優行情:當 GPU 價格下行、供給碎片化分散在數十個雲上,那个不持有任何硬件、把每一份工作負載路由到最便宜可用卡上的玩家會賺取價差,而持有不斷折舊 GPU 的運營商則承擔損失。Hyperbolic 是做多過剩,而非做空它。

最終勝出的公司,不會是擁有最多 GPU 的那一家,而是能告訴你哪些 GPU 在哪裡、以什麼價格可用,並把每一份工作負載路由到能以最低成本運行之處的那一家。

Hyperbolic 正在打造這樣一家公司。不自己擁有 GPU,純軟體,縱深三層,但卻打造成為 inference 終極算力的聚合層。

欢迎加入 ChainCatcher 官方社群
Telegram 订阅: @chaincatcher
X (Twitter): @ChainCatcher_
warnning 風險提示
app_icon
ChainCatcher 與創新者共建Web3世界