扫码下载
BTC $63,473.29 +2.65%
ETH $1,696.53 +3.95%
BNB $607.00 +2.24%
XRP $1.18 +4.00%
SOL $67.23 +3.68%
TRX $0.3270 +0.43%
DOGE $0.0869 +3.36%
ADA $0.1712 +6.30%
BCH $210.89 -5.58%
LINK $8.05 +3.27%
HYPE $63.51 +7.39%
AAVE $64.18 +2.53%
SUI $0.7607 +2.79%
XLM $0.2053 +1.33%
ZEC $470.44 +7.60%
BTC $63,473.29 +2.65%
ETH $1,696.53 +3.95%
BNB $607.00 +2.24%
XRP $1.18 +4.00%
SOL $67.23 +3.68%
TRX $0.3270 +0.43%
DOGE $0.0869 +3.36%
ADA $0.1712 +6.30%
BCH $210.89 -5.58%
LINK $8.05 +3.27%
HYPE $63.51 +7.39%
AAVE $64.18 +2.53%
SUI $0.7607 +2.79%
XLM $0.2053 +1.33%
ZEC $470.44 +7.60%

当推理成为稀缺资源,价值由谁捕获

核心观点
Summary: 最终胜出的公司,不会是拥有最多 GPU 的那一家,而是能告诉你哪些 GPU 在哪里、以什么价格可用,并把每一份工作负载路由到能以最低成本运行之处的那一家。
IOSG Ventures
2026-06-08 23:35:55
收藏
最终胜出的公司,不会是拥有最多 GPU 的那一家,而是能告诉你哪些 GPU 在哪里、以什么价格可用,并把每一份工作负载路由到能以最低成本运行之处的那一家。

作者:Frank Fu,IOSG

 

2023 年 David Cahn 提出的那个窟窿,从未在训练侧被填上。它被填在了推理侧,而市场只是在过去几周才开始把它计入定价。当英伟达围绕「服务 token」重组财报口径、Cerebras 上市获 20 倍超额申购,瓶颈之争已经结束,真正的问题变成了下一个:当推理成为稀缺资源,价值会沉淀在算力栈的哪一层。

一、跟着 GPU 走:从 2000 亿美元问题到 6000 亿美元问题

2023 年,Sequoia 的 David Cahn 提出了悬在整个 AI 建设之上的那个问题,即「2000 亿美元问题」。每花 1 美元买 GPU,大约还要再花 1 美元在数据中心里给它供电,因此每一年的 GPU CapEx,都意味着这些芯片最终必须产生约 2000 亿美元的收入才能收回这笔资本。即便对 AI 收入做出非常慷慨的假设,他仍发现「投入」与「终端客户实际付费」之间存在一个 1250 亿美元以上的窟窿。担忧很直白:GPU 正在被超前于真实需求地过度建设。

一年之后,缺口非但没有收窄,反而扩大了。Cahn 在 2024 年的续作里,随着超大规模厂商 CapEx 膨胀,把它重新定义为「6000 亿美元问题」。看空逻辑收敛成一个熟悉的形状:过度建设导致供给过剩,而过剩会烧毁资本。

两篇文章其实都在问同一件事:谁来填这个窟窿?答案从未出现在「训练」这一侧的账本上。它出现在 inference(推理)这一侧,而市场只是在过去这几周才开始把它计入定价。

二、Cerebras IPO 与推理挤压

Cerebras 于周四上市。这次 IPO 获得 20 倍超额申购,定价接近周三最终加价的两倍。需求并非来自对「下一个 Nvidia 杀手」的押注,而是源于一件更简单的事:市场开始意识到,在 AI 中真正的瓶颈是 inference,而不是训练。

Cerebras 的看家本领,是一种让推理极快的芯片架构。不是训练,是推理。这正是让华尔街兴奋的点。inference 市场是经常性的,它随使用量扩张。每一次 Claude 回答问题、每一次 agent 执行任务,都在消耗算力。训练只发生一次,推理永不停止。

J.P. Morgan 把 inference 市场规模估算为训练的 10 到 50 倍。当机器开始执行由其他机器下达的任务,即 agentic(智能体)式扩张,inference 需求就不再随用户数扩张,而是随算力本身扩张。

三、Nvidia 重画版图:推理成为头条

如果说 Cerebras 是市场的觉醒,那么 Nvidia 最新一季财报就是来自产业链顶端的确认。在最新财报电话会上,Jensen Huang 把那句心照不宣的话挑明了:AI 需求正在呈抛物线式增长。原因很简单:agentic AI 已经到来。主流 AI 已经从一次性推理,过渡到逻辑推理,再进入会自己调用工具、编排任务的 agent 阶段。Huang 说,「Tokens 现在是有利可图的。」在 AI 时代,算力就是收入和利润。

这重塑了整个行业。训练是构建一个模型的一次性成本,inference 则是运行它的经常性成本,而如今的瓶颈在推理,不在训练。

Nvidia 把这个判断写进了自己的财报口径。它现在按两个平台披露,而非一个:Data Center(数据中心)与 Edge Computing(边缘计算)。数据中心(当季约 750 亿美元,同比 +92%)进一步拆为 Hyperscale(约 380 亿美元,环比 +12%)和 ACIE,即 AI 云、工业与企业(约 370 亿美元,环比 +31%)。全新的一条线是 Edge Computing:64 亿美元,同比 +29%,覆盖 agentic AI 和 physical AI 真正运行的终端,比如 PC、工作站、AI-RAN 基站、机器人和汽车。

边缘目前仍占总收入不到 8%,但 Nvidia 已把它提升到与数据中心并列的「第二平台」。这个信号是:inference 正在分裂为两条战线,数据中心里的 cloud inference(云端推理),以及边缘侧的 endpoint inference(端点推理),AI 要在物理世界里看见、移动并行动。路线图遵循同样的逻辑:从第三季度开始出货的 Vera Rubin,推理吞吐量最高可达 Blackwell 的 35 倍;Huang 还为面向 agentic 负载打造的 Vera CPU 给出了一个全新的 2000 亿美元 TAM。每一家前沿模型公司预计都会在第一天就全面转向它。

当地球上市值最高的公司围绕「服务 token」重组财务披露时,瓶颈之争就已尘埃落定。本文余下的部分,讨论的是当 inference(而非训练)成为稀缺资源后,价值由谁捕获。

先做一个范围说明。在这两条战线中,本文讨论的是 cloud inference,即对外提供 API token 服务的、租来的数据中心 GPU。endpoint inference 跑在设备本身内部的本地芯片上(Nvidia 的 Jetson、RTX、Drive、AI-RAN),完全不经过其下的 GPU 租赁与聚合栈。在这里,请把它视为放大整个 inference 经济、佐证瓶颈论点的顺风,而非 Hyperbolic 和 Venice 所在的市场,这两家完全处在云端那条线上。

四、挤压已经到来

Anthropic 是煤矿里的金丝雀。使用量远超预先配置的产能,关于 Claude 被「脑叶切除」的抱怨刷屏全网,包括被限流的回复、变慢的推理、被压缩的上下文窗口。解法是赤裸裸的算力:2026 年 5 月,Anthropic 从 SpaceX 手中接管了整个 Colossus 1 数据中心,22 万+ 张 Nvidia GPU、300+ 兆瓦,并将其专门用于 inference,而非训练。

这部分产能解锁了一连串限额变动,每一次都是一个信号。5 月 6 日,Anthropic 把 Claude Code 的五小时限额翻倍、取消高峰时段限流,并大幅提高 Opus 的 API 速率限制。5 月 13 日,又把 Claude Code 的周限额再提高 50%(至 7 月 13 日)。随后,从 6 月 15 日起,它做了与「慷慨」相反的事:把 agentic 与程序化使用(Agent SDK、无头模式 claude -p、CI 流水线)从扁平订阅中切出去,放进一个独立计量的 credit 池(每月 20 至 200 美元,按 API 价计费)。最后这一步把整套论点浓缩在一个动作里:agent 消耗 inference 的速度,远超扁平订阅的设计承受能力,因此必须按它本来的「经常性成本」来定价。

训练是一次性的资本支出。inference 是一项经常性的运营成本,随每一个新用户、每一个新 agent 而复利累积。

五、这套栈:六层,一个瓶颈

每一个 AI 应用,都坐落在一条从 TSMC 晶圆厂开始、到 API 端点结束的供应链上:

大多数公司只拥有其中一层。Nvidia 拥有硅,CoreWeave 拥有裸金属,Together AI 拥有推理优化,OpenRouter 拥有模型 API 路由。

只有一家除外。

六、Hyperbolic:唯一横跨三层的公司

Hyperbolic 于 2025 年 6 月推出其按需 GPU 市场。在最初几个月里,它的开发者数量就突破了 20 万+,采用方覆盖前沿 AI 实验室、搜索,以及大型消费级平台。

有意思的是它的架构。

Hyperbolic 自己一张 GPU 都不持有。每一张卡都来自 neocloud 和数据中心,包括 CoreWeave、Lambda Labs、Nebius,以及手握闲置产能的更小运营商。这听起来像弱点,实则是护城河。

通过坐在 GPU 供给方与消费方之间,Hyperbolic 能看到别人看不到的实时数据。它知道谁在以什么价格、在什么时间买什么 GPU。它在供给过剩公开化之前就看到它,在需求飙升冲击市场之前就看到它。

如今,护城河本身就是这套 multi-cloud 聚合。Hyperbolic 把来自数十个独立云与数据中心的碎片化产能,缝合成一个标准化的统一池,让开发者无需与每一家运营商谈判、也无需管理一堆账户,就能在任何地方租到最便宜的可用 GPU。它接入的云越多,流动性越深,定价数据越丰富。再往后,团队正在探索如何用这些数据来建模 GPU 价格曲线,并最终投入自有资本来平滑供需,扮演物理算力的做市商角色;但这一目标仍处早期,真正在当下复利的是聚合层。

这就是飞轮:

  1. 接入更多云 → 更多被聚合的供给

  2. 更多供给 → 更深的市场与实时定价数据

  3. 更好的数据 → 当下更聪明的路由,长期则是定价模型

  4. 更好的流动性与价格 → 更多开发者 → 更多云想接入

没有其他公司在尝试这件事。Hyperbolic 是唯一同时横跨 GPU 租赁层、部署层与模型 API 层的公司。

七、Venice 这面镜子

Venice 是 inference 经济在应用层最清晰的体现,也是与 Hyperbolic 所处位置的一个有用对照。它是一个隐私优先的推理应用:一套 OpenAI 兼容的 API,加上面向消费者的订阅(Free / Pro / Pro+ / Max),把请求路由到约 75 个模型上,其中约三分之二是开源或自托管模型(Llama、Mistral、Qwen、DeepSeek),其余是对闭源前沿模型的匿名透传。关键在于,Venice 自己并不拥有有意义的算力。它从未公开的 GPU 合作方和机密计算供应商(NEAR AI Cloud、Phala)那里租用,并向前沿实验室付费做透传,所以它真正的 cost of revenue 是 inference 算力,而非 SaaS 托管。

Venice 真正卖的是隐私。这里说的「隐私化」不是把公共算力变成私产,而是给商品化的推理裹上一层保证:不留存数据、不拿去训练、请求匿名化,部分负载还跑在 TEE 里,让运营商自己都看不到明文。底层算力是大路货,加价卖的就是这层 privacy 包装。而且这层保证是分层的、并不均质:对跑在自己控制或 TEE GPU 上的开源模型,能做到接近端到端的机密计算;但对 Claude、GPT 这类闭源模型的匿名透传,隐私只是剥离身份,前沿实验室那端仍在处理你的原始 prompt。所以最强的隐私只覆盖开源那部分,前沿模型那部分是「匿名」而非「真机密」。Venice 的毛利 = 订阅价 − 向下游支付的 inference 成本,而它能比裸 API 价多收的那部分,几乎全靠这层 privacy 溢价撑着,这也是它薄利、且受制于前沿透传定价的原因。

代币设计把这部分 inference 需求包装了起来。Venice 跑在两个代币上:VVV(质押与平台准入)和 DIEM,后者是一种 inference credit,每个 DIEM 约等于每天 1 美元的算力。付费订阅会触发对 VVV 的程序化回购销毁(Pro / Pro+ / Max 分别约 2 / 5 / 10 美元),排放则按一个固定时间表递减:每月 6M → 5M → 4M VVV,并在 7 月 1 日下调至 3M。回购是真实的,但属于自由裁量且仍然不大:4 月和 5 月各销毁约 10.3 万美元,6 月正缓慢爬向约 11 万美元,远低于每月 20 万美元这条线。

基本面比标题更健康。公开流传的「7000 万美元 ARR」这个数字,几乎可以肯定是把订阅续费误当成净新增获客的产物;可辩护的可观测区间更接近 600 万至 1500 万美元 ARR。在这之下,traction是真实的:约 13.6 万名持币地址、每月约 990 万次网站访问(每天约 33 万次),新增 Pro 订阅徘徊在每天约 1400 这条线附近。这是一门真实的生意,但是一门薄利的生意,其经济性受制于它所购买的算力。

这正是 Hyperbolic 处在它上面一层的原因。如果说 Venice 是加油站,Hyperbolic 就是炼油厂。Venice 从所有人都依赖的同一受限供给中购买算力;Hyperbolic 则把那部分碎片化供给聚合、标准化,再卖给 Venice 以及所有像它一样的玩家。随着 inference 需求增长,价值不仅向消费算力的应用累积,更向聚合并路由算力、并捕获这些应用所支付的 cost of revenue 的那一层累积。

八、为什么这件事此刻重要

Nvidia 围绕「服务 token」重组了财务。Cerebras 的 IPO 证明市场已经明白 inference 是瓶颈。Anthropic 为产能四处奔走,证明这是一个真实的问题。agentic 与 physical AI 将把需求放大几个数量级,横跨云端与端侧两条线。

而它也从另一侧合上了「6000 亿美元问题」的环。Cahn 的看空逻辑,即过度建设、然后过剩,最终很可能会被验证。但过剩恰恰是轻资产聚合方的最优行情:当 GPU 价格下行、供给碎片化分散在数十个云上,那个不持有任何硬件、把每一份工作负载路由到最便宜可用卡上的玩家会赚取价差,而持有不断折旧 GPU 的运营商则承担损失。Hyperbolic 是做多过剩,而非做空它。

最终胜出的公司,不会是拥有最多 GPU 的那一家,而是能告诉你哪些 GPU 在哪里、以什么价格可用,并把每一份工作负载路由到能以最低成本运行之处的那一家。

Hyperbolic 正在打造这样一家公司。不自己拥有 GPU,纯软件,纵深三层,但却打造成为 inference 终极算力的聚合层。

欢迎加入 ChainCatcher 官方社群
Telegram 订阅: @chaincatcher
X (Twitter): @ChainCatcher_
warnning 风险提示
app_icon
ChainCatcher 与创新者共建Web3世界