当推理成为稀缺资源，价值由谁捕获

核心观点

IOSG Ventures

2026-06-08 23:35:55

最终胜出的公司，不会是拥有最多 GPU 的那一家，而是能告诉你哪些 GPU 在哪里、以什么价格可用，并把每一份工作负载路由到能以最低成本运行之处的那一家。

作者：Frank Fu，IOSG

2023 年 David Cahn 提出的那个窟窿，从未在训练侧被填上。它被填在了推理侧，而市场只是在过去几周才开始把它计入定价。当英伟达围绕「服务 token」重组财报口径、Cerebras 上市获 20 倍超额申购，瓶颈之争已经结束，真正的问题变成了下一个：当推理成为稀缺资源，价值会沉淀在算力栈的哪一层。

一、跟着 GPU 走：从 2000 亿美元问题到 6000 亿美元问题

2023 年，Sequoia 的 David Cahn 提出了悬在整个 AI 建设之上的那个问题，即「2000 亿美元问题」。每花 1 美元买 GPU，大约还要再花 1 美元在数据中心里给它供电，因此每一年的 GPU CapEx，都意味着这些芯片最终必须产生约 2000 亿美元的收入才能收回这笔资本。即便对 AI 收入做出非常慷慨的假设，他仍发现「投入」与「终端客户实际付费」之间存在一个 1250 亿美元以上的窟窿。担忧很直白：GPU 正在被超前于真实需求地过度建设。

一年之后，缺口非但没有收窄，反而扩大了。Cahn 在 2024 年的续作里，随着超大规模厂商 CapEx 膨胀，把它重新定义为「6000 亿美元问题」。看空逻辑收敛成一个熟悉的形状：过度建设导致供给过剩，而过剩会烧毁资本。

两篇文章其实都在问同一件事：谁来填这个窟窿？答案从未出现在「训练」这一侧的账本上。它出现在 inference（推理）这一侧，而市场只是在过去这几周才开始把它计入定价。

二、Cerebras IPO 与推理挤压

Cerebras 于周四上市。这次 IPO 获得 20 倍超额申购，定价接近周三最终加价的两倍。需求并非来自对「下一个 Nvidia 杀手」的押注，而是源于一件更简单的事：市场开始意识到，在 AI 中真正的瓶颈是 inference，而不是训练。

Cerebras 的看家本领，是一种让推理极快的芯片架构。不是训练，是推理。这正是让华尔街兴奋的点。inference 市场是经常性的，它随使用量扩张。每一次 Claude 回答问题、每一次 agent 执行任务，都在消耗算力。训练只发生一次，推理永不停止。

J.P. Morgan 把 inference 市场规模估算为训练的 10 到 50 倍。当机器开始执行由其他机器下达的任务，即 agentic（智能体）式扩张，inference 需求就不再随用户数扩张，而是随算力本身扩张。

三、Nvidia 重画版图：推理成为头条

如果说 Cerebras 是市场的觉醒，那么 Nvidia 最新一季财报就是来自产业链顶端的确认。在最新财报电话会上，Jensen Huang 把那句心照不宣的话挑明了：AI 需求正在呈抛物线式增长。原因很简单：agentic AI 已经到来。主流 AI 已经从一次性推理，过渡到逻辑推理，再进入会自己调用工具、编排任务的 agent 阶段。Huang 说，「Tokens 现在是有利可图的。」在 AI 时代，算力就是收入和利润。

这重塑了整个行业。训练是构建一个模型的一次性成本，inference 则是运行它的经常性成本，而如今的瓶颈在推理，不在训练。

Nvidia 把这个判断写进了自己的财报口径。它现在按两个平台披露，而非一个：Data Center（数据中心）与 Edge Computing（边缘计算）。数据中心（当季约 750 亿美元，同比 +92%）进一步拆为 Hyperscale（约 380 亿美元，环比 +12%）和 ACIE，即 AI 云、工业与企业（约 370 亿美元，环比 +31%）。全新的一条线是 Edge Computing：64 亿美元，同比 +29%，覆盖 agentic AI 和 physical AI 真正运行的终端，比如 PC、工作站、AI-RAN 基站、机器人和汽车。

边缘目前仍占总收入不到 8%，但 Nvidia 已把它提升到与数据中心并列的「第二平台」。这个信号是：inference 正在分裂为两条战线，数据中心里的 cloud inference（云端推理），以及边缘侧的 endpoint inference（端点推理），AI 要在物理世界里看见、移动并行动。路线图遵循同样的逻辑：从第三季度开始出货的 Vera Rubin，推理吞吐量最高可达 Blackwell 的 35 倍；Huang 还为面向 agentic 负载打造的 Vera CPU 给出了一个全新的 2000 亿美元 TAM。每一家前沿模型公司预计都会在第一天就全面转向它。

当地球上市值最高的公司围绕「服务 token」重组财务披露时，瓶颈之争就已尘埃落定。本文余下的部分，讨论的是当 inference（而非训练）成为稀缺资源后，价值由谁捕获。

先做一个范围说明。在这两条战线中，本文讨论的是 cloud inference，即对外提供 API token 服务的、租来的数据中心 GPU。endpoint inference 跑在设备本身内部的本地芯片上（Nvidia 的 Jetson、RTX、Drive、AI-RAN），完全不经过其下的 GPU 租赁与聚合栈。在这里，请把它视为放大整个 inference 经济、佐证瓶颈论点的顺风，而非 Hyperbolic 和 Venice 所在的市场，这两家完全处在云端那条线上。

四、挤压已经到来

Anthropic 是煤矿里的金丝雀。使用量远超预先配置的产能，关于 Claude 被「脑叶切除」的抱怨刷屏全网，包括被限流的回复、变慢的推理、被压缩的上下文窗口。解法是赤裸裸的算力：2026 年 5 月，Anthropic 从 SpaceX 手中接管了整个 Colossus 1 数据中心，22 万+ 张 Nvidia GPU、300+ 兆瓦，并将其专门用于 inference，而非训练。

这部分产能解锁了一连串限额变动，每一次都是一个信号。5 月 6 日，Anthropic 把 Claude Code 的五小时限额翻倍、取消高峰时段限流，并大幅提高 Opus 的 API 速率限制。5 月 13 日，又把 Claude Code 的周限额再提高 50%（至 7 月 13 日）。随后，从 6 月 15 日起，它做了与「慷慨」相反的事：把 agentic 与程序化使用（Agent SDK、无头模式 claude -p、CI 流水线）从扁平订阅中切出去，放进一个独立计量的 credit 池（每月 20 至 200 美元，按 API 价计费）。最后这一步把整套论点浓缩在一个动作里：agent 消耗 inference 的速度，远超扁平订阅的设计承受能力，因此必须按它本来的「经常性成本」来定价。

训练是一次性的资本支出。inference 是一项经常性的运营成本，随每一个新用户、每一个新 agent 而复利累积。

五、这套栈：六层，一个瓶颈

每一个 AI 应用，都坐落在一条从 TSMC 晶圆厂开始、到 API 端点结束的供应链上：

大多数公司只拥有其中一层。Nvidia 拥有硅，CoreWeave 拥有裸金属，Together AI 拥有推理优化，OpenRouter 拥有模型 API 路由。

只有一家除外。

六、Hyperbolic：唯一横跨三层的公司

Hyperbolic 于 2025 年 6 月推出其按需 GPU 市场。在最初几个月里，它的开发者数量就突破了 20 万+，采用方覆盖前沿 AI 实验室、搜索，以及大型消费级平台。

有意思的是它的架构。

Hyperbolic 自己一张 GPU 都不持有。每一张卡都来自 neocloud 和数据中心，包括 CoreWeave、Lambda Labs、Nebius，以及手握闲置产能的更小运营商。这听起来像弱点，实则是护城河。

通过坐在 GPU 供给方与消费方之间，Hyperbolic 能看到别人看不到的实时数据。它知道谁在以什么价格、在什么时间买什么 GPU。它在供给过剩公开化之前就看到它，在需求飙升冲击市场之前就看到它。

如今，护城河本身就是这套 multi-cloud 聚合。Hyperbolic 把来自数十个独立云与数据中心的碎片化产能，缝合成一个标准化的统一池，让开发者无需与每一家运营商谈判、也无需管理一堆账户，就能在任何地方租到最便宜的可用 GPU。它接入的云越多，流动性越深，定价数据越丰富。再往后，团队正在探索如何用这些数据来建模 GPU 价格曲线，并最终投入自有资本来平滑供需，扮演物理算力的做市商角色；但这一目标仍处早期，真正在当下复利的是聚合层。

这就是飞轮：

接入更多云 → 更多被聚合的供给
更多供给 → 更深的市场与实时定价数据
更好的数据 → 当下更聪明的路由，长期则是定价模型
更好的流动性与价格 → 更多开发者 → 更多云想接入

没有其他公司在尝试这件事。Hyperbolic 是唯一同时横跨 GPU 租赁层、部署层与模型 API 层的公司。

七、Venice 这面镜子

Venice 是 inference 经济在应用层最清晰的体现，也是与 Hyperbolic 所处位置的一个有用对照。它是一个隐私优先的推理应用：一套 OpenAI 兼容的 API，加上面向消费者的订阅（Free / Pro / Pro+ / Max），把请求路由到约 75 个模型上，其中约三分之二是开源或自托管模型（Llama、Mistral、Qwen、DeepSeek），其余是对闭源前沿模型的匿名透传。关键在于，Venice 自己并不拥有有意义的算力。它从未公开的 GPU 合作方和机密计算供应商（NEAR AI Cloud、Phala）那里租用，并向前沿实验室付费做透传，所以它真正的 cost of revenue 是 inference 算力，而非 SaaS 托管。

Venice 真正卖的是隐私。这里说的「隐私化」不是把公共算力变成私产，而是给商品化的推理裹上一层保证：不留存数据、不拿去训练、请求匿名化，部分负载还跑在 TEE 里，让运营商自己都看不到明文。底层算力是大路货，加价卖的就是这层 privacy 包装。而且这层保证是分层的、并不均质：对跑在自己控制或 TEE GPU 上的开源模型，能做到接近端到端的机密计算；但对 Claude、GPT 这类闭源模型的匿名透传，隐私只是剥离身份，前沿实验室那端仍在处理你的原始 prompt。所以最强的隐私只覆盖开源那部分，前沿模型那部分是「匿名」而非「真机密」。Venice 的毛利 = 订阅价 − 向下游支付的 inference 成本，而它能比裸 API 价多收的那部分，几乎全靠这层 privacy 溢价撑着，这也是它薄利、且受制于前沿透传定价的原因。

代币设计把这部分 inference 需求包装了起来。Venice 跑在两个代币上：VVV（质押与平台准入）和 DIEM，后者是一种 inference credit，每个 DIEM 约等于每天 1 美元的算力。付费订阅会触发对 VVV 的程序化回购销毁（Pro / Pro+ / Max 分别约 2 / 5 / 10 美元），排放则按一个固定时间表递减：每月 6M → 5M → 4M VVV，并在 7 月 1 日下调至 3M。回购是真实的，但属于自由裁量且仍然不大：4 月和 5 月各销毁约 10.3 万美元，6 月正缓慢爬向约 11 万美元，远低于每月 20 万美元这条线。

基本面比标题更健康。公开流传的「7000 万美元 ARR」这个数字，几乎可以肯定是把订阅续费误当成净新增获客的产物；可辩护的可观测区间更接近 600 万至 1500 万美元 ARR。在这之下，traction是真实的：约 13.6 万名持币地址、每月约 990 万次网站访问（每天约 33 万次），新增 Pro 订阅徘徊在每天约 1400 这条线附近。这是一门真实的生意，但是一门薄利的生意，其经济性受制于它所购买的算力。

这正是 Hyperbolic 处在它上面一层的原因。如果说 Venice 是加油站，Hyperbolic 就是炼油厂。Venice 从所有人都依赖的同一受限供给中购买算力；Hyperbolic 则把那部分碎片化供给聚合、标准化，再卖给 Venice 以及所有像它一样的玩家。随着 inference 需求增长，价值不仅向消费算力的应用累积，更向聚合并路由算力、并捕获这些应用所支付的 cost of revenue 的那一层累积。

八、为什么这件事此刻重要

Nvidia 围绕「服务 token」重组了财务。Cerebras 的 IPO 证明市场已经明白 inference 是瓶颈。Anthropic 为产能四处奔走，证明这是一个真实的问题。agentic 与 physical AI 将把需求放大几个数量级，横跨云端与端侧两条线。

而它也从另一侧合上了「6000 亿美元问题」的环。Cahn 的看空逻辑，即过度建设、然后过剩，最终很可能会被验证。但过剩恰恰是轻资产聚合方的最优行情：当 GPU 价格下行、供给碎片化分散在数十个云上，那个不持有任何硬件、把每一份工作负载路由到最便宜可用卡上的玩家会赚取价差，而持有不断折旧 GPU 的运营商则承担损失。Hyperbolic 是做多过剩，而非做空它。

Hyperbolic 正在打造这样一家公司。不自己拥有 GPU，纯软件，纵深三层，但却打造成为 inference 终极算力的聚合层。

欢迎加入 ChainCatcher 官方社群

Telegram 订阅： @chaincatcher

X (Twitter): @ChainCatcher_