QR 코드를 스캔하여 다운로드하세요.
BTC $63,473.29 +2.65%
ETH $1,696.53 +3.95%
BNB $607.00 +2.24%
XRP $1.18 +4.00%
SOL $67.23 +3.68%
TRX $0.3270 +0.43%
DOGE $0.0869 +3.36%
ADA $0.1712 +6.30%
BCH $210.89 -5.58%
LINK $8.05 +3.27%
HYPE $63.51 +7.39%
AAVE $64.18 +2.53%
SUI $0.7607 +2.79%
XLM $0.2053 +1.33%
ZEC $470.44 +7.60%
BTC $63,473.29 +2.65%
ETH $1,696.53 +3.95%
BNB $607.00 +2.24%
XRP $1.18 +4.00%
SOL $67.23 +3.68%
TRX $0.3270 +0.43%
DOGE $0.0869 +3.36%
ADA $0.1712 +6.30%
BCH $210.89 -5.58%
LINK $8.05 +3.27%
HYPE $63.51 +7.39%
AAVE $64.18 +2.53%
SUI $0.7607 +2.79%
XLM $0.2053 +1.33%
ZEC $470.44 +7.60%

추론이 희소 자원이 될 때, 가치는 누구에 의해 포착되는가

핵심 관점
Summary: 최종적으로 승리하는 회사는 가장 많은 GPU를 보유한 회사가 아니라, 어떤 GPU가 어디에, 어떤 가격으로 사용 가능한지 알려주고, 각 작업 부하를 최소 비용으로 실행할 수 있는 곳으로 라우팅할 수 있는 회사가 될 것이다.
IOSG 벤처스
2026-06-08 23:35:55
수집
최종적으로 승리하는 회사는 가장 많은 GPU를 보유한 회사가 아니라, 어떤 GPU가 어디에, 어떤 가격으로 사용 가능한지 알려주고, 각 작업 부하를 최소 비용으로 실행할 수 있는 곳으로 라우팅할 수 있는 회사가 될 것이다.

저자:Frank Fu,IOSG

2023년 David Cahn이 제기한 그 구멍은 훈련 측면에서 결코 메워지지 않았다. 그것은 추론 측면에서 메워졌고, 시장은 지난 몇 주 동안에야 그것을 가격에 반영하기 시작했다. 엔비디아가 '서비스 토큰'을 중심으로 재무 보고 기준을 재편하고, Cerebras가 20배의 초과 청약을 기록하면서, 병목 현상에 대한 논쟁은 끝났다. 진정한 문제는 다음과 같다: 추론이 희소 자원이 될 때, 가치는 계산력 스택의 어느 층에 축적될 것인가.

1. GPU를 따라가다: 2000억 달러 문제에서 6000억 달러 문제로

2023년, Sequoia의 David Cahn은 전체 AI 구축 위에 걸쳐 있는 문제, 즉 '2000억 달러 문제'를 제기했다. GPU에 1달러를 지출할 때, 데이터 센터에서 전력을 공급하기 위해 약 1달러를 더 지출해야 하므로, 매년 GPU 자본 지출은 이러한 칩이 최종적으로 약 2000억 달러의 수익을 창출해야 이 자본을 회수할 수 있음을 의미한다. AI 수익에 대해 매우 관대한 가정을 하더라도, 그는 여전히 '투자'와 '최종 고객의 실제 지불' 사이에 1250억 달러 이상의 구멍이 존재함을 발견했다. 우려는 매우 명확하다: GPU가 실제 수요보다 앞서 과도하게 구축되고 있다.

1년 후, 그 격차는 줄어들지 않고 오히려 확대되었다. Cahn은 2024년 후속작에서 초대형 업체의 자본 지출이 팽창함에 따라 이를 '6000억 달러 문제'로 재정의했다. 하락 논리는 익숙한 형태로 수렴된다: 과도한 건설이 공급 과잉을 초래하고, 과잉은 자본을 소모시킨다.

두 편의 글은 사실 같은 질문을 하고 있다: 누가 이 구멍을 메울 것인가? 답은 '훈련' 측면의 장부에는 결코 나타나지 않았다. 그것은 추론 측면에서 나타났고, 시장은 지난 몇 주 동안에야 그것을 가격에 반영하기 시작했다.

2. Cerebras IPO와 추론 압축

Cerebras는 목요일에 상장되었다. 이번 IPO는 20배의 초과 청약을 기록하며, 가격은 수요일 최종 인상 가격의 거의 두 배에 달했다. 수요는 '다음 엔비디아 킬러'에 대한 베팅에서 비롯된 것이 아니라, AI에서 진정한 병목이 훈련이 아니라 추론이라는 사실을 시장이 인식하기 시작했기 때문이다.

Cerebras의 주된 능력은 추론을 매우 빠르게 하는 칩 아키텍처이다. 훈련이 아니라 추론이다. 이것이 월스트리트를 흥분시키는 포인트이다. 추론 시장은 정기적이며, 사용량이 확장됨에 따라 성장한다. Claude가 질문에 답할 때마다, agent가 작업을 수행할 때마다 계산력이 소모된다. 훈련은 한 번만 발생하고, 추론은 결코 멈추지 않는다.

J.P. Morgan은 추론 시장 규모를 훈련의 10배에서 50배로 추정했다. 기계가 다른 기계가 내린 작업을 수행하기 시작하면, 즉 agentic(지능형) 방식으로 확장되면, 추론 수요는 더 이상 사용자 수에 따라 확장되지 않고, 계산력 자체에 따라 확장된다.

3. 엔비디아가 지도를 다시 그리다: 추론이 헤드라인이 되다

Cerebras가 시장의 각성을 나타낸다면, 엔비디아의 최신 분기 재무 보고서는 산업 체인 최상단에서의 확인이다. 최신 재무 보고 전화 회의에서, Jensen Huang은 그 암묵적인 말을 명확히 했다: AI 수요는 포물선 형태로 증가하고 있다. 이유는 간단하다: agentic AI가 이미 도래했다. 주류 AI는 일회성 추론에서 논리적 추론으로, 다시 도구를 호출하고 작업을 조정하는 agent 단계로 전환되었다. Huang은 "토큰은 이제 수익성이 있다"고 말했다. AI 시대에 계산력은 수익과 이익이다.

이것은 전체 산업을 재편성했다. 훈련은 모델을 구축하는 일회성 비용이고, 추론은 그것을 운영하는 정기적 비용이며, 현재의 병목은 훈련이 아니라 추론에 있다.

엔비디아는 이 판단을 자신의 재무 보고 기준에 반영했다. 이제 두 개의 플랫폼으로 공개하고 있으며, 하나가 아닌 두 개: 데이터 센터와 엣지 컴퓨팅. 데이터 센터(이번 분기 약 750억 달러, 전년 대비 +92%)는 하이퍼스케일(약 380억 달러, 전분기 대비 +12%)과 ACIE, 즉 AI 클라우드, 산업 및 기업(약 370억 달러, 전분기 대비 +31%)으로 더 세분화되었다. 새로운 라인은 엣지 컴퓨팅이다: 64억 달러, 전년 대비 +29%, agentic AI와 physical AI가 실제로 운영되는 단말기를 포함한다, 예를 들어 PC, 워크스테이션, AI-RAN 기지국, 로봇 및 자동차.

엣지는 현재 총 수익의 8%도 차지하지 않지만, 엔비디아는 이를 데이터 센터와 나란히 '두 번째 플랫폼'으로 끌어올렸다. 이 신호는: 추론이 두 개의 전선으로 분열하고 있다는 것이다, 데이터 센터의 클라우드 추론과 엣지 측의 엔드포인트 추론, AI가 물리적 세계에서 볼 수 있고, 이동하고, 행동해야 한다. 로드맵은 동일한 논리를 따른다: 3분기부터 출하되는 Vera Rubin은 추론 처리량이 Blackwell의 35배에 이를 수 있다; Huang은 agentic 부하를 위한 Vera CPU에 대해 새로운 2000억 달러 TAM을 제시했다. 모든 최전선 모델 회사는 첫날부터 이를 전면적으로 전환할 것으로 예상된다.

지구에서 시가총액이 가장 높은 회사가 '서비스 토큰'을 중심으로 재무 공개를 재편할 때, 병목 현상에 대한 논쟁은 이미 끝났다. 본문의 나머지 부분은 추론(훈련이 아닌)이 희소 자원이 되었을 때, 가치를 누가 포착할 것인지에 대해 논의한다.

먼저 범위를 명확히 하자. 이 두 전선에서, 본문은 클라우드 추론, 즉 외부에 API 토큰 서비스를 제공하는 임대 데이터 센터 GPU에 대해 논의한다. 엔드포인트 추론은 장치 내부의 로컬 칩(Nvidia의 Jetson, RTX, Drive, AI-RAN)에서 실행되며, 그 아래의 GPU 임대 및 집계 스택을 전혀 거치지 않는다. 여기서는 이를 전체 추론 경제를 확대하고 병목 주장을 뒷받침하는 순풍으로 간주하되, Hyperbolic과 Venice가 있는 시장은 완전히 클라우드 측에 있다.

4. 압축이 이미 도래했다

Anthropic은 탄광의 카나리아이다. 사용량이 사전 설정된 용량을 훨씬 초과하며, Claude가 '뇌엽 절제'되었다는 불만이 전 세계적으로 퍼지고 있다. 여기에는 제한된 응답, 느려진 추론, 압축된 문맥 창이 포함된다. 해결책은 노골적인 계산력이다: 2026년 5월, Anthropic은 SpaceX로부터 전체 Colossus 1 데이터 센터를 인수했으며, 22만 개 이상의 Nvidia GPU와 300메가와트를 확보하고 이를 추론에 전용하고 있다, 훈련이 아니라.

이 부분의 용량은 일련의 한도 변동을 해제했으며, 매번 신호가 된다. 5월 6일, Anthropic은 Claude Code의 5시간 한도를 두 배로 늘리고, 피크 시간대의 제한을 해제했으며, Opus의 API 속도 제한을 대폭 증가시켰다. 5월 13일, 다시 Claude Code의 주 한도를 50% 증가시켰다(7월 13일까지). 이후, 6월 15일부터는 '관대함'과 반대되는 조치를 취했다: agentic 및 프로그래밍 사용(Agent SDK, 헤드리스 모드 claude -p, CI 파이프라인)을 평면 구독에서 분리하여 독립적으로 측정되는 크레딧 풀로 옮겼다(매달 20~200달러, API 가격 기준). 마지막 단계는 전체 주장을 하나의 행동으로 압축했다: agent가 추론을 소비하는 속도는 평면 구독의 설계 수용 능력을 훨씬 초과하므로, 본래의 '정기적 비용'에 따라 가격을 책정해야 한다.

훈련은 일회성 자본 지출이다. 추론은 정기적 운영 비용으로, 매 새로운 사용자, 매 새로운 agent에 따라 복리로 누적된다.

5. 이 스택: 여섯 개 층, 하나의 병목

모든 AI 애플리케이션은 TSMC 웨이퍼 공장에서 시작하여 API 엔드포인트에서 끝나는 공급망에 위치한다:

대부분의 회사는 그 중 한 층만 소유하고 있다. 엔비디아는 실리콘을 소유하고, CoreWeave는 맨얼굴 금속을 소유하고, Together AI는 추론 최적화를 소유하고, OpenRouter는 모델 API 라우팅을 소유하고 있다.

단 한 곳만 예외이다.

6. Hyperbolic: 세 층을 가로지르는 유일한 회사

Hyperbolic은 2025년 6월에 주문형 GPU 시장을 출시했다. 초기 몇 달 동안, 개발자 수가 20만 명을 초과했으며, 최전선 AI 실험실, 검색 및 대규모 소비자 플랫폼을 포함한 사용자 기반을 확보했다.

흥미로운 것은 그 아키텍처이다.

Hyperbolic은 GPU를 한 장도 보유하고 있지 않다. 모든 카드는 neocloud와 데이터 센터에서 제공되며, CoreWeave, Lambda Labs, Nebius 및 유휴 용량을 보유한 더 작은 운영자들이 포함된다. 이것은 약점처럼 들리지만, 사실은 방어선이다.

GPU 공급자와 소비자 사이에 위치함으로써, Hyperbolic은 다른 사람들이 볼 수 없는 실시간 데이터를 볼 수 있다. 누가 어떤 가격에, 언제 어떤 GPU를 구매하는지 알고 있다. 공급 과잉이 공개되기 전에 이를 볼 수 있었고, 수요가 급증하여 시장에 충격을 주기 전에 이를 볼 수 있었다.

현재, 방어선 자체가 이 multi-cloud 집합체이다. Hyperbolic은 수십 개의 독립 클라우드와 데이터 센터에서 오는 분산된 용량을 표준화된 통합 풀로 엮어, 개발자가 각 운영자와 협상할 필요 없이, 많은 계정을 관리할 필요 없이, 어디서든 가장 저렴한 사용 가능한 GPU를 임대할 수 있도록 한다. 연결되는 클라우드가 많을수록 유동성이 깊어지고, 가격 데이터가 풍부해진다. 이후 팀은 이러한 데이터를 사용하여 GPU 가격 곡선을 모델링하고, 궁극적으로 자본을 투입하여 수요와 공급을 평활화하고 물리적 계산력의 시장 조성자 역할을 하는 방법을 탐색하고 있다; 그러나 이 목표는 여전히 초기 단계에 있으며, 현재 복리로 성장하는 것은 집계 층이다.

이것이 플라이휠이다:

  1. 더 많은 클라우드 연결 → 더 많은 집계 공급

  2. 더 많은 공급 → 더 깊은 시장과 실시간 가격 데이터

  3. 더 나은 데이터 → 현재 더 스마트한 라우팅, 장기적으로는 가격 모델

  4. 더 나은 유동성과 가격 → 더 많은 개발자 → 더 많은 클라우드가 연결하고 싶어함

다른 어떤 회사도 이 일을 시도하고 있지 않다. Hyperbolic은 GPU 임대 층, 배포 층 및 모델 API 층을 동시에 가로지르는 유일한 회사이다.

7. Venice라는 거울

Venice는 추론 경제가 응용 층에서 가장 명확하게 나타나는 형태이며, Hyperbolic의 위치와 유용한 대조를 이룬다. 그것은 개인 정보 보호를 우선시하는 추론 애플리케이션이다: OpenAI 호환 API 세트와 소비자를 위한 구독(Free / Pro / Pro+ / Max)을 결합하여 요청을 약 75개의 모델로 라우팅하며, 그 중 약 3분의 2는 오픈 소스 또는 자체 호스팅 모델(Llama, Mistral, Qwen, DeepSeek)이고, 나머지는 폐쇄형 최전선 모델에 대한 익명 전송이다. 핵심은 Venice가 의미 있는 계산력을 소유하지 않는다는 것이다. 그것은 공개되지 않은 GPU 파트너와 기밀 계산 공급자(NEAR AI Cloud, Phala)로부터 임대하며, 최전선 실험실에 비용을 지불하여 전송을 수행하므로, 그것의 진정한 수익 비용은 추론 계산력이지 SaaS 호스팅이 아니다.

Venice가 진정으로 판매하는 것은 개인 정보 보호이다. 여기서 말하는 '개인 정보 보호'는 공공 계산력을 개인 소유로 변환하는 것이 아니라, 상품화된 추론에 보장을 덧씌우는 것이다: 데이터를 저장하지 않고, 훈련에 사용하지 않으며, 요청을 익명화하고, 일부 부하는 TEE에서 실행되어 운영자조차도 명문을 볼 수 없게 한다. 기본 계산력은 대량 생산품이며, 가격을 올려 판매하는 것은 이 개인 정보 보호 포장이다. 그리고 이 보장은 계층적이며, 균질하지 않다: 자신이 통제하거나 TEE GPU에서 실행되는 오픈 소스 모델에 대해서는 거의 종단 간 비밀 계산을 달성할 수 있지만, Claude, GPT와 같은 폐쇄형 모델에 대한 익명 전송은 개인 정보를 신원에서 분리하는 것일 뿐, 최전선 실험실 쪽에서는 여전히 원래의 프롬프트를 처리하고 있다. 따라서 가장 강력한 개인 정보 보호는 오픈 소스 부분을 커버하고, 최전선 모델 부분은 '익명'일 뿐 '진정한 비밀'이 아니다. Venice의 총 이익 = 구독 가격 - 하류에 지급하는 추론 비용이며, 그것이 노출된 API 가격보다 더 많이 받을 수 있는 부분은 거의 전적으로 이 개인 정보 보호 프리미엄에 의해 지탱되고 있으며, 이것이 그들이 얇은 이익을 내고, 최전선 전송 가격에 의해 제약받는 이유이다.

토큰 설계는 이 부분의 추론 수요를 포장했다. Venice는 두 개의 토큰에서 운영된다: VVV(스테이킹 및 플랫폼 접근)와 DIEM, 후자는 추론 크레딧으로, 각 DIEM은 하루에 약 1달러의 계산력에 해당한다. 유료 구독은 VVV의 프로그래밍된 재구매 소각을 촉발한다(Pro / Pro+ / Max는 각각 약 2 / 5 / 10달러), 배출량은 고정된 시간표에 따라 감소한다: 매달 6M → 5M → 4M VVV, 그리고 7월 1일에 3M으로 조정된다. 재구매는 실제로 이루어지지만, 재량에 따라 여전히 크지 않다: 4월과 5월에 각각 약 10.3만 달러가 소각되었고, 6월에는 약 11만 달러로 천천히 증가하고 있으며, 매달 20만 달러라는 기준선에는 훨씬 못 미친다.

기본적인 면은 헤드라인보다 더 건강하다. 공개적으로 유포된 '7000만 달러 ARR'이라는 숫자는 거의 확실히 구독 갱신을 순 신규 고객 획득으로 잘못 해석한 결과이다; 변호할 수 있는 관측 구간은 600만 달러에서 1500만 달러 ARR에 더 가깝다. 이 아래에서, traction은 실제이다: 약 13.6만 개의 지갑 주소, 매달 약 990만 번의 웹사이트 방문(매일 약 33만 번), 신규 Pro 구독은 매일 약 1400회 근처에서 맴돌고 있다. 이것은 진정한 비즈니스이지만, 얇은 이익을 내는 비즈니스이며, 그 경제성은 그들이 구매하는 계산력에 의해 제약받는다.

이것이 바로 Hyperbolic이 그 위의 층에 위치하는 이유이다. 만약 Venice가 주유소라면, Hyperbolic은 정유 공장이다. Venice는 모든 사람이 의존하는 동일한 제한된 공급에서 계산력을 구매한다; Hyperbolic은 그 부분의 분산 공급을 집계하고 표준화하여 Venice 및 그것과 같은 모든 플레이어에게 판매한다. 추론 수요가 증가함에 따라, 가치는 소비 계산력의 애플리케이션에 축적될 뿐만 아니라, 집계하고 라우팅하는 계산력, 그리고 이러한 애플리케이션이 지불하는 수익 비용을 포착하는 층에도 축적된다.

8. 왜 이 일이 지금 중요할까

엔비디아는 '서비스 토큰'을 중심으로 재무를 재편성했다. Cerebras의 IPO는 시장이 추론이 병목이라는 것을 이해했음을 증명한다. Anthropic은 용량을 확보하기 위해 분주하게 움직이며, 이것이 진정한 문제임을 증명한다. agentic 및 physical AI는 수요를 몇 배로 증가시켜 클라우드와 엣지 두 개의 전선에 걸쳐 있다.

그리고 그것은 '6000억 달러 문제'의 고리를 다른 측면에서 닫았다. Cahn의 하락 논리는 즉 과도한 건설, 그리고 과잉이 결국 검증될 가능성이 높다. 그러나 과잉은 경량 자산 집계자의 최적 상황이다: GPU 가격이 하락하고 공급이 수십 개의 클라우드에 분산될 때, 어떤 하드웨어도 보유하지 않고 모든 작업 부하를 가장 저렴한 사용 가능한 카드로 라우팅하는 플레이어가 가격 차익을 얻고, 지속적으로 감가상각되는 GPU를 보유한 운영자는 손실을 감수하게 된다. Hyperbolic은 과잉을 매수하는 것이지, 매도하는 것이 아니다.

궁극적으로 승리하는 회사는 가장 많은 GPU를 보유한 회사가 아니라, 어떤 GPU가 어디에서 어떤 가격에 사용 가능한지를 알려주고, 모든 작업 부하를 가장 낮은 비용으로 실행할 수 있는 곳으로 라우팅하는 회사가 될 것이다.

Hyperbolic은 그런 회사를 만들고 있다. GPU를 소유하지 않고, 순수 소프트웨어로, 세 층을 깊게 가지면서도 추론의 궁극적인 계산력 집계 층으로 자리 잡고 있다.

Join ChainCatcher Official
Telegram Feed: @chaincatcher
X (Twitter): @ChainCatcher_
warnning 위험 경고
app_icon
ChainCatcher Building the Web3 world with innovations.