AI 대모델 실제 거래 대결: DeepSeek와 Grok가 선두, 다양한 모델의 투자 철학을 드러내다
저자:Bruce
1. 진정한 AI 거래 대결

AI 연구 실험실 nof1.ai가 주최한 "Alpha Arena" 실전 거래 대회의 최신 결과가 발표되었으며, 그 성과 차이는 놀랍습니다. 2025년 10월 20일 기준 데이터에 따르면, DeepSeek V3.1은 +39.9%의 놀라운 수익률을 기록했으며, Grok-4가 뒤를 이어 +35.3%의 수익률을 보였습니다. 한편, 다른 두 개의 유명 모델인 GPT-5와 Gemini 2.5 Pro는 각각 -26.2%와 -30.28%의 손실을 기록하며 부진한 성과를 보였습니다.

이번 대결은 모의가 아닌 진정한 금전적 대결입니다. 이는 세계 최고의 범용 AI 대모델을 궁극적인 대결 환경인 변동성이 큰 금융 시장에 놓이게 합니다.
2. 실험 배경 및 규칙
이번 거래 대회는 AI 연구 실험실 nof1.ai가 주최하며, 창립자 Jay Azhang은 공학, 금융, 생물학의 복합 배경을 가지고 있으며, 이전에 한 펀드의 관리 규모를 300만 달러에서 2000만 달러로 증가시킨 경험이 있습니다. 그의 핵심 이념은 금융 시장이 AI의 "궁극적인 시험장"이라는 것입니다. 이는 AI가 강해짐에 따라 난이도가 동기화되어 상승하는 동적인 훈련 환경으로, "현실 세계의 AlphaZero"를 구축하기 위한 최적의 장소입니다.

경기 규칙은 다음과 같습니다:
참가 모델: 총 6개의 세계 최고의 AI 대모델이 참여하며, GPT-5, Gemini 2.5 Pro, Grok-4, Claude Sonnet 4.5, DeepSeek V3.1, Qwen3 Max가 포함됩니다.
초기 자금: 각 모델은 10,000달러의 실제 자금을 받습니다.
거래 대상: 자율적으로 BTC, ETH, SOL, BNB, DOGE, XRP 등 주요 암호화폐의 영구 계약을 거래합니다.
거래 플랫폼: 모든 거래는 Hyperliquid에서 실행되어 자금 안전성과 거래 투명성을 보장합니다.
대회 기간: 2025년 10월 18일부터 시작되어 현재 진행 중입니다.
3. AI 거래 "인격" 분석: 저격수에서 고빈도 거래자까지
더욱 가치 있는 것은 이번 거래 대회가 상세한 거래 데이터를 통해 다양한 AI 모델 뒤에 이미 형성된 상이한 거래 "인격" 또는 투자 철학을 드러냈다는 점입니다.

1. 선두주자: 인내심 있는 저격수와 신중한 보유자
DeepSeek V3.1 (+39.9%)와 Grok-4 (+35.3%)의 성공 전략은 매우 명확합니다: 높은 신념, 낮은 빈도.
DeepSeek는 "인내심 있는 저격수"로 불리며 단 6건의 거래를 완료했으며, 평균 보유 시간은 21시간을 넘고 대부분이 롱 포지션입니다. 이러한 전략은 해당 모델이 높은 확실성의 기회를 기다린 후 이익을 극대화하는 경향이 있음을 나타냅니다. 최근 미국 정부의 보고서가 DeepSeek 모델에 대한 비판을 제기했지만, 이 뛰어난 실전 거래 성과는 그 능력을 시장에서 검증받는 기회를 제공합니다.
Grok은 "신중한 보유자"로 단 1건의 거래를 완료했으며, 평균 보유 시간은 54시간에 달합니다. 그 성공은 실시간 네트워크 정보를 수집할 수 있는 독특한 구조에서 비롯된 것으로 보이며, 이는 시장 감정과 뉴스 사건을 더 잘 통합할 수 있는 능력으로, 커뮤니티에서는 거래에서 중요한 장점으로 평가받고 있습니다.
2. 중간 계층: 신속한 롱 포지션과 균형 잡힌 기회주의자
Claude Sonnet 4.5 (+24.51%)는 완전히 다른 스타일을 보여줍니다. 그것은 "신속한 롱 포지션"처럼 5건의 거래에서 평균 보유 시간이 3시간 40분에 불과하며, 100%가 롱 포지션입니다.
Qwen3 Max (+8.43%)는 "균형 잡힌 기회주의자"에 더 가깝고, 8건의 거래를 완료했으며 평균 보유 시간은 7시간 24분으로 보다 안정적인 전략을 보여줍니다.
3. 후발주자: 역행하는 숏 포지션과 고빈도 거래자
GPT-5 (-26.2%)의 전략은 현재 시장 환경에 적합하지 않은 것으로 보입니다. 12건의 거래에서 평균 보유 시간이 23시간을 초과했지만 성과가 좋지 않아 위험 관리 메커니즘의 부족을 반영할 수 있습니다.
Gemini 2.5 Pro (-30.28%)는 전형적인 "고빈도 거래자"로, 최대 47건의 거래를 완료했으며 평균 보유 시간은 6시간 48분에 불과합니다. 고빈도 거래로 인해 높은 수수료 지출이 발생하여 결국 상당한 손실을 초래했습니다.
4. 데이터 요약: AI 모델 거래 성과 비교
다음 표는 2025년 10월 20일 기준으로 다양한 AI 거래 전략의 구체적인 성과를 요약한 것입니다(데이터 출처: Alpha Arena by nof1.ai):

거래를 1회만 수행한 모델부터 47회 거래한 모델까지, 다양한 모델의 전략 차이가 한눈에 드러납니다.
5. 왜 이것이 중요한가: AI 능력 평가의 새로운 패러다임
Alpha Arena 대회의 의미는 단순한 거래 대회를 넘어섭니다. 이는 AI 평가 패러다임의 변화를 나타내며, 이러한 대모델들이 독특한 거래 "인격"을 형성하고 있음을 드러냅니다------인내심 있는 가치 투자자에서 활발한 일일 거래자까지.
이는 단순한 금융 능력의 튜링 테스트가 아니라, AI 평가를 정적이고 학문적인 기준 테스트에서 공개적이고 검증 가능하며 경쟁이 치열한 실제 세계 환경으로 끌어올립니다. 이 환경에서 AI 모델은 시장의 불확실성, 변동성 및 다른 참여자와의 경쟁에 직면해야 하며, 이는 전통적인 벤치마크 테스트보다 복잡한 현실 환경에서 AI의 진정한 능력을 더 잘 반영합니다.
혁신의 의미는 세 가지 측면에서 나타납니다:
실시간 평가: 정적 데이터 세트 테스트와는 달리 금융 시장은 지속적으로 변화하는 도전 환경을 제공합니다.
다차원 능력 검토: 위험 관리, 전략 수립, 실행 능력 등 여러 종합 기술을 동시에 테스트합니다.
객관적 결과 측정: 실제 손익을 유일한 평가 기준으로 삼아 주관적 평가의 편향을 피합니다.
이 실험의 결과는 향후 AI가 금융 및 기타 동적 의사결정 분야에서 어떻게 활용될 수 있는지에 대한 귀중한 통찰을 제공할 것입니다. 이는 다양한 AI 모델의 능력 차이를 보여줄 뿐만 아니라, AI가 복잡하고 동적인 현실 환경에서 어떻게 작용하는지를 이해하는 데 새로운 시각을 열어줍니다.







