계산력에서 지능으로: 강화 학습 기반의 분산형 AI 투자 지도
?저자:Jacob Zhao,IOSG
인공지능은 "모델 적합" 중심의 통계 학습에서 "구조적 추론"을 핵심으로 하는 능력 체계로 나아가고 있으며, 후 훈련(Post-training)의 중요성이 빠르게 상승하고 있습니다. DeepSeek-R1의 출현은 대모델 시대에서 강화 학습의 패러다임 전환을 상징하며, 업계의 공감대가 형성되었습니다: 사전 훈련은 모델의 일반적인 능력 기반을 구축하고, 강화 학습은 더 이상 가치 정렬 도구에 그치지 않고, 추론 체인 품질과 복잡한 의사 결정 능력을 체계적으로 향상시킬 수 있음을 입증하며, 지속적으로 지능 수준을 향상시키는 기술 경로로 점차 진화하고 있습니다.
동시에, Web3는 탈중앙화된 컴퓨팅 네트워크와 암호화된 인센티브 시스템을 통해 AI의 생산 관계를 재구성하고 있으며, 강화 학습의 롤아웃 샘플링, 보상 신호 및 검증 가능한 훈련에 대한 구조적 요구는 블록체인의 컴퓨팅 협력, 인센티브 분배 및 검증 가능한 실행과 자연스럽게 일치합니다. 본 연구 보고서는 AI 훈련 패러다임과 강화 학습 기술 원리를 체계적으로 분석하고, 강화 학습 × Web3의 구조적 이점을 논증하며, Prime Intellect, Gensyn, Nous Research, Gradient, Grail 및 Fraction AI와 같은 프로젝트를 분석합니다.
1. AI 훈련의 세 단계: 사전 훈련, 지시 미세 조정 및 후 훈련 정렬
현대 대형 언어 모델(LLM) 훈련의 전체 생애 주기는 일반적으로 세 가지 핵심 단계로 나뉩니다: 사전 훈련(Pre-training), 감독 미세 조정(Supervised Fine-tuning, SFT) 및 후 훈련(Post-training/RL). 이 세 단계는 각각 "세계 모델 구축---작업 능력 주입---추론 및 가치관 형성"의 기능을 수행하며, 그 계산 구조, 데이터 요구 사항 및 검증 난이도는 탈중앙화의 일치 정도를 결정합니다.
사전 훈련(Pre-training)은 대규모 자가 감독 학습(Self-supervised Learning)을 통해 모델의 언어 통계 구조와 크로스 모달 세계 모델을 구축하며, 이는 LLM 능력의 기초입니다. 이 단계에서는 조 단위의 데이터에서 전 세계적으로 동기화된 방식으로 훈련해야 하며, 수천에서 수만 개의 H100 동형 클러스터에 의존하고, 비용 비율은 80-95%에 달하며, 대역폭과 데이터 저작권에 극도로 민감하므로 반드시 고도로 집중된 환경에서 완료해야 합니다.
미세 조정(Supervised Fine-tuning)은 작업 능력과 지시 형식을 주입하는 데 사용되며, 데이터 양은 적고 비용 비율은 약 5-15%입니다. 미세 조정은 전체 매개변수 훈련을 수행할 수 있으며, 매개변수 효율적인 미세 조정(PEFT) 방법을 사용할 수 있습니다. 이 중 LoRA, Q-LoRA 및 Adapter는 산업계의 주류입니다. 그러나 여전히 동기화된 그래디언트가 필요하므로 탈중앙화 잠재력이 제한적입니다.
후 훈련(Post-training)은 여러 반복 하위 단계로 구성되어 모델의 추론 능력, 가치관 및 안전 경계를 결정하며, 그 방법에는 강화 학습 시스템(RLHF, RLAIF, GRPO)과 비 RL의 선호 최적화 방법(DPO), 과정 보상 모델(PRM) 등이 포함됩니다. 이 단계의 데이터 양과 비용은 상대적으로 낮습니다(5-10%) 주로 롤아웃 및 정책 업데이트에 집중되며, 본질적으로 비동기 및 분산 실행을 지원하고, 노드는 전체 가중치를 보유할 필요가 없으며, 검증 가능한 계산 및 체인 상 인센티브와 결합하여 개방형 탈중앙화 훈련 네트워크를 형성할 수 있어 Web3에 가장 적합한 훈련 단계입니다.

2. 강화 학습 기술 전경: 아키텍처, 프레임워크 및 응용
강화 학습의 시스템 아키텍처 및 핵심 단계
강화 학습(Reinforcement Learning, RL)은 "환경 상호작용---보상 피드백---정책 업데이트"를 통해 모델이 자율적으로 의사 결정 능력을 개선하도록 유도하며, 그 핵심 구조는 상태, 행동, 보상 및 정책으로 구성된 피드백 폐쇄 루프로 볼 수 있습니다. 완전한 RL 시스템은 일반적으로 세 가지 구성 요소를 포함합니다: 정책(Policy) 네트워크, 롤아웃(Rollout) 및 학습기(Learner). 정책은 환경과 상호작용하여 궤적을 생성하고, 학습기는 보상 신호에 따라 정책을 업데이트하여 지속적인 반복과 최적화의 학습 과정을 형성합니다:

정책 네트워크(Policy): 환경 상태에서 행동을 생성하며, 시스템의 의사 결정 핵심입니다. 훈련 시에는 집중식 역전파를 통해 일관성을 유지해야 하며, 추론 시에는 서로 다른 노드에 분산되어 병렬로 실행할 수 있습니다.
경험 샘플링(Rollout): 노드는 정책에 따라 환경과 상호작용하여 상태---행동---보상 등의 궤적을 생성합니다. 이 과정은 고도로 병렬화되고 통신이 극히 적으며, 하드웨어 차이에 민감하지 않아 탈중앙화에서 확장하기에 가장 적합한 단계입니다.
학습기(Learner): 모든 롤아웃 궤적을 집계하고 정책 그래디언트 업데이트를 수행하며, 이는 계산력과 대역폭 요구가 가장 높은 모듈이므로 일반적으로 수렴 안정성을 보장하기 위해 중앙 집중식 또는 경량 중앙 집중식 배포를 유지합니다.
강화 학습 단계 프레임워크(RLHF → RLAIF → PRM → GRPO)
강화 학습은 일반적으로 다섯 단계로 나눌 수 있으며, 전체 프로세스는 다음과 같습니다:
# 데이터 생성 단계(Policy Exploration)
주어진 입력 프롬프트 조건에서 정책 모델 πθ는 여러 후보 추론 체인 또는 완전한 궤적을 생성하여 후속 선호 평가 및 보상 모델링을 위한 샘플 기반을 제공하며, 정책 탐색의 폭을 결정합니다.
# 선호 피드백 단계(RLHF / RLAIF)
RLHF(인간 피드백으로부터의 강화 학습)는 다수의 후보 답변, 인간 선호 주석, 보상 모델(RM) 훈련 및 PPO를 통한 정책 최적화를 통해 모델 출력이 인간 가치관에 더 부합하도록 하며, 이는 GPT-3.5 → GPT-4의 핵심 단계입니다.
RLAIF(인공지능 피드백으로부터의 강화 학습)는 AI 판사 또는 헌법식 규칙으로 인간 주석을 대체하여 선호 획득 자동화를 실현하고, 비용을 크게 줄이며 규모화 특성을 갖추어 Anthropic, OpenAI, DeepSeek 등의 주류 정렬 패러다임이 되었습니다.
# 보상 모델링 단계(Reward Modeling) 선호는 입력에 대한 보상 모델을 학습하여 출력을 보상으로 매핑합니다. RM은 모델에게 "정답이란 무엇인가"를 가르치고, PRM은 모델에게 "올바른 추론을 하는 방법"을 가르칩니다.
RM(보상 모델)은 최종 답변의 품질을 평가하는 데 사용되며, 출력에 점수를 매깁니다:
과정 보상 모델 PRM(과정 보상 모델)은 더 이상 최종 답변만 평가하지 않고, 각 추론 단계, 각 토큰, 각 논리 구간에 점수를 매깁니다. 이는 OpenAI o1 및 DeepSeek-R1의 핵심 기술로, 본질적으로 "모델에게 사고하는 방법을 가르치는" 것입니다.
# 보상 검증 단계(RLVR / Reward Verifiability) 보상 신호 생성 및 사용 과정에서 "검증 가능한 제약"을 도입하여 보상이 가능한 한 재현 가능한 규칙, 사실 또는 합의에서 나오도록 하여 보상 해킹 및 편향 위험을 줄이고, 개방 환경에서의 감사 가능성과 확장성을 높입니다. # 정책 최적화 단계(Policy Optimization) 보상 모델이 제공하는 신호에 따라 정책 매개변수 θ를 업데이트하여 더 강한 추론 능력, 더 높은 안전성 및 더 안정적인 행동 패턴의 정책 πθ′를 얻습니다. 주류 최적화 방법에는 다음이 포함됩니다:
PPO(근접 정책 최적화): RLHF의 전통적인 최적화기로 안정성에서 두각을 나타내지만, 복잡한 추론 작업에서는 종종 느린 수렴 및 불안정성 등의 한계에 직면합니다.
GRPO(그룹 상대 정책 최적화): DeepSeek-R1의 핵심 혁신으로, 후보 답변 그룹 내 우위 분포를 모델링하여 기대 가치를 추정하며, 단순 정렬이 아닌 방식입니다. 이 방법은 보상 폭 정보가 보존되어 추론 체인 최적화에 더 적합하며, 훈련 과정이 더 안정적이며 PPO 이후 심층 추론 시나리오를 위한 중요한 강화 학습 최적화 프레임워크로 간주됩니다.
DPO(직접 선호 최적화): 비강화 학습의 후 훈련 방법으로, 궤적을 생성하지 않고 보상 모델을 구축하지 않으며, 대신 선호 쌍에서 직접 최적화를 수행하여 비용이 낮고 효과가 안정적이어서 Llama, Gemma 등의 오픈 소스 모델 정렬에 널리 사용되지만, 추론 능력을 향상시키지는 않습니다.
# 새로운 정책 배포 단계(New Policy Deployment)
최적화된 모델은 더 강한 추론 체인 생성 능력(System-2 Reasoning), 인간 또는 AI 선호에 더 부합하는 행동, 더 낮은 환각률 및 더 높은 안전성을 나타냅니다. 모델은 지속적인 반복을 통해 선호를 학습하고, 과정을 최적화하며, 의사 결정 품질을 향상시켜 폐쇄 루프를 형성합니다.
강화 학습의 산업 응용 다섯 가지 분류
강화 학습(Reinforcement Learning)은 초기의 게임 지능에서 산업 전반의 자율 결정 핵심 프레임워크로 발전하였으며, 그 응용 시나리오는 기술 성숙도와 산업 실현 정도에 따라 다섯 가지 범주로 요약할 수 있으며, 각 방향에서 주요 돌파구를 추진하고 있습니다.
게임 및 전략 시스템(Game & Strategy): RL이 가장 먼저 검증된 방향으로, AlphaGo, AlphaZero, AlphaStar, OpenAI Five 등의 "완전한 정보 + 명확한 보상" 환경에서 RL은 인간 전문가와 어깨를 나란히 하거나 초월하는 의사 결정 지능을 보여주어 현대 RL 알고리즘의 기초를 마련했습니다.
로봇 및 구현 지능(Embodied AI): RL은 연속 제어, 동역학 모델링 및 환경 상호작용을 통해 로봇이 조작, 운동 제어 및 크로스 모달 작업(RT-2, RT-X 등)을 학습하게 하여 산업화로 빠르게 나아가고 있으며, 현실 세계 로봇의 실현을 위한 핵심 기술 경로입니다.
디지털 추론(Digital Reasoning / LLM System-2): RL + PRM은 대형 모델이 "언어 모방"에서 "구조적 추론"으로 나아가게 하며, 대표적인 성과로는 DeepSeek-R1, OpenAI o1/o3, Anthropic Claude 및 AlphaGeometry가 있으며, 본질적으로 추론 체인 수준에서 보상 최적화를 수행하는 것입니다.
자동화된 과학 발견 및 수학 최적화(Scientific Discovery): RL은 레이블이 없는 복잡한 보상 및 거대한 탐색 공간에서 최적 구조 또는 전략을 찾으며, AlphaTensor, AlphaDev, Fusion RL 등의 기초 돌파구를 달성하여 인간 직관을 초월하는 탐색 능력을 보여줍니다.
경제적 결정 및 거래 시스템(Economic Decision-making & Trading): RL은 전략 최적화, 고차원 위험 제어 및 적응형 거래 시스템 생성을 위해 사용되며, 전통적인 정량 모델보다 불확실한 환경에서 지속적으로 학습할 수 있어 스마트 금융의 중요한 구성 요소입니다.
3. 강화 학습과 Web3의 자연스러운 매칭
강화 학습(RL)과 Web3의 높은 적합성은 본질적으로 두 가지 모두 "인센티브 기반 시스템"이기 때문입니다. RL은 보상 신호에 의존하여 정책을 최적화하고, 블록체인은 경제적 인센티브를 통해 참여자의 행동을 조정하여 두 가지가 메커니즘 수준에서 자연스럽게 일치합니다. RL의 핵심 요구 사항인 대규모 이종 롤아웃, 보상 분배 및 진위 검증은 Web3의 구조적 장점과 일치합니다. # 추론과 훈련의 분리 강화 학습의 훈련 과정은 두 단계로 명확히 분리될 수 있습니다:
롤아웃(탐색 샘플링): 모델은 현재 정책을 기반으로 대량의 데이터를 생성하며, 계산 집약적이지만 통신이 드문 작업입니다. 이는 노드 간의 빈번한 통신이 필요하지 않으며, 전 세계적으로 분산된 소비자급 GPU에서 병렬로 생성하기에 적합합니다.
업데이트(매개변수 업데이트): 수집된 데이터를 기반으로 모델 가중치를 업데이트하며, 고대역폭 중앙 집중식 노드에서 완료해야 합니다.
"추론---훈련 분리"는 탈중앙화된 이종 컴퓨팅 구조에 자연스럽게 적합합니다: 롤아웃은 개방형 네트워크에 아웃소싱할 수 있으며, 기여도에 따라 토큰 메커니즘으로 정산할 수 있으며, 모델 업데이트는 안정성을 보장하기 위해 중앙 집중화된 상태를 유지합니다. # 검증 가능성(Verifiability) ZK 및 Proof-of-Learning은 노드가 실제로 추론을 수행했는지 검증할 수 있는 수단을 제공하여 개방형 네트워크에서의 정직성 문제를 해결합니다. 코드, 수학적 추론 등 결정적 작업에서 검증자는 답변을 확인하기만 하면 작업량을 확인할 수 있어 탈중앙화 RL 시스템의 신뢰성을 크게 향상시킵니다. # 인센티브 레이어, 토큰 경제 기반 피드백 생산 메커니즘 Web3의 토큰 메커니즘은 RLHF/RLAIF의 선호 피드백 기여자에게 직접 보상을 제공하여 선호 데이터 생성을 투명하고 정산 가능하며 허가 없이 이루어지는 인센티브 구조를 갖추게 합니다; 스테이킹 및 슬래싱(Staking/Slashing)은 피드백 품질을 더욱 제약하여 전통적인 크라우드소싱보다 더 효율적이고 정렬된 피드백 시장을 형성합니다. # 다중 에이전트 강화 학습(MARL) 잠재력 블록체인은 본질적으로 공개적이고 투명하며 지속적으로 진화하는 다중 에이전트 환경으로, 계정, 계약 및 에이전트는 인센티브에 의해 지속적으로 전략을 조정하여 대규모 MARL 실험장을 구축할 수 있는 잠재력을 자연스럽게 갖추고 있습니다. 비록 아직 초기 단계에 있지만, 그 상태 공개, 실행 검증 및 인센티브 프로그래밍 가능성은 미래 MARL 발전에 원칙적인 이점을 제공합니다.
4. 고전 Web3 + 강화 학습 프로젝트 분석
위의 이론적 프레임워크를 바탕으로 현재 생태계에서 가장 대표적인 프로젝트를 간략히 분석하겠습니다: Prime Intellect: 비동기 강화 학습 패러다임 prime-rl Prime Intellect는 전 세계 개방형 컴퓨팅 시장을 구축하여 훈련 장벽을 낮추고 협력적 탈중앙화 훈련을 촉진하며 완전한 오픈 소스 슈퍼 인공지능 기술 스택을 발전시키는 것을 목표로 하고 있습니다. 그 시스템은 다음을 포함합니다: Prime Compute(통합 클라우드/분산 컴퓨팅 환경), INTELLECT 모델 가족(10B--100B+), 개방형 강화 학습 환경 센터(Environments Hub), 대규모 합성 데이터 엔진(SYNTHETIC-1/2).
Prime Intellect의 핵심 인프라 구성 요소인 prime-rl 프레임워크는 비동기 분산 환경을 위해 설계되었으며 강화 학습과 밀접한 관련이 있습니다. 나머지 구성 요소로는 대역폭 병목 현상을 극복하는 OpenDiLoCo 통신 프로토콜, 계산 완전성을 보장하는 TopLoc 검증 메커니즘 등이 있습니다.
# Prime Intellect 핵심 인프라 구성 요소 개요
# 기술 기반: prime-rl 비동기 강화 학습 프레임워크
prime-rl은 Prime Intellect의 핵심 훈련 엔진으로, 대규모 비동기 탈중앙화 환경을 위해 설계되었습니다. Actor--Learner의 완전한 분리를 통해 높은 처리량 추론과 안정적인 업데이트를 실현합니다. 실행자(Rollout Worker)와 학습자(Trainer)는 더 이상 동기화 차단되지 않으며, 노드는 언제든지 참여하거나 탈퇴할 수 있으며, 최신 정책을 지속적으로 가져오고 생성된 데이터를 업로드하기만 하면 됩니다:

실행자 Actor (Rollout Workers): 모델 추론 및 데이터 생성을 담당합니다. Prime Intellect는 Actor 측에 vLLM 추론 엔진을 혁신적으로 통합했습니다. vLLM의 PagedAttention 기술과 연속 배치(Continuous Batching) 기능 덕분에 Actor는 매우 높은 처리량으로 추론 궤적을 생성할 수 있습니다.
학습자 Learner (Trainer): 정책 최적화를 담당합니다. Learner는 공유된 경험 재생 버퍼(Experience Buffer)에서 비동기적으로 데이터를 가져와 그래디언트 업데이트를 수행하며, 모든 Actor가 현재 배치를 완료할 때까지 기다릴 필요가 없습니다.
조정자(Orchestrator): 모델 가중치와 데이터 흐름을 조정합니다.
# prime-rl의 주요 혁신점
완전 비동기(True Asynchrony): prime-rl은 전통적인 PPO의 동기 패러다임을 버리고 느린 노드를 기다리지 않으며, 배치 정렬이 필요 없으므로 임의의 수와 성능의 GPU가 언제든지 접속할 수 있어 탈중앙화 RL의 가능성을 확립합니다.
FSDP2 및 MoE의 깊은 통합: FSDP2 매개변수 슬라이싱 및 MoE 희소 활성화를 통해 prime-rl은 수십억 개의 모델을 분산 환경에서 효율적으로 훈련할 수 있게 하며, Actor는 활성 전문가만 실행하여 메모리 및 추론 비용을 대폭 줄입니다.
GRPO+(그룹 상대 정책 최적화): GRPO는 Critic 네트워크를 면제하여 계산 및 메모리 오버헤드를 크게 줄이며, 비동기 환경에 자연스럽게 적합합니다. prime-rl의 GRPO+는 안정화 메커니즘을 통해 높은 지연 조건에서도 신뢰할 수 있는 수렴을 보장합니다.
# INTELLECT 모델 가족: 탈중앙화 RL 기술 성숙도의 상징
INTELLECT-1(10B, 2024년 10월)은 OpenDiLoCo가 세 대륙에 걸친 이종 네트워크에서 효율적으로 훈련할 수 있음을 처음으로 입증하였으며(통신 비율 <2%, 컴퓨팅 활용률 98%), 지역 간 훈련의 물리적 인식을 깨뜨렸습니다.
INTELLECT-2(32B, 2025년 4월)는 최초의 Permissionless RL 모델로, prime-rl과 GRPO+가 다단계 지연 및 비동기 환경에서 안정적인 수렴 능력을 검증하여 전 세계 개방형 컴퓨팅 참여를 통한 탈중앙화 RL을 실현합니다.
INTELLECT-3(106B MoE, 2025년 11월)은 12B 매개변수만 활성화하는 희소 아키텍처를 채택하여 512×H200에서 훈련하고 플래그십 추론 성능(AIME 90.8%, GPQA 74.4%, MMLU-Pro 81.9% 등)을 달성하였으며, 전체 성능은 자신보다 규모가 훨씬 큰 중앙 집중식 폐쇄형 모델에 근접하거나 초과하였습니다.
Prime Intellect는 또한 여러 지원 인프라를 구축하였습니다: OpenDiLoCo는 시간 희소 통신 및 양자화된 가중치 차이를 통해 지역 간 훈련의 통신량을 수백 배 줄여 INTELLECT-1이 세 대륙 네트워크에서 여전히 98% 활용률을 유지하도록 합니다; TopLoc + Verifiers는 탈중앙화된 신뢰할 수 있는 실행 레이어를 형성하여 활성 지문 및 샌드박스 검증을 통해 추론 및 보상 데이터의 진위를 보장합니다; SYNTHETIC 데이터 엔진은 대규모 고품질 추론 체인을 생성하고 파이프라인 병렬화를 통해 671B 모델이 소비자급 GPU 클러스터에서 효율적으로 실행되도록 합니다. 이러한 구성 요소는 탈중앙화 RL의 데이터 생성, 검증 및 추론 처리량을 위한 핵심 엔지니어링 기반을 제공합니다. INTELLECT 시리즈는 이 기술 스택이 성숙한 세계적 모델을 생성할 수 있음을 입증하며, 탈중앙화 훈련 시스템이 개념 단계에서 실용 단계로 진입했음을 나타냅니다.
Gensyn: 강화 학습 핵심 스택 RL Swarm 및 SAPO
Gensyn의 목표는 전 세계의 유휴 컴퓨팅 파워를 모아 개방적이고 신뢰가 필요 없으며 무한히 확장 가능한 AI 훈련 인프라를 구축하는 것입니다. 그 핵심에는 장치 간 표준화된 실행 레이어, P2P 조정 네트워크 및 신뢰가 필요 없는 작업 검증 시스템이 포함되며, 스마트 계약을 통해 자동으로 작업과 보상을 분배합니다. 강화 학습의 특징을 중심으로 Gensyn은 RL Swarm, SAPO 및 SkipPipe와 같은 핵심 메커니즘을 도입하여 생성, 평가 및 업데이트 세 단계를 분리하고, 전 세계 이종 GPU로 구성된 "군집"을 통해 집단 진화를 실현합니다. 그 최종 결과물은 단순한 컴퓨팅 파워가 아니라 검증 가능한 지능(Verifiable Intelligence)입니다.
# Gensyn 스택의 강화 학습 응용
# RL Swarm: 탈중앙화된 협력적 강화 학습 엔진
RL Swarm은 새로운 협력 모델을 보여줍니다. 이는 단순한 작업 분배가 아니라 인간 사회의 학습을 모방한 탈중앙화된 "생성---평가---업데이트" 루프이며, 협력적 학습 과정을 유사하게 무한히 반복합니다:
Solvers(실행자): 로컬 모델 추론 및 롤아웃 생성을 담당하며, 노드의 이종성에 영향을 받지 않습니다. Gensyn은 로컬에서 높은 처리량의 추론 엔진(예: CodeZero)을 통합하여 답변뿐만 아니라 완전한 궤적을 출력할 수 있습니다.
Proposers(출제자): 동적으로 작업(수학 문제, 코드 문제 등)을 생성하며, 작업의 다양성과 커리큘럼 학습의 난이도 적응을 지원합니다.
Evaluators(평가자): 고정된 "심판 모델" 또는 규칙을 사용하여 로컬 롤아웃을 평가하고 로컬 보상 신호를 생성합니다. 평가 과정은 감사 가능하며, 악용 가능성을 줄입니다.
세 가지는 함께 P2P RL 조직 구조를 형성하여 중앙 집중식 조정 없이 대규모 협력 학습을 완료합니다.
# SAPO: 탈중앙화를 위한 재구성된 정책 최적화 알고리즘
SAPO(Swarm Sampling Policy Optimization)는 "공유 롤아웃 및 무그래디언트 신호 샘플 필터링"을 핵심으로 하여 대규모 탈중앙화 롤아웃 샘플링을 통해 수신된 롤아웃을 로컬 생성으로 간주하여 중앙 집중식 조정 없이 노드 지연 차이가 큰 환경에서도 안정적인 수렴을 유지합니다. Critic 네트워크에 의존하고 계산 비용이 높은 PPO나 그룹 내 우위 추정 기반의 GRPO와 비교하여, SAPO는 매우 낮은 대역폭으로 소비자급 GPU도 대규모 강화 학습 최적화에 효과적으로 참여할 수 있게 합니다.
RL Swarm과 SAPO를 통해 Gensyn은 강화 학습(특히 후 훈련 단계의 RLVR)이 탈중앙화 아키텍처에 자연스럽게 적합하다는 것을 입증했습니다. 이는 대규모, 다양한 탐색(롤아웃)에 더 의존하기 때문이며, 고빈도 매개변수 동기화에 의존하지 않기 때문입니다. PoL 및 Verde의 검증 시스템과 결합하여 Gensyn은 수조 개의 매개변수 모델 훈련을 위한 대안 경로를 제공합니다: 전 세계 수백만 개의 이종 GPU로 구성된 자가 진화하는 슈퍼 인공지능 네트워크입니다.
Nous Research: 검증 가능한 강화 학습 환경 Atropos
Nous Research는 탈중앙화되고 자가 진화하는 인지 기반 시설을 구축하고 있습니다. 그 핵심 구성 요소인 Hermes, Atropos, DisTrO, Psyche 및 World Sim은 지속적인 폐쇄 루프의 지능 진화 시스템으로 조직되어 있습니다. 전통적인 "사전 훈련---후 훈련---추론" 선형 프로세스와는 달리, Nous는 DPO, GRPO, 거부 샘플링 등 강화 학습 기술을 사용하여 데이터 생성, 검증, 학습 및 추론을 연속 피드백 루프로 통합하여 지속적으로 자가 개선하는 폐쇄 루프 AI 생태계를 구축합니다.
# Nous Research 구성 요소 개요
# 모델 레이어: Hermes와 추론 능력의 진화
Hermes 시리즈는 Nous Research의 주요 모델 인터페이스로, 그 진화는 전통적인 SFT/DPO 정렬에서 추론 강화 학습(Reasoning RL)으로의 산업 전환 경로를 명확히 보여줍니다:
Hermes 1--3: 지시 정렬 및 초기 에이전트 능력: Hermes 1--3은 저비용 DPO를 통해 안정적인 지시 정렬을 완료하며, Hermes 3에서는 합성 데이터와 처음 도입된 Atropos 검증 메커니즘을 활용합니다.
Hermes 4 / DeepHermes: 사고 체인을 통해 System-2 스타일의 느린 사고를 가중치에 기록하고, Test-Time Scaling을 통해 수학 및 코드 성능을 향상시키며, "거부 샘플링 + Atropos 검증"을 통해 높은 순도의 추론 데이터를 구축합니다.
DeepHermes는 GRPO를 채택하여 분산 배포가 어려운 PPO를 대체하여 추론 RL이 Psyche 탈중앙화 GPU 네트워크에서 실행될 수 있도록 하여 오픈 소스 추론 RL의 확장 가능성을 위한 엔지니어링 기반을 마련합니다.
# Atropos: 검증 가능한 보상 기반 강화 학습 환경
Atropos는 Nous RL 시스템의 진정한 중심입니다. 이는 프롬프트, 도구 호출, 코드 실행 및 다중 상호작용을 표준화된 RL 환경으로 캡슐화하여 출력이 올바른지 직접 검증할 수 있도록 하여 결정적 보상 신호를 제공하며, 비싸고 확장 불가능한 인간 주석을 대체합니다. 더 중요한 것은, 탈중앙화 훈련 네트워크인 Psyche에서 Atropos는 "심판" 역할을 하여 노드가 실제로 정책을 향상시켰는지 검증하고, 감사 가능한 Proof-of-Learning을 지원하여 분산 RL에서 보상의 신뢰성 문제를 근본적으로 해결합니다.
# DisTrO 및 Psyche: 탈중앙화 강화 학습의 최적화기 레이어
전통적인 RLF(RLHF/RLAIF) 훈련은 중앙 집중식 고대역폭 클러스터에 의존하며, 이는 오픈 소스에서 복제할 수 없는 핵심 장벽입니다. DisTrO는 모멘텀 분리 및 그래디언트 압축을 통해 RL의 통신 비용을 몇 배 줄여 훈련이 인터넷 대역폭에서 실행될 수 있도록 하며; Psyche는 이 훈련 메커니즘을 체인 상 네트워크에 배포하여 노드가 로컬에서 추론, 검증, 보상 평가 및 가중치 업데이트를 완료할 수 있도록 하여 완전한 RL 폐쇄 루프를 형성합니다.
Nous의 시스템에서 Atropos는 사고 체인을 검증하고; DisTrO는 훈련 통신을 압축하며; Psyche는 RL 루프를 실행하고; World Sim은 복잡한 환경을 제공하며; Forge는 실제 추론을 수집하고; Hermes는 모든 학습을 가중치에 기록합니다. 강화 학습은 단순한 훈련 단계가 아니라 Nous 아키텍처에서 데이터, 환경, 모델 및 인프라를 연결하는 핵심 프로토콜로, Hermes가 오픈 소스 컴퓨팅 네트워크에서 지속적으로 자가 개선되는 생명체 시스템이 되도록 합니다.
Gradient Network: 강화 학습 아키텍처 Echo
Gradient Network의 핵심 비전은 "개방형 지능 프로토콜 스택"(Open Intelligence Stack)을 통해 AI의 계산 패러다임을 재구성하는 것입니다. Gradient의 기술 스택은 독립적으로 진화할 수 있는 이종 협력의 핵심 프로토콜로 구성되어 있습니다. 그 시스템은 하위 통신에서 상위 지능 협력까지 순차적으로 Parallax(분산 추론), Echo(탈중앙화 RL 훈련), Lattica(P2P 네트워크), SEDM / Massgen / Symphony / CUAHarm(기억, 협력, 안전), VeriLLM(신뢰할 수 있는 검증), Mirage(고충실도 시뮬레이션)를 포함하여 지속적으로 진화하는 탈중앙화 지능 인프라를 구성합니다.
Echo --- 강화 학습 훈련 아키텍처
Echo는 Gradient의 강화 학습 프레임워크로, 그 핵심 설계 개념은 강화 학습에서 훈련, 추론 및 데이터(보상) 경로를 분리하여 롤아웃 생성, 정책 최적화 및 보상 평가가 이종 환경에서 독립적으로 확장 및 조정될 수 있도록 하는 것입니다. 추론 측과 훈련 측 노드로 구성된 이종 네트워크에서 협력하여 경량 동기화 메커니즘을 통해 광역 이종 환경에서 훈련 안정성을 유지하고, 전통적인 DeepSpeed RLHF / VERL에서 추론과 훈련의 혼합 실행으로 인한 SPMD 실패 및 GPU 활용률 병목 현상을 효과적으로 완화합니다.
Echo는 "추론--훈련 이중 그룹 아키텍처"를 채택하여 계산력 활용을 극대화하며, 두 그룹은 각각 독립적으로 운영되고 서로 차단되지 않습니다:
샘플링 처리량 극대화: 추론 그룹 Inference Swarm은 소비자급 GPU 및 엣지 장치로 구성되어 Parallax를 통해 파이프라인 병렬로 높은 처리량 샘플러를 구축하여 궤적 생성을 집중합니다.
그래디언트 계산력 극대화: 훈련 그룹 Training Swarm은 중앙 집중식 클러스터 또는 전 세계 여러 지역에서 실행 가능한 소비자급 GPU 네트워크로, 그래디언트 업데이트, 매개변수 동기화 및 LoRA 미세 조정을 담당하여 학습 과정에 집중합니다.
정책과 데이터의 일관성을 유지하기 위해 Echo는 순차적(Sequential) 및 비동기적(Asynchronous) 두 가지 경량 동기화 프로토콜을 제공하여 정책 가중치와 궤적의 양방향 일관성 관리를 실현합니다:
순차적 풀(Pull) 모드|정확도 우선: 훈련 측은 새로운 궤적을 가져오기 전에 강제로 추론 노드가 모델 버전을 새로 고치도록 하여 궤적의 신선도를 보장하며, 이는 정책이 오래된 것에 민감한 작업에 적합합니다.
비동기 푸시-풀(Push--Pull) 모드|효율성 우선: 추론 측은 지속적으로 버전 태그가 있는 궤적을 생성하고, 훈련 측은 자신의 속도에 따라 소비하며, 조정자는 버전 편차를 모니터링하고 가중치 새로 고침을 트리거하여 장치 활용률을 극대화합니다.
하위에서 Echo는 Parallax(저대역폭 환경에서의 이종 추론) 및 경량화된 분산 훈련 구성 요소(예: VERL) 위에 구축되어 있으며, LoRA를 통해 노드 간 동기화 비용을 줄여 강화 학습이 전 세계 이종 네트워크에서 안정적으로 실행될 수 있도록 합니다. Grail: Bittensor 생태계의 강화 학습 Bittensor는 독특한 Yuma 합의 메커니즘을 통해 거대하고 희소하며 비정상적인 보상 함수 네트워크를 구축했습니다.
Bittensor 생태계의 Covenant AI는 SN3 Templar, SN39 Basilica 및 SN81 Grail을 통해 사전 훈련에서 RL 후 훈련까지 수직 통합된 파이프라인을 구축했습니다. 이 중 SN3 Templar는 기본 모델의 사전 훈련을 담당하고, SN39 Basilica는 분산 컴퓨팅 시장을 제공하며, SN81 Grail은 RL 후 훈련을 위한 "검증 가능한 추론 레이어"로서 RLHF / RLAIF의 핵심 프로세스를 수용하여 기본 모델에서












