QRコードをスキャンしてダウンロードしてください。
BTC $70,932.69 -3.48%
ETH $2,080.21 -5.03%
BNB $654.62 -3.00%
XRP $1.42 -4.56%
SOL $81.67 -4.53%
TRX $0.2795 -0.47%
DOGE $0.0974 -3.83%
ADA $0.2735 -4.22%
BCH $459.75 -2.43%
LINK $8.64 -2.97%
HYPE $28.98 -1.81%
AAVE $122.61 -3.42%
SUI $0.9138 -6.63%
XLM $0.1605 -4.62%
ZEC $260.31 -8.86%
BTC $70,932.69 -3.48%
ETH $2,080.21 -5.03%
BNB $654.62 -3.00%
XRP $1.42 -4.56%
SOL $81.67 -4.53%
TRX $0.2795 -0.47%
DOGE $0.0974 -3.83%
ADA $0.2735 -4.22%
BCH $459.75 -2.43%
LINK $8.64 -2.97%
HYPE $28.98 -1.81%
AAVE $122.61 -3.42%
SUI $0.9138 -6.63%
XLM $0.1605 -4.62%
ZEC $260.31 -8.86%

算力から知能へ:強化学習駆動の分散型AI投資マップ

Summary: 本研究報告では、AIトレーニングパラダイムと強化学習技術の原理を体系的に分解し、強化学習 × Web3の構造的優位性を論証し、Prime Intellect、Gensyn、Nous Research、Gradient、Grail、Fraction AIなどのプロジェクトを分析します。
IOSGベンチャーズ
2025-12-23 00:07:26
コレクション
本研究報告では、AIトレーニングパラダイムと強化学習技術の原理を体系的に分解し、強化学習 × Web3の構造的優位性を論証し、Prime Intellect、Gensyn、Nous Research、Gradient、Grail、Fraction AIなどのプロジェクトを分析します。

?著者:Jacob Zhao,IOSG

人工知能は「パターンフィッティング」を主とする統計学習から「構造化推論」を中心とする能力体系へと移行し、ポストトレーニング(Post-training)の重要性が急速に高まっています。DeepSeek-R1 の登場は、大規模モデル時代における強化学習のパラダイムシフトを象徴し、業界のコンセンサスが形成されました:事前学習はモデルの汎用能力の基盤を構築し、強化学習はもはや価値整合のツールにとどまらず、推論チェーンの質と複雑な意思決定能力を体系的に向上させることが証明され、持続的に知能レベルを向上させる技術的経路へと進化しています。

同時に、Web3は分散型コンピューティングネットワークと暗号インセンティブシステムを通じてAIの生産関係を再構築しており、強化学習のロールアウトサンプリング、報酬信号、検証可能なトレーニングに対する構造的なニーズは、ブロックチェーンの計算協力、インセンティブ配分、検証可能な実行と自然に一致しています。本研究報告では、AIトレーニングのパラダイムと強化学習技術の原理を体系的に分解し、強化学習 × Web3 の構造的優位性を論証し、Prime Intellect、Gensyn、Nous Research、Gradient、Grail、Fraction AI などのプロジェクトを分析します。

一、AIトレーニングの三段階:事前学習、指示微調整とポストトレーニング整合

現代の大規模言語モデル(LLM)のトレーニング全ライフサイクルは通常、三つのコア段階に分けられます:事前学習(Pre-training)、監視微調整(SFT)、ポストトレーニング(Post-training/RL)。三者はそれぞれ「世界モデルの構築---タスク能力の注入---推論と価値観の形成」という機能を担い、その計算構造、データ要求、検証の難易度が分散化のマッチング程度を決定します。

  • 事前学習(Pre-training)は、大規模な自己監督学習(Self-supervised Learning)を通じてモデルの言語統計構造とクロスモーダル世界モデルを構築し、LLMの能力の基盤となります。この段階では、万億級のコーパスを用いてグローバルに同期した方法でトレーニングを行う必要があり、数千から数万のH100の同種クラスターに依存し、コスト比は80-95%に達し、帯域幅とデータ著作権に極めて敏感であるため、高度に集中化された環境で完了する必要があります。

  • 微調整(Supervised Fine-tuning)は、タスク能力と指示フォーマットを注入するために使用され、データ量は少なく、コスト比は約5-15%です。微調整は全パラメータトレーニングを行うことも、パラメータ効率的微調整(PEFT)方法を用いることもでき、その中でLoRA、Q-LoRA、Adapterが業界の主流です。しかし、依然として勾配を同期させる必要があり、そのため分散化の潜在能力は限られています。

  • ポストトレーニング(Post-training)は、複数の反復サブステージで構成され、モデルの推論能力、価値観、安全境界を決定します。その方法には強化学習システム(RLHF、RLAIF、GRPO)や無RLの好み最適化方法(DPO)、プロセス報酬モデル(PRM)などが含まれます。この段階ではデータ量とコストは比較的低く(5-10%)、主にロールアウトとポリシー更新に集中しています;そのため、非同期および分散実行を自然にサポートし、ノードは完全な重みを保持する必要がなく、検証可能な計算とオンチェーンインセンティブを組み合わせることでオープンな分散トレーニングネットワークを形成でき、Web3に最も適したトレーニングセクションとなります。

画像

二、強化学習技術全景:アーキテクチャ、フレームワークと応用

強化学習のシステムアーキテクチャとコアプロセス 強化学習(Reinforcement Learning, RL)は「環境との相互作用---報酬フィードバック---ポリシー更新」によってモデルが自律的に意思決定能力を改善することを駆動し、そのコア構造は状態、行動、報酬、ポリシーから構成されるフィードバックループと見なすことができます。完全なRLシステムは通常、三つのコンポーネントを含みます:Policy(ポリシーネットワーク)、Rollout(経験サンプリング)、Learner(ポリシー更新器)。ポリシーは環境と相互作用して軌跡を生成し、Learnerは報酬信号に基づいてポリシーを更新し、持続的な反復と最適化の学習プロセスを形成します: 画像

  1. ポリシーネットワーク(Policy):環境状態から行動を生成し、システムの意思決定のコアです。トレーニング時には集中型の逆伝播で一貫性を維持する必要があります;推論時には異なるノードに分散して並行して実行できます。

  2. 経験サンプリング(Rollout):ノードはポリシーに基づいて環境との相互作用を実行し、状態---行動---報酬などの軌跡を生成します。このプロセスは高度に並行しており、通信が非常に少なく、ハードウェアの差異に敏感でないため、分散化の中で拡張するのに最も適したセクションです。

  3. 学習器(Learner):すべてのRollout軌跡を集約し、ポリシー勾配更新を実行します。これは計算能力と帯域幅の要求が最も高いモジュールであるため、通常は収束の安定性を確保するために集中型または軽度の集中型デプロイを維持します。

強化学習段階フレームワーク(RLHF → RLAIF → PRM → GRPO) 強化学習は通常、五つの段階に分けられ、全体のプロセスは以下のようになります: 画像 # データ生成段階(Policy Exploration) 与えられた入力プロンプトの条件下で、ポリシーモデル πθ は複数の候補推論チェーンまたは完全な軌跡を生成し、後続の好み評価と報酬モデリングのサンプル基盤を提供し、ポリシー探索の広がりを決定します。 # 好みフィードバック段階(RLHF / RLAIF)

  • RLHF(Reinforcement Learning from Human Feedback)は、複数の候補回答、人工的な好みラベリング、報酬モデル(RM)のトレーニングを通じて、PPOを用いてポリシーを最適化し、モデルの出力が人間の価値観により合致するようにします。これはGPT-3.5からGPT-4への重要な一環です。

  • RLAIF(Reinforcement Learning from AI Feedback)は、AI Judgeまたは憲法的ルールを用いて人工的なラベリングを置き換え、好みの取得を自動化し、コストを大幅に削減し、スケール特性を持つようになり、Anthropic、OpenAI、DeepSeekなどの主流の整合パラダイムとなっています。

# 報酬モデリング段階(Reward Modeling) 好みは入力報酬モデルに対して、出力を報酬にマッピングすることを学びます。RMはモデルに「正しい答えとは何か」を教え、PRMはモデルに「正しい推論を行う方法」を教えます。

  • RM(Reward Model)は最終的な答えの良し悪しを評価するために使用され、出力にスコアを付けます:

  • プロセス報酬モデルPRM(Process Reward Model)は、最終的な答えだけでなく、各推論のステップ、各トークン、各論理セグメントにスコアを付けます。これはOpenAI o1とDeepSeek-R1の重要な技術であり、本質的には「モデルに考え方を教える」ことです。

# 報酬検証段階(RLVR / Reward Verifiability) 報酬信号の生成と使用プロセスに「検証可能な制約」を導入し、報酬が可能な限り再現可能なルール、事実、またはコンセンサスから得られるようにし、報酬ハッキングと偏差リスクを低減し、オープン環境での監査可能性とスケーラビリティを向上させます。 # ポリシー最適化段階(Policy Optimization) 報酬モデルから得られた信号に基づいてポリシーのパラメータ θ を更新し、より強力な推論能力、より高い安全性、より安定した行動パターンのポリシー πθ′ を得ます。主流の最適化方法には以下が含まれます:

  • PPO(Proximal Policy Optimization):RLHFの伝統的なオプティマイザーで、安定性に優れていますが、複雑な推論タスクでは収束が遅く、安定性が不足するなどの制限に直面することがよくあります。

  • GRPO(Group Relative Policy Optimization):DeepSeek-R1のコアイノベーションで、候補回答グループ内の優位性分布をモデル化して期待価値を推定する方法であり、単純なランキングではありません。この方法は報酬の幅の情報を保持し、推論チェーンの最適化に適しており、トレーニングプロセスがより安定しており、PPOの後に深い推論シナリオに向けた重要な強化学習最適化フレームワークと見なされています。

  • DPO(Direct Preference Optimization):強化学習ではないポストトレーニング方法で、軌跡を生成せず、報酬モデルを構築せず、好みの対に対して直接最適化を行います。コストが低く、効果が安定しているため、Llama、Gemmaなどのオープンソースモデルの整合に広く使用されていますが、推論能力を向上させることはありません。

# 新ポリシー展開段階(New Policy Deployment) 最適化されたモデルは、より強力な推論チェーン生成能力(System-2 Reasoning)、人間またはAIの好みにより合致する行動、より低い幻覚率、より高い安全性を示します。モデルは持続的な反復の中で好みを学習し、プロセスを最適化し、意思決定の質を向上させ、閉ループを形成します。 画像 強化学習の産業応用五大分類 強化学習(Reinforcement Learning)は、初期のゲーム知能から産業を超えた自律的意思決定のコアフレームワークへと進化しており、その応用シーンは技術の成熟度と産業の実装度に基づいて五つのカテゴリーに分類され、それぞれの方向で重要な突破を推進しています。

  • ゲームと戦略システム(Game & Strategy):RLが最初に検証された方向であり、AlphaGo、AlphaZero、AlphaStar、OpenAI Fiveなどの「完全情報 + 明確な報酬」の環境において、RLは人間の専門家に匹敵する、あるいはそれを超える意思決定知能を示し、現代のRLアルゴリズムの基盤を築きました。

  • ロボットと具現化知能(Embodied AI):RLは連続制御、ダイナミクスモデリング、環境との相互作用を通じて、ロボットが操作、運動制御、クロスモーダルタスク(RT-2、RT-Xなど)を学習することを可能にし、産業化に向けて急速に進展しており、現実世界のロボット実装の重要な技術ルートとなっています。

  • デジタル推論(Digital Reasoning / LLM System-2):RL + PRMは大モデルを「言語模倣」から「構造化推論」へと推進し、代表的な成果にはDeepSeek-R1、OpenAI o1/o3、Anthropic Claude、AlphaGeometryが含まれます。その本質は推論チェーンのレベルで報酬最適化を行うことであり、最終的な答えを評価するだけではありません。

  • 自動化された科学発見と数学最適化(Scientific Discovery):RLはラベルなし、複雑な報酬、大規模な探索空間の中で最適な構造や戦略を見つけ出し、AlphaTensor、AlphaDev、Fusion RLなどの基礎的な突破を実現し、人間の直感を超える探索能力を示しています。

  • 経済的意思決定と取引システム(Economic Decision-making & Trading):RLは戦略最適化、高次元リスク管理、自適応取引システムの生成に使用され、従来の定量モデルよりも不確実な環境で持続的に学習することができ、インテリジェントファイナンスの重要な構成要素となっています。

三、強化学習とWeb3の天然のマッチング

強化学習(RL)とWeb3の高度な適合は、両者が本質的に「インセンティブ駆動システム」であることに起因しています。RLは報酬信号に依存してポリシーを最適化し、ブロックチェーンは経済的インセンティブによって参加者の行動を調整します。このため、両者はメカニズムのレベルで自然に一致しています。RLのコアニーズ------大規模な異種ロールアウト、報酬配分、真実性検証------は、まさにWeb3の構造的優位性に他なりません。 # 推論とトレーニングのデカップリング 強化学習のトレーニングプロセスは明確に二つの段階に分けることができます:

  • ロールアウト(探索サンプリング):モデルは現在のポリシーに基づいて大量のデータを生成し、計算集約型だが通信が疎なタスクです。ノード間で頻繁な通信を必要とせず、世界中に分散した消費者向けGPU上で並行生成するのに適しています。

  • アップデート(パラメータ更新):収集したデータに基づいてモデルの重みを更新する必要があり、高帯域幅の集中型ノードで完了します。

「推論---トレーニングのデカップリング」は、分散型の異種計算構造に自然に適合します:ロールアウトはオープンネットワークにアウトソースでき、トークンメカニズムにより貢献に応じて決済され、モデル更新は集中化を維持して安定性を確保します。 # 検証可能性(Verifiability) ZKとProof-of-Learningは、ノードが実際に推論を実行したかどうかを検証する手段を提供し、オープンネットワークにおける誠実性の問題を解決します。コード、数学的推論などの決定的なタスクにおいて、検証者は答えをチェックするだけで作業量を確認でき、分散型RLシステムの信頼性を大幅に向上させます。 # インセンティブ層、トークン経済に基づくフィードバック生成メカニズム Web3のトークンメカニズムは、RLHF/RLAIFの好みフィードバックの貢献者に直接報酬を与え、好みデータ生成に透明で決済可能、許可不要のインセンティブ構造を持たせます;ステーキングとスラッシング(Staking/Slashing)はフィードバックの質をさらに制約し、従来のクラウドソーシングよりも効率的で整合性のあるフィードバック市場を形成します。 # マルチエージェント強化学習(MARL)の潜在能力 ブロックチェーンは本質的に公開され、透明で、持続的に進化するマルチエージェント環境であり、アカウント、契約、エージェントはインセンティブ駆動の下で戦略を調整し続け、大規模なMARL実験場を構築する潜在能力を自然に持っています。まだ初期段階ですが、その状態の公開、実行の検証可能性、インセンティブのプログラム可能性は、将来のMARLの発展に原則的な優位性を提供します。

四、クラシックWeb3 + 強化学習プロジェクトの解析

上記の理論フレームワークに基づき、現在のエコシステムで最も代表的なプロジェクトを簡単に分析します: Prime Intellect: 非同期強化学習パラダイム prime-rl Prime Intellectは、グローバルなオープンコンピューティング市場を構築し、トレーニングのハードルを下げ、協力的な分散トレーニングを推進し、完全なオープンソースのスーパーインテリジェンス技術スタックを発展させることを目指しています。その体系には、Prime Compute(統一されたクラウド/分散コンピューティング環境)、INTELLECTモデルファミリー(10B--100B+)、オープン強化学習環境センター(Environments Hub)、および大規模合成データエンジン(SYNTHETIC-1/2)が含まれます。

Prime Intellectのコアインフラストラクチャコンポーネントであるprime-rlフレームワークは、非同期分散環境に特化して設計されており、強化学習と高度に関連しています。他には、帯域幅のボトルネックを突破するOpenDiLoCo通信プロトコル、計算の完全性を保証するTopLoc検証メカニズムなどがあります。 # Prime Intellectのコアインフラストラクチャコンポーネント一覧 画像 # 技術基盤:prime-rl非同期強化学習フレームワーク prime-rlはPrime Intellectのコアトレーニングエンジンであり、大規模な非同期分散環境のために設計されており、Actor--Learnerの完全なデカップリングを実現し、高スループットの推論と安定した更新を実現します。実行者(Rollout Worker)と学習者(Trainer)はもはや同期的にブロックされず、ノードはいつでも参加または退出でき、最新のポリシーを引き続き取得し、生成データをアップロードするだけで済みます: 画像

  • 実行者Actor(Rollout Workers):モデル推論とデータ生成を担当します。Prime Intellectは革新的にActor側にvLLM推論エンジンを統合しました。vLLMのPagedAttention技術と連続バッチ処理(Continuous Batching)能力により、Actorは非常に高いスループットで推論軌跡を生成できます。

  • 学習者Learner(Trainer):ポリシー最適化を担当します。Learnerは共有の経験リプレイバッファ(Experience Buffer)から非同期にデータを引き出して勾配更新を行い、すべてのActorが現在のバッチを完了するのを待つ必要はありません。

  • コーディネーター(Orchestrator):モデルの重みとデータフローのスケジューリングを担当します。

# prime-rlの重要な革新点

  • 完全非同期(True Asynchrony):prime-rlは従来のPPOの同期パラダイムを排除し、遅いノードを待たず、バッチの整列を必要とせず、任意の数と性能のGPUがいつでも接続できるようにし、分散型RLの実現可能性を確立します。

  • FSDP2とMoEの深い統合:FSDP2パラメータスライスとMoEスパースアクティベーションを通じて、prime-rlは百億レベルのモデルを分散環境で効率的にトレーニングし、Actorはアクティブな専門家のみを実行し、メモリと推論コストを大幅に削減します。

  • GRPO+(Group Relative Policy Optimization):GRPOはCriticネットワークを免除し、計算とメモリのオーバーヘッドを大幅に削減し、非同期環境に自然に適合します。prime-rlのGRPO+は、安定化メカニズムを通じて高遅延条件下での信頼性のある収束を確保します。

# INTELLECTモデルファミリー:分散RL技術の成熟度の指標

  • INTELLECT-1(10B、2024年10月)は、OpenDiLoCoが三大陸に跨る異種ネットワークで効率的にトレーニングできることを初めて証明しました(通信比率<2%、計算利用率98%)、地域を超えたトレーニングの物理的認識を打破しました;

  • INTELLECT-2(32B、2025年4月)は、最初のPermissionless RLモデルとして、prime-rlとGRPO+が多段階遅延、非同期環境での安定収束能力を検証し、グローバルなオープンコンピューティング参加を実現しました;

  • INTELLECT-3(106B MoE、2025年11月)は、12Bのパラメータのみをアクティブにするスパースアーキテクチャを採用し、512×H200でトレーニングを行い、フラッグシップ級の推論性能(AIME 90.8%、GPQA 74.4%、MMLU-Pro 81.9%など)を実現し、全体的なパフォーマンスは自身よりもはるかに大きな集中型クローズドモデルに迫るか、超えるものとなっています。

Prime Intellectはさらに、いくつかの支援的なインフラストラクチャを構築しました:OpenDiLoCoは時間的に疎な通信と量子化された重みの差を通じて、地域を超えたトレーニングの通信量を数百倍に削減し、INTELLECT-1が三大陸ネットワークで98%の利用率を維持できるようにしました;TopLoc + Verifiersは、信頼できる実行層を形成し、アクティブなフィンガープリンとサンドボックス検証を通じて推論と報酬データの真実性を確保します;SYNTHETICデータエンジンは、大規模で高品質な推論チェーンを生成し、パイプライン並行処理を通じて671Bモデルを消費者向けGPUクラスター上で効率的に実行します。これらのコンポーネントは、分散型RLのデータ生成、検証、推論スループットにおいて重要なエンジニアリング基盤を提供します。INTELLECTシリーズは、この技術スタックが成熟した世界級モデルを生成できることを証明し、分散トレーニングシステムが概念段階から実用段階に移行したことを示しています。 Gensyn:強化学習コアスタックRL SwarmとSAPO Gensynの目標は、世界中の未使用の計算能力を集約し、オープンで信頼不要、無限にスケーラブルなAIトレーニングインフラを構築することです。そのコアには、デバイス間の標準化された実行層、ピアツーピア調整ネットワーク、信頼不要のタスク検証システムが含まれ、スマートコントラクトを通じて自動的にタスクと報酬を配分します。強化学習の特性に基づいて、GensynはRL Swarm、SAPO、SkipPipeなどのコアメカニズムを導入し、生成、評価、更新の三つのプロセスをデカップリングし、世界中の異種GPUで構成された「群れ」による集団進化を実現します。最終的に提供されるのは単なる計算能力ではなく、検証可能な知能(Verifiable Intelligence)です。 # Gensynスタックの強化学習応用 画像 # RL Swarm:分散型協力強化学習エンジン RL Swarmは新しい協力モデルを示しています。それは単なるタスクの配布ではなく、人間社会の学習を模倣した分散型の「生成---評価---更新」サイクルであり、協力的な学習プロセスに類似しています。

  • Solvers(実行者):ローカルモデル推論とロールアウト生成を担当し、ノードの異種性は問題ありません。Gensynはローカルに高スループット推論エンジン(CodeZeroなど)を統合し、完全な軌跡を出力できます。

  • Proposers(出題者):タスク(数学問題、コード問題など)を動的に生成し、タスクの多様性とカリキュラム学習の難易度適応をサポートします。

  • Evaluators(評価者):凍結された「裁判モデル」またはルールを使用してローカルロールアウトを評価し、ローカル報酬信号を生成します。評価プロセスは監査可能であり、悪用の余地を減少させます。

三者は共同でP2PのRL組織構造を形成し、集中型の調整なしで大規模な協力学習を完了します。 画像 # SAPO:分散型に再構築されたポリシー最適化アルゴリズム SAPO(Swarm Sampling Policy Optimization)は「ロールアウトを共有し、勾配信号のないサンプルをフィルタリングする」ことを核心に、大規模な分散型ロールアウトサンプリングを行い、受け取ったロールアウトをローカル生成と見なすことで、中央調整なし、ノードの遅延差が顕著な環境でも安定した収束を維持します。Criticネットワークに依存し、計算コストが高いPPOや、グループ内の優位性推定に基づくGRPOと比較して、SAPOは非常に低い帯域幅で消費者向けGPUも大規模な強化学習最適化に効果的に参加させることができます。

RL SwarmとSAPOを通じて、Gensynは強化学習(特にポストトレーニング段階のRLVR)が分散型アーキテクチャに自然に適合することを証明しました------なぜなら、それは大規模で多様な探索(ロールアウト)に依存し、頻繁なパラメータ同期には依存しないからです。PoLとVerdeの検証システムを組み合わせることで、Gensynは万億級パラメータモデルのトレーニングにおいて、単一のテクノロジー大手に依存しない代替経路を提供します:世界中の数百万の異種GPUで構成された自己進化するスーパーインテリジェンスネットワークです。 Nous Research:検証可能な強化学習環境Atropos Nous Researchは、分散型で自己進化する認知インフラを構築しています。そのコアコンポーネント------Hermes、Atropos、DisTrO、Psyche、World Simは、持続的な閉ループの知能進化システムとして組織されています。従来の「事前学習---ポストトレーニング---推論」の線形プロセスとは異なり、NousはDPO、GRPO、拒否サンプリングなどの強化学習技術を採用し、データ生成、検証、学習、推論を連続的なフィードバックループとして統一し、持続的に自己改善する閉ループAIエコシステムを構築しています。 # Nous Researchコンポーネント総覧 画像 # モデル層:Hermesと推論能力の進化 HermesシリーズはNous Researchのユーザー向け主要モデルインターフェースであり、その進化は業界が従来のSFT/DPO整合から推論強化学習(Reasoning RL)へ移行するパスを明確に示しています:

  • Hermes 1--3:指示整合と初期エージェント能力:Hermes 1--3は低コストのDPOを利用して堅牢な指示整合を達成し、Hermes 3では合成データと初めて導入されたAtropos検証メカニズムを活用しています。

  • Hermes 4 / DeepHermes:思考チェーンを用いてSystem-2スタイルのスロース思考を重みとして書き込み、Test-Time Scalingを通じて数学とコードの性能を向上させ、「拒否サンプリング + Atropos検証」を依存して高純度の推論データを構築します。

  • DeepHermesはさらにGRPOを採用し、分散型での実装が難しいPPOを置き換え、推論RLがPsycheの分散型GPUネットワーク上で実行できるようにし、オープンソース推論RLのスケーラビリティのエンジニアリング基盤を確立します。

# Atropos:検証可能な報酬駆動の強化学習環境 AtroposはNous RLシステムの真のハブです。これはプロンプト、ツール呼び出し、コード実行、複数回の相互作用を標準化されたRL環境にカプセル化し、出力が正しいかどうかを直接検証できるようにし、決定的な報酬信号を提供します。これにより、高価でスケーラブルでない人間のラベリングを代替します。さらに重要なのは、分散型トレーニングネットワークPsycheの中で、Atroposは「裁判官」として機能し、ノードが実際にポリシーを向上させたかどうかを検証し、監査可能なProof-of-Learningをサポートし、分散型RLにおける報酬の信頼性の問題を根本的に解決します。 画像 # DisTrOとPsyche:分散型強化学習のオプティマイザー層 従来のRLF(RLHF/RLAIF)トレーニングは集中型の高帯域幅クラスターに依存しており、これはオープンソースでは再現できないコアバリアです。DisTrOはモメンタムデカップリングと勾配圧縮を通じて、RLの通信コストを数桁削減し、トレーニングがインターネット帯域幅で実行できるようにします;Psycheはこのトレーニングメカニズムをチェーン上のネットワークにデプロイし、ノードがローカルで推論、検証、報酬評価、重み更新を完了できるようにし、完全なRL閉ループを形成します。

Nousの体系において、Atroposは思考チェーンを検証し、DisTrOはトレーニング通信を圧縮し、PsycheはRLサイクルを実行し、World Simは複雑な環境を提供し、Forgeは実際の推論を収集し、Hermesはすべての学習を重みに書き込みます。強化学習は単なるトレーニング段階ではなく、Nousアーキテクチャにおいてデータ、環境、モデル、インフラを接続するコアプロトコルであり、Hermesをオープンソース計算ネットワーク上で持続的に自己改善する生きたシステムにします。 Gradient Network:強化学習アーキテクチャEcho Gradient Networkのコアビジョンは、「オープンインテリジェンスプロトコルスタック」(Open Intelligence Stack)を通じてAIの計算パラダイムを再構築することです。Gradientの技術スタックは、一連の独立して進化し、異種協調するコアプロトコルで構成されています。その体系は、基盤通信から上層の知能協力に至るまで、Parallax(分散推論)、Echo(分散型RLトレーニング)、Lattica(P2Pネットワーク)、SEDM / Massgen / Symphony / CUAHarm(記憶、協力、安全)、VeriLLM(信頼できる検証)、Mirage(高忠実度シミュレーション)を順に含み、持続的に進化する分散型知能基盤を形成します。 画像 Echo --- 強化学習トレーニングアーキテクチャ EchoはGradientの強化学習フレームワークであり、そのコアデザイン理念は強化学習におけるトレーニング、推論、データ(報酬)パスをデカップリングし、ロールアウト生成、ポリシー最適化、報酬評価が異種環境で独立して拡張およびスケジューリングできるようにすることです。推論側とトレーニング側

warnning リスク警告
app_icon
ChainCatcher Building the Web3 world with innovations.