なぜマルチモーダルなモジュール化はWeb3AIの錯覚なのか?Web3AIはなぜ農村が都市を包囲するという戦術を掲げているのか?
作者: @BlazingKevin_ ,Movemakerの研究者
NVIDIAは静かにDeepseekによる全ての下落幅を回復し、再び新高値に達しました。マルチモーダルモデルの進化は混乱をもたらすことはなく、むしろWeb2 AIの技術的障壁を深めました------意味的整合から視覚理解、高次元埋め込みから特徴融合まで、複雑なモデルは前例のない速度で様々なモダリティの表現方法を統合し、ますます閉鎖的なAIの高地を構築しています。米国株市場も足で投票し、暗号通貨株やAI株が小さなブルマーケットを形成しています。しかし、この熱波は暗号通貨とは全く関係ありません。私たちが見ているWeb3 AIの試み、特に最近数ヶ月のエージェント方向の進化は、方向性がほぼ完全に誤っています:一方的に分散型構造を用いてWeb2スタイルのマルチモーダルモジュラーシステムを組み立てようとすることは、実際には技術と考え方の二重のズレを意味します。モジュールの結合性が非常に強く、特徴分布が高度に不安定で、計算能力の需要がますます集中している今日、Web3におけるマルチモーダルモジュラーは全く成立しません。私たちが指摘したいのは、Web3 AIの未来は模倣ではなく、戦略的迂回にあるということです。高次元空間の意味的整合から、注意メカニズムにおける情報ボトルネック、異種計算能力下の特徴整合まで、私は一つ一つ展開し、なぜWeb3 AIが「農村包囲都市」を戦術的な指針とすべきかを説明します。
Web3 AIはフラットなマルチモーダルモデルに基づいており、意味的整合ができないため性能が低下する
現代のWeb2 AIのマルチモーダルシステムにおいて、「意味的整合」とは、異なるモダリティ(画像、テキスト、音声、動画など)からの情報を同じ、または相互に変換可能な意味空間にマッピングすることを指します。これにより、モデルはこれらの本来異なる形式の信号の背後にある内在的な意味を理解し、比較できるようになります。例えば、一枚の猫の写真と「a cute cat」という文では、モデルは高次元埋め込み空間でそれらを互いに近い位置に投影する必要があります。そうすることで、検索、生成、推論の際に「画像を見て話す」「音を聞いて映像を連想する」ことが可能になります。
高次元埋め込み空間を実現する前提の下で、ワークフローを異なるモジュールに分けることはコスト削減と効率向上の意味を持ちます。しかし、Web3エージェントプロトコルでは、高次元埋め込みを実現できません。なぜなら、モジュール化はWeb3 AIの幻想だからです。
高次元埋め込み空間を理解するにはどうすればよいでしょうか?最も直感的なレベルでは、「高次元埋め込み空間」を座標系として想像してください------平面上のx-y座標のように、一対の数字で点を特定できます。ただし、私たちが一般的に見る二次元平面では、1つの点は2つの数(x, y)によって完全に決定されますが、「高次元」空間では、各点をより多くの数字で記述する必要があります。128個、512個、さらには千個以上の数字かもしれません。
浅くから深く、3つのステップで理解します:
- 二次元の例:
- 地図上でいくつかの都市の座標をマークしたと想像してください。例えば北京(116.4, 39.9)、上海(121.5, 31.2)、広州(113.3, 23.1)。ここで、各都市は「二次元埋め込みベクトル」に対応します:二次元座標が地理的位置情報を数字にエンコードしています。
- 都市間の「類似度」を測定したい場合------地図上で近い距離にある都市は同じ経済圏や気候圏にあることが多い------それらの座標のユークリッド距離を直接比較できます。
- 多次元への拡張:
- さて、地理空間の位置を記述するだけでなく、いくつかの「気候特性」(平均気温、降水量)や「人口特性」(人口密度、GDP)を加えたいと仮定します。各都市に5、10、さらにはそれ以上の次元を含むベクトルを割り当てることができます。
- 例えば、広州の5次元ベクトルは[113.3, 23.1, 24.5, 1700, 14.5]で、経度、緯度、平均気温、年間降水量(ミリメートル)、経済指数をそれぞれ表します。この「多次元空間」は、地理、気候、経済などの複数の次元で都市を同時に比較することを可能にします:もし2つの都市のベクトルが非常に近いなら、それはそれらがこれらの属性において非常に似ていることを意味します。
- 意味に切り替える------なぜ「埋め込む」必要があるのか:
- 自然言語処理(NLP)やコンピュータビジョンにおいても、「単語」、「文」、または「画像」をこのような多次元ベクトルにマッピングしたいと考えています。これにより「類似の意味を持つ」単語や画像が空間で近くに配置されます。このマッピングプロセスを「埋め込み」(embedding)と呼びます。
- 例:私たちはモデルを訓練し、「cat」(猫)を300次元ベクトルv₁にマッピングし、「dog」(犬)を別のベクトルv₂にマッピングし、「無関係な」単語である「economy」(経済)をv₃にマッピングします。この300次元空間では、v₁とv₂の距離は非常に小さく(なぜならそれらは動物であり、類似の言語環境で頻繁に出現するからです)、v₁とv₃の距離は非常に大きくなります。
- モデルが膨大なテキストや画像-テキストペアで訓練されるにつれて、学習した各次元は「経度」や「緯度」のような可解釈の属性に直接対応するわけではなく、ある種の「潜在的な意味的特徴」を表します。ある次元は「動物 vs. 非動物」という粗い粒度の区分を捉え、別の次元は「飼い慣らされた vs. 野生」を区別し、さらに別の次元は「可愛い vs. 威厳」の感覚に対応するかもしれません……要するに、数百から数千の次元が共同で機能し、様々な複雑で交錯した意味の層をエンコードすることができるのです。
高次元と低次元の違いは何でしょうか?十分な次元があれば、多様で相互に絡み合った意味的特徴を収容でき、ただ高次元だけがそれらを各自の意味的次元でより明確に位置づけることができます。 意味が区別できない、つまり意味的整合ができないとき、低次元空間では異なる信号が相互に「押し合い」、モデルが検索や分類の際に頻繁に混乱を引き起こし、正確性が大幅に低下します。次に、戦略生成段階では微細な差異を捉えることが難しく、重要な取引信号を見逃したり、リスク閾値を誤って判断したりすることが容易になり、直接的に収益パフォーマンスを引きずり下げます。さらに、モジュール間の協調が不可能になり、各エージェントがそれぞれ独自に行動し、情報の孤島現象が深刻化し、全体の応答遅延が増大し、ロバスト性が低下します。最後に、複雑な市場シナリオに直面した場合、低次元構造はほとんど多源データを収容する容量がなく、システムの安定性と拡張性を保証することが難しく、長期的な運用は必然的に性能のボトルネックと維持の困難に陥り、製品の実績が最初の想定から大きく乖離することになります。
では、Web3 AIやエージェントプロトコルは高次元埋め込み空間を実現できるのでしょうか?まず、高次元空間がどのように実現されるのかを答えます。従来の意味での「高次元」は、各サブシステム------市場情報、戦略生成、実行、リスク管理------がデータ表現と意思決定プロセスにおいて相互に整合し、相補的な利益を持つことを要求します。しかし、多くのWeb3エージェントは、既存のAPI(CoinGecko、DEXインターフェースなど)をそれぞれ独立した「エージェント」として封装するだけで、統一された中枢埋め込み空間やクロスモジュールの注意メカニズムが欠如しているため、情報がモジュール間で多角的かつ多層的に相互作用することができず、線形の流れに沿って進むしかなく、単一の機能を示すだけで、全体の閉ループ最適化を形成することができません。
多くのエージェントは外部インターフェースを直接呼び出し、インターフェースからの返却データに対して十分な微調整や特徴エンジニアリングを行っていません。例えば、市場分析エージェントは単に価格と取引量を取得し、取引実行エージェントはインターフェースパラメータに従って注文を出し、リスク管理エージェントは数値の閾値に基づいて警告を出すだけです。それぞれの役割を果たしていますが、同じリスクイベントや市場信号に対するマルチモーダルの融合と深い意味理解が欠如しているため、システムは極端な市場状況やクロスアセットの機会に直面した際に、迅速に包括的かつ多角的な戦略を生成することができません。
したがって、Web3 AIが高次元空間を実現することを求めることは、エージェントプロトコルが関与するすべてのAPIインターフェースを自ら開発することを求めることに等しく、これはそのモジュール化の初志に反します。Web3 AIにおける中小企業が描くモジュラーなマルチモーダルシステムは、検証に耐えないものです。高次元アーキテクチャはエンドツーエンドの統一訓練または協調最適化を要求します:信号捕捉から戦略演算、実行とリスク管理に至るまで、すべての段階が同じ表現と損失関数を共有します。Web3エージェントの「モジュールはプラグインである」という考え方は、むしろ断片化を悪化させます------各エージェントのアップグレード、デプロイ、パラメータ調整はそれぞれのサイロ内で行われ、同期的なイテレーションが難しく、効果的な集中監視とフィードバックメカニズムが欠如し、維持コストが急増し、全体の性能が制限されます。
業界の壁を持つ全リンクインテリジェントエージェントを実現するには、エンドツーエンドの共同モデリング、クロスモジュールの統一埋め込み、協調訓練とデプロイのシステム化されたエンジニアリングが必要です。しかし、現在の市場にはそのような痛点は存在せず、当然ながら市場の需要もありません。
低次元空間では、注意メカニズムは精密に設計できない
高レベルのマルチモーダルモデルには、精密な注意メカニズムの設計が必要です。 「注意メカニズム」は本質的に計算リソースを動的に配分する方法であり、モデルが特定のモダリティ入力を処理する際に、最も関連性の高い部分に選択的に「焦点を当てる」ことを可能にします。最も一般的なのは、Transformerにおける自己注意(self-attention)とクロス注意(cross-attention)メカニズムです:自己注意は、モデル内部でシーケンス内の各要素間の依存関係を測定できるようにし、テキスト内の各単語と他の単語の重要性を評価します;クロス注意は、あるモダリティの情報(例えばテキスト)が別のモダリティ(例えば画像の特徴シーケンス)をデコードまたは生成する際に「どの画像特徴を見るか」を決定します。マルチヘッド注意(multi-head attention)を通じて、モデルは異なるサブスペースで同時に多様な整合方法を学習し、より複雑で細かい関連を捉えることができます。
注意メカニズムが機能する前提は、マルチモーダルが高次元であることです。高次元空間では、精密な注意メカニズムが最短時間で膨大な高次元空間から最も核心的な部分を見つけることができます。注意メカニズムが高次元空間で機能する理由を説明する前に、まずTransformerデコーダーを代表とするWeb2 AIが注意メカニズムを設計する際のプロセスを理解します。核心的な考え方は、シーケンス(テキスト、画像パッチ、音声フレーム)を処理する際に、モデルが各要素に動的に「注意重み」を配分し、最も関連性の高い情報に焦点を当てることです。
簡単に言えば、注意メカニズムを車に例えるなら、Query-Key-Valueの設計はエンジンの設計です。 Q-K-Vは、私たちが重要な情報を特定するのを助けるメカニズムであり、Queryは「何を探しているか」、Keyは「どのようなラベルがあるか」、Valueは「ここに何があるか」を指します。マルチモーダルモデルにとって、モデルに入力する内容は一文であったり、一枚の画像であったり、一段の音声であったりします。必要な内容を次元空間で検索するために、これらの入力は最小単位に切り分けられます。例えば、1文字、一定のピクセルサイズの小さなブロック、または音声フレームなどです。マルチモーダルモデルは、これらの最小単位に対してQuery、Key、Valueを生成し、注意計算を行います。モデルがある位置を処理する際、その位置のQueryを使ってすべての位置のKeyと比較し、どのラベルが現在のニーズに最も一致するかを判断します。そして、マッチングの程度に基づいて、対応する位置からValueを抽出し、重要性に応じて加重結合し、最終的に自身の情報を含みつつ全体の関連内容を統合した新しい表現を得ます。こうして、各出力は文脈に応じて動的に「質問---検索---統合」を行い、高効率かつ精密な情報の焦点を実現します。
このエンジンの基盤の上に、さまざまな部品を追加し、「全体的な相互作用」と「制御可能な複雑さ」を巧妙に組み合わせます:スケーリング点積は数値の安定性を保証し、マルチヘッド並列は表現を豊かにし、位置エンコーディングはシーケンスの順序を保持し、スパース変種は効率を考慮し、残差と正規化は安定した訓練を助け、クロス注意はマルチモーダルを通じて接続します。これらのモジュール化された層層の設計により、Web2 AIはさまざまなシーケンスやマルチモーダルタスクを処理する際に、強力な学習能力を持ちながら、許容できる計算能力の範囲内で効率的に動作します。
なぜモジュール化に基づくWeb3 AIは統一された注意スケジューリングを実現できないのでしょうか?まず、注意メカニズムは統一されたQuery-Key-Value空間に依存しており、すべての入力特徴は同じ高次元ベクトル空間にマッピングされなければならず、点積計算を通じて動的重みを計算することができます。しかし、独立したAPIはそれぞれ異なる形式、異なる分布のデータ------価格、注文状態、閾値警告------を返すため、統一された埋め込み層がないと、相互作用可能なQ/K/Vのセットを形成することができません。次に、マルチヘッド注意は同じ層で異なる情報源に同時に注目し、結果を集約することを許可しますが、独立したAPIはしばしば「Aを呼び出し、その後Bを呼び出し、次にCを呼び出す」という形になり、各ステップの出力は次のモジュールの入力に過ぎず、並行して多様な動的加重の能力が欠如しているため、注意メカニズムにおけるすべての位置またはすべてのモダリティを同時に評価し、統合するような精密なスケジューリングを模倣することはできません。最後に、真の注意メカニズムは全体の文脈に基づいて各要素に動的に重みを配分しますが、APIモードでは、モジュールは自分が呼び出されたときの「独立した」文脈しか見ることができず、リアルタイムで共有される中枢文脈がないため、モジュール間の全体的な関連性と焦点を実現することができません。
したがって、さまざまな機能を離散的なAPIとして封装するだけでは------共通のベクトル表現がなく、並行加重と集約がないため、Transformerのような「統一された注意スケジューリング」能力を構築することはできません。これは、性能の低いエンジンを持つ車がどんなに改造しても上限を引き上げることが難しいのと同じです。
離散型のモジュール化の寄せ集めは、特徴融合を浅い静的な接続に留める
「特徴融合」は、整合と注意の基礎の上に、異なるモダリティから得られた特徴ベクトルをさらに組み合わせて、下流タスク(分類、検索、生成など)で直接使用できるようにすることです。融合手法は、単純な接続や加重和から、双線形プーリング、テンソル分解、さらには動的ルーティング技術に至るまで、さまざまにあります。より高次の方法は、多層ネットワーク内で整合、注意、融合を交互に行ったり、グラフニューラルネットワーク(GNN)を通じてクロスモーダル特徴間により柔軟なメッセージ伝達経路を構築したりして、情報の深い相互作用を実現します。
言うまでもなく、Web3 AIは当然最も単純な接続の段階に留まっています。動的特徴融合の前提は高次元空間と精密な注意メカニズムであり、これらの前提条件が整わない限り、最終段階の特徴融合も優れた性能を発揮することはできません。
Web2 AIはエンドツーエンドの共同訓練を好みます:同じ高次元空間内で画像、テキスト、音声などすべてのモダリティ特徴を同時に処理し、注意層と融合層が下流タスク層と協調して最適化を行い、モデルは前向きおよび後ろ向きの伝播の中で最適な融合重みと相互作用方法を自動的に学習します。一方、Web3 AIは、画像認識、マーケットデータ取得、リスク評価などのさまざまなAPIを独立したエージェントとして封装し、それぞれの出力ラベル、数値、または閾値警告を単純に接続し、主線ロジックまたは人間によって総合的な決定を行うという離散モジュールの寄せ集めの方法を多く採用しています。この方法は、統一された訓練目標が欠如しており、モジュール間の勾配の流動もありません。
Web2 AIでは、システムは注意メカニズムに依存し、文脈に応じて各種特徴の重要性スコアをリアルタイムで計算し、融合戦略を動的に調整することができます。マルチヘッド注意は同じレベルで多様な特徴の相互作用パターンを並行して捉えることができ、局所的な詳細と全体的な意味を両立させます。一方、Web3 AIはしばしば「画像×0.5 + テキスト×0.3 + 価格×0.2」といった重みを事前に固定したり、単純なif/elseルールを用いて融合するかどうかを判断したりします。あるいは、まったく融合を行わず、各モジュールの出力をそのまま提示するだけで、柔軟性が欠如しています。
Web2 AIはすべてのモダリティ特徴を数千次元の高次元空間にマッピングし、融合プロセスは単なるベクトルの接続だけでなく、加算、双線形プーリングなどの多様な高次の相互作用操作を含みます------各次元は潜在的な意味に対応する可能性があり、モデルは深層で複雑なクロスモーダルの関連を捉えることができます。それに対して、Web3 AIの各エージェントの出力はしばしば数個の重要なフィールドや指標しか含まず、特徴次元が非常に低く、「画像内容とテキスト意味がなぜ一致するのか」や「価格変動と感情動向の微妙な関連」といった繊細な情報をほとんど表現できません。
Web2 AIでは、下流タスクの損失が注意層と融合層を通じてモデルの各部分に継続的にフィードバックされ、どの特徴を強化または抑制すべきかを自動的に調整し、閉ループ最適化を形成します。これに対してWeb3 AIは、API呼び出しの結果が報告された後、多くの場合人工または外部プロセスに依存して評価やパラメータ調整を行い、自動化されたエンドツーエンドのフィードバックが欠如しているため、融合戦略のオンラインでのイテレーションや最適化が難しくなります。
AI業界の壁が深まっていますが、痛点はまだ現れていません
エンドツーエンドの訓練において、クロスモーダル整合、精密な注意計算、高次元特徴融合を同時に考慮する必要があるため、Web2 AIのマルチモーダルシステムはしばしば非常に大規模なプロジェクトになります。それは、膨大で多様かつ精密にラベル付けされたクロスモーダルデータセットが必要であり、数千のGPUを数週間または数ヶ月にわたって訓練する必要があります。また、モデルアーキテクチャには、さまざまな最新のネットワーク設計理念や最適化技術が融合されており、エンジニアリングの実現においては、拡張可能な分散訓練プラットフォーム、監視システム、モデルバージョン管理とデプロイのパイプラインを構築する必要があります。アルゴリズムの研究開発においては、より効率的な注意の変種、よりロバストな整合損失、より軽量な融合戦略を継続的に研究する必要があります。このような全リンク、全スタックのシステム的な作業は、資金、データ、計算能力、人材、さらには組織の協調に対する要求が非常に高いため、強力な業界の壁を形成し、現在までに少数の先進チームが掌握するコア競争力を生み出しています。
私は4月に中国語のAIアプリケーションを振り返り、WEB3 AIと比較する際に次のような見解を述べました:壁が非常に強い産業において、暗号通貨は突破口を実現する可能性がある。つまり、ある産業が伝統的市場で非常に成熟しているが、巨大な痛点が現れると、成熟度が高いことはユーザーが類似のビジネスモデルに十分に慣れていることを意味し、痛点が大きいことはユーザーが新しい解決策を試す意欲があることを意味する。つまり、暗号通貨に対する受け入れ意欲が強いことを示し、両者は欠かせない。逆に言えば、伝統的市場で非常に成熟しているが、巨大な痛点が現れない産業では、暗号通貨は根付くことができず、生存空間はない。ユーザーがそれを十分に理解しようとする意欲は低く、その潜在的な上限についても理解が得られない。
WEB3 AIやPMFの旗を掲げる暗号製品は、「農村包囲都市」の戦術で発展する必要があります。まず、周辺の陣地で小規模に試水し、基盤がしっかりしてから、核心シナリオ、つまり目標都市の出現を待つべきです。Web3 AIの核心は去中心化にあり、その進化の道筋は高並列、低結合、異種計算能力の互換性を反映しています。 これにより、Web3 AIはエッジコンピューティングなどのシナリオでより優位性を持ち、軽量構造、容易に並列化でき、インセンティブを与えられるタスクに適しています。例えば、LoRA微調整、行動整合の後訓練タスク、クラウドソーシングデータの訓練とラベリング、小型基盤モデルの訓練、エッジデバイスの協調訓練などです。これらのシナリオの製品アーキテクチャは軽量で、ロードマップは柔軟にイテレーション可能です。しかし、これは今がチャンスであるという意味ではありません。なぜなら、WEB2 AIの壁はまだ形成の初期段階にあり、Deepseekの出現はむしろマルチモーダル複雑タスクAIの進歩を刺激しました。これはトップ企業の競争であり、WEB2 AIの利益が現れる初期段階です。私は、WEB2 AIの利益がほぼ消失する時に、それが残した痛点がWEB3 AIの切り込む機会になると考えています。初期のDeFiが誕生したように、時間が来る前に、WEB3 AIの自創痛点は次々と市場に登場し、私たちはその中で「農村包囲都市」のプロトコルが、力が弱く市場の根付くシナリオが少ない農村(または小市場、小シナリオ)から足場を固め、徐々に資源と経験を蓄積できるかどうかを注意深く見極める必要があります。また、点面結合、環状推進ができるかどうか、十分に小さな応用シナリオで継続的にイテレーションし、製品を更新できるかどうかも確認する必要があります。もしこれができなければ、その基盤の上でPMFを頼りに100億ドルの時価総額を実現することは非常に困難であり、そのようなプロジェクトは関心リストには載らないでしょう。持久戦と柔軟な機動ができるかどうかも重要です。WEB2 AIの潜在的な壁は動的に変化しており、それに対応する潜在的な痛点も進化しています。私たちはWEB3 AIプロトコルが十分な柔軟性を持ち、異なるシナリオに応じて柔軟に方向転換でき、農村間を迅速に移動し、最速で目標都市に近づけるかどうかに注目する必要があります。もしプロトコル自体がインフラに過度に依存し、ネットワークアーキテクチャが巨大であれば、淘汰される可能性が非常に高いです。
Movemakerについて
Movemakerは、Aptos財団によって認可され、AnkaaとBlockBoosterが共同で発起した最初の公式コミュニティ組織であり、Aptosの華語圏エコシステムの構築と発展を推進することに特化しています。Aptosの華語圏における公式代表として、Movemakerは開発者、ユーザー、資本、そして多くのエコシステムパートナーをつなぐことで、多様でオープンで繁栄したAptosエコシステムを構築することを目指しています。
免責事項:
この記事/ブログは参考のためのものであり、著者の個人的な見解を表しており、Movemakerの立場を代表するものではありません。この記事は意図的に提供するものではありません:(i) 投資アドバイスまたは投資推奨;(ii) デジタル資産の購入、販売、または保有のオファーまたは勧誘;または (iii) 財務、会計、法律、または税務アドバイス。デジタル資産、安定コイン、NFTを保有することは非常にリスクが高く、価格の変動が大きく、最終的には無価値になる可能性があります。あなたは自身の財務状況に基づいて、デジタル資産の取引または保有が適しているかどうかを慎重に検討するべきです。具体的な状況に関する質問がある場合は、法律、税務、または投資のアドバイザーに相談してください。この記事で提供される情報(市場データや統計情報を含む、もしあれば)は一般的な参考のためのものです。これらのデータやグラフを作成する際には合理的な注意を払っていますが、そこに表現された事実の誤りや省略については責任を負いません。











