あなたのブラウザがプロキシになるとき
著者:Mario Chow & Figo @IOSG
パート1
序論 過去12ヶ月、ウェブブラウザと自動化の関係は劇的に変化しました。ほぼすべての大手テクノロジー企業が自律的なブラウザエージェントを構築しようと競っています。2024年末からこのトレンドはますます明確になっています:OpenAIは1月にエージェントモードを発表し、AnthropicはClaudeモデルに「コンピュータ使用」機能を追加し、Google DeepMindはProject Marinerを発表し、Operaはエージェント型ブラウザNeonを発表し、Perplexity AIはCometブラウザを発表しました。信号は非常に明確です:AIの未来は自律的にウェブをナビゲートできるエージェントにあります。
このトレンドは単にブラウザにより賢いチャットボットを追加することではなく、機械とデジタル環境の相互作用の根本的な変化を示しています。ブラウザエージェントは、ウェブページを「見る」ことができ、リンクをクリックし、フォームに記入し、ページをスクロールし、テキストを入力することができるAIシステムの一種です:人間のユーザーのように。このモデルは、現在は人間の操作が必要なタスクや、従来のスクリプトでは複雑すぎて完了できないタスクを自動化することで、巨大な生産性と経済的価値を解放することを約束しています。
▲ GIFデモ:AIブラウザエージェントの実際の操作:指示に従い、ターゲットデータセットページにナビゲートし、自動でスクリーンショットを撮り、必要なデータを抽出します。
パート2
誰がAIブラウザ戦争に勝つのか?
ほぼすべての大手テクノロジー企業(およびいくつかのスタートアップ)がそれぞれのブラウザAIエージェントソリューションを開発しています。以下は最も代表的なプロジェクトのいくつかです:
OpenAI -- エージェントモード
OpenAIのエージェントモード(以前はOperatorと呼ばれていた、2025年1月に発表)は、自らブラウザを持つAIエージェントです。Operatorは、ウェブフォームの記入、食料品の注文、会議のスケジュール設定など、さまざまな繰り返しのオンラインタスクを処理できます:すべて人間が一般的に使用する標準的なウェブインターフェースを通じて行われます。
▲ AIエージェントはプロフェッショナルアシスタントのように会議を設定します:カレンダーを確認し、利用可能な時間帯を探し、イベントを作成し、確認を送信し、.icsファイルを生成します。
Anthropic -- Claudeの「コンピュータ使用」:
2024年末、AnthropicはClaude 3.5に新しい「コンピュータ使用」機能を導入し、人間のようにコンピュータやブラウザを操作する能力を与えました。Claudeは画面を見ることができ、カーソルを動かし、ボタンをクリックし、テキストを入力することができます。これは同類の大規模モデルエージェントツールとして初めて公開ベータ版に入り、開発者はClaudeにウェブサイトやアプリケーションを自動でナビゲートさせることができます。Anthropicはこれを実験的な機能として位置付けており、主な目標はウェブ上の多段階ワークフローの自動化を実現することです。
Perplexity -- Comet
AIスタートアップのPerplexity(Q&Aエンジンで知られる)は、2025年中頃にCometブラウザを発表し、ChromeのAI駆動の代替品として登場しました。Cometのコアは、アドレスバー(オムニボックス)に組み込まれた対話型AI検索エンジンで、従来の検索リンクではなく、即時のQ&Aと要約を提供します。

- さらに、CometにはComet Assistantが内蔵されており、サイドバーに常駐するエージェントが、ウェブサイトを横断して日常のタスクを自動で実行できます。たとえば、開いているメールを要約したり、会議を設定したり、ブラウザのタブを管理したり、あなたの代わりにウェブ情報を閲覧して取得したりできます。

- サイドバーインターフェースを通じてエージェントが現在のウェブページの内容を感知できるようにし、CometはブラウジングとAIアシスタントをシームレスに統合することを目指しています。
パート3
ブラウザエージェントの実際の応用シーン
前述の通り、主要なテクノロジー企業(OpenAI、Anthropic、Perplexityなど)がどのように異なる製品形態でブラウザエージェントに機能を注入しているかを振り返りました。これらの価値をより直感的に理解するために、実際のシーンでこれらの能力が日常生活や企業のワークフローにどのように適用されているかをさらに見ていきましょう。
日常のウェブ自動化
#
eコマースと個人の買い物
非常に実用的なシーンは、ショッピングや予約タスクをエージェントに委任することです。エージェントは、固定リストに基づいてオンラインショッピングカートを自動で埋めて注文することができ、複数の小売業者の中から最低価格を探し、あなたの代わりにチェックアウトプロセスを完了することができます。
旅行の場合、AIに次のようなタスクを実行させることができます:「来月東京行きのフライトを予約して(運賃は800ドル未満)、無料Wi-Fiのあるホテルを予約してください。」エージェントは全プロセスを処理します:フライトを検索し、オプションを比較し、乗客情報を記入し、ホテルの予約を完了します。すべて航空会社やホテルのウェブサイトを通じて行われます。この自動化レベルは、現在の旅行ロボットをはるかに超えています:それは単に推奨するだけでなく、直接購入を実行します。
#
オフィス効率の向上
エージェントは、ブラウザ内で行われる多くの繰り返し業務操作を自動化できます。たとえば、電子メールを整理してタスクを抽出したり、複数のカレンダーで空き時間を確認して自動で会議を設定したりします。PerplexityのCometアシスタントは、ウェブインターフェースを通じてあなたの受信箱の内容を要約したり、スケジュールを追加したりすることができます。エージェントは、あなたの承認を得た後、SaaSツールにログインして定期的なレポートを生成したり、スプレッドシートを更新したり、フォームを提出したりすることもできます。HRエージェントが異なる求人サイトに自動でログインして職を掲載したり、営業エージェントがCRMシステムのリードデータを更新したりすることを想像してみてください。これらの日常的な雑務は本来多くの従業員の時間を浪費するものでしたが、AIはウェブフォームやページ操作を自動化することでこれを実現できます。
単一のタスクを超えて、エージェントは複数のネットワークシステムを横断する完全なワークフローを連携させることもできます。これらのすべてのステップは異なるウェブインターフェースで操作する必要があり、これがブラウザエージェントの強みです。エージェントはさまざまなダッシュボードにログインしてトラブルシューティングを行ったり、新入社員のオンボーディングプロセスを完了するためにフローを編成したりすることができます(複数のSaaSサイトでアカウントを作成する)。本質的に、現在複数のウェブサイトを開いて完了する必要がある多段階の操作は、すべてエージェントに実行させることができます。
パート4
現在の課題と限界 潜在能力は大きいものの、今日のブラウザエージェントは完璧からはほど遠いです。現在の実装は、いくつかの長期的な技術的およびインフラストラクチャの課題を明らかにしています: アーキテクチャの不一致 現代のウェブは人間が操作するブラウザのために設計されており、時間の経過とともに自動化に対して積極的に抵抗するように進化してきました。データはしばしば視覚的な表示に最適化されたHTML/CSSに埋もれており、インタラクションのジェスチャー(マウスオーバー、スワイプ)によって制限されているか、公開されていないAPIを通じてのみアクセス可能です。
この基盤の上に、ボット対策や不正防止システムが追加の障壁を人工的に増やしています。これらのツールは、IPの評判、ブラウザのフィンガープリンティング、JavaScriptのチャレンジフィードバック、行動分析(たとえば、マウスの動きのランダム性、タイピングのリズム、滞在時間)を組み合わせています。矛盾しているのは、AIエージェントが「完璧」かつ効率的に振る舞うほど:たとえば、瞬時にフォームを記入し、決して間違えない場合、悪意のある自動化として認識されやすくなります。これにより、ハードな失敗が発生する可能性があります:たとえば、OpenAIやGoogleのエージェントは、チェックアウト前のすべてのステップを順調に完了できるかもしれませんが、最終的にはCAPTCHAや二次的なセキュリティフィルターに阻止されることがあります。
人間が最適化したインターフェースとボットに対して不親切な防御層が重なり合い、エージェントは脆弱な「人間模倣」戦略を取らざるを得なくなります。このアプローチは非常に失敗しやすく、成功率が低いです(人工的な介入がなければ、完全な取引の完了率は依然として三分の一にも満たないです)。
信頼と安全の懸念
エージェントに完全な制御を与えるには、通常、機密情報へのアクセスが必要です:ログイン資格情報、クッキー、二要素認証トークン、さらには支払い情報です。これにより、ユーザーと企業の両方が理解できる懸念が生じます:
エージェントが間違えたり、悪意のあるウェブサイトに騙された場合はどうなりますか?
エージェントがサービス条項に同意したり、取引を実行した場合、誰が責任を負うべきですか?
これらのリスクに基づき、現在のシステムは一般的に慎重な態度を取っています:
GoogleのMarinerはクレジットカード情報を入力したり、サービス条項に同意したりせず、ユーザーに戻します。
OpenAIのOperatorは、ユーザーにログインやCAPTCHAチャレンジを引き継ぐように促します。

- AnthropicのClaude駆動のエージェントは、安全上の理由からログインを直接拒否することがあります。
その結果、AIと人間の間で頻繁に停止と引き継ぎが発生し、シームレスな自動化の体験が損なわれます。
これらの障害が存在するにもかかわらず、進展は急速に進んでいます。OpenAI、Google、Anthropicなどの企業は、各イテレーションで失敗から学んでいます。需要が高まるにつれて、「共進化」が起こる可能性が高いです:ウェブサイトは有利なシーンでエージェントに対してより友好的になり、エージェントも人間の行動を模倣する能力を向上させて、既存の障壁を回避するでしょう。
パート5
方法と機会 現在のブラウザエージェントは、二つの全く異なる現実に直面しています:一方はWeb2の敵対的環境で、ボット対策やセキュリティ防御が至る所に存在します;もう一方はWeb3のオープン環境で、自動化がむしろ奨励されることが多いです。この違いは、さまざまなソリューションの方向性を決定します。
以下のソリューションは大きく二つのカテゴリに分けられます:一つはエージェントがWeb2の敵対的環境を回避するのを助けるもの、もう一つはWeb3に生まれたソリューションです。
ブラウザエージェントが直面する課題は依然として顕著ですが、新しいプロジェクトが次々と登場し、これらの問題に直接対処しようとしています。暗号通貨と分散型金融(DeFi)エコシステムは、オープンでプログラム可能で、自動化に対してそれほど敵対的でないため、自然な実験場となっています。オープンAPI、スマートコントラクト、チェーン上の透明性は、Web2の世界で一般的な摩擦点を多く排除します。
以下は四つのソリューションのカテゴリで、それぞれが現在の一つまたは複数の核心的な限界に対処しています: チェーン上の操作に特化したネイティブエージェント型ブラウザ これらのブラウザは、最初から自律エージェント駆動のために設計されており、ブロックチェーンプロトコルと深く統合されています。従来のChromeブラウザとは異なり、後者はチェーン上の操作を自動化するためにSelenium、Playwright、またはウォレットプラグインに追加で依存する必要がありますが、ネイティブエージェント型ブラウザは直接APIと信頼できる実行パスを提供し、エージェントが呼び出すことができます。
分散型金融では、取引の有効性はユーザーが「人間のように」行動するかどうかではなく、暗号署名に依存しています。したがって、チェーン上の環境では、エージェントはWeb2の世界で一般的なCAPTCHA、不正検出スコア、デバイスフィンガープリンティングを回避できます。しかし、これらのブラウザがAmazonのようなWeb2サイトを指す場合、関連する防御メカニズムを回避することはできず、そのようなシーンでは通常のボット対策が発動します。
エージェント型ブラウザの価値はすべてのウェブサイトに魔法のようにアクセスできることではなく、以下の点にあります:
ネイティブブロックチェーン統合:内蔵ウォレットと署名サポートがあり、MetaMaskのポップアップやdAppフロントエンドのDOMを解析する必要がありません。
自動化優先設計:安定した高レベルの指示を提供し、プロトコル操作に直接マッピングできます。
セキュリティモデル:詳細な権限管理とサンドボックスにより、自動化プロセス中に秘密鍵が安全に保たれます。
パフォーマンス最適化:ブラウザのレンダリングやUIの遅延なしに、複数のチェーン上の呼び出しを並行して実行できます。
#
ケーススタディ:Donut
Donutは、ブロックチェーンデータと操作を一等市民として統合します。ユーザー(またはそのエージェント)は、トークンのリアルタイムリスク指標をホバーして確認したり、「/swap 100 USDC to SOL」のような自然言語指示を直接入力したりできます。Web2の敵対的摩擦点を回避することで、DonutはエージェントがDeFiで全速力で動作し、流動性、アービトラージ、市場効率を向上させることを可能にします。
検証可能で信頼できるエージェント実行
エージェントに機密権限を与えることはリスクが高いです。関連するソリューションは、信頼できる実行環境(TEE)やゼロ知識証明(ZKP)を使用して、実行前にエージェントの期待される行動を暗号化して確認し、ユーザーと対抗者が秘密鍵や証明書を公開することなくエージェントの動作を検証できるようにします。
#
ケーススタディ:Phala Network
Phalaは、TEE(Intel SGXなど)を使用して実行環境を隔離し、保護することで、Phalaのオペレーターや攻撃者がエージェントのロジックやデータを覗き見たり、改ざんしたりすることを防ぎます。TEEはハードウェア強化された「安全な部屋」のようなもので、 機密性(外部からは見えない)と完全性(外部からは変更できない)を保証します。
ブラウザエージェントにとって、これはログイン、セッショントークンの保持、または支払い情報の処理が可能であることを意味しますが、これらの機密データは決して安全な部屋から出ることはありません。 使用者のマシン、オペレーティングシステム、またはネットワークが侵害されても、漏洩することはありません。これは、エージェントアプリケーションの実現における最大の障害の一つである、機密証明書と操作に対する信頼の問題を直接緩和します。 分散型の構造化データネットワーク 現代のボット検出システムは、リクエストが「速すぎる」または「自動化されている」かどうかを確認するだけでなく、IPの評判、ブラウザのフィンガープリンティング、JavaScriptのチャレンジフィードバック、行動分析(たとえば、カーソルの動き、タイピングのリズム、セッションの履歴)を組み合わせてチェックします。データセンターのIPや完全に再現可能なブラウジング環境からのエージェントは、簡単に識別されます。
この問題を解決するために、これらのネットワークはもはや人間に最適化されたウェブページをクロールするのではなく、機械可読データを直接収集し提供するか、実際の人間のブラウジング環境を通じてトラフィックを代理します。この方法は、従来のクローラーが解析とボット対策の段階で脆弱であることを回避し、エージェントによりクリーンで信頼性の高い入力を提供します。
これらの実世界のセッションにエージェントのトラフィックを代理することで、分散ネットワークはAIエージェントが人間のようにウェブコンテンツにアクセスできるようにし、すぐにブロックされることはありません。 # ケーススタディ
Grass:分散型データ/DePINネットワークで、ユーザーが未使用の住宅ブロードバンドを共有し、公共のウェブデータ収集とモデル訓練のためにエージェントに優しい、地理的に多様なアクセスチャネルを提供します。
WootzApp:暗号通貨支払いをサポートするオープンソースのモバイルブラウザで、バックグラウンドエージェントとゼロ知識のアイデンティティを備えています。AI/データタスクを「ゲーム化」して消費者に提供します。
Sixpence:分散型ブラウザネットワークで、世界中の貢献者のブラウジングを通じてAIエージェントにトラフィックをルーティングします。
ただし、これは完全な解決策ではありません。行動検出(マウス/スクロールの軌跡)、アカウントレベルの制限(KYC、アカウントの年齢)、およびフィンガープリンティングの一貫性チェックは、依然としてブロックを引き起こす可能性があります。したがって、分散ネットワークは基本的な隠蔽層として考えられるべきであり、人間の模倣実行戦略と組み合わせることで最大の効果を発揮します。 エージェント向けのウェブ標準(展望) 現在、ますます多くの技術コミュニティや組織が探求しています:将来的にウェブのユーザーが人間だけでなく、自動化エージェントも含まれる場合、ウェブサイトはそれらと安全かつコンプライアンスを保ちながらどのように対処すべきか?
これにより、ウェブサイトが「信頼できるエージェントのアクセスを許可する」と明示的に示すことができる新しい標準やメカニズムの議論が促進されています。これにより、今日のようにエージェントを「ボット攻撃」としてデフォルトでブロックするのではなく、安全な通路を提供してインタラクションを完了できるようになります。
「エージェント許可」タグ:検索エンジンが遵守するrobots.txtのように、将来のウェブページはコード内にタグを追加し、ブラウザエージェントに「ここは安全にアクセスできる」と伝えるかもしれません。たとえば、エージェントを使って航空券を予約する場合、ウェブサイトは一連の確認コード(CAPTCHA)を表示するのではなく、認証されたインターフェースを直接提供します。
認証エージェントのAPIゲートウェイ:ウェブサイトは、認証されたエージェントに特別な入口を開放することができます。「ファストトラック」のように。エージェントは人間のクリックや入力を模倣する必要がなく、より安定したAPIパスを通じて注文、支払い、データクエリを完了できます。
W3Cの議論:ワールドワイドウェブコンソーシアム(W3C)は、「管理された自動化」のための標準化された通路を策定する方法を研究しています。これは、将来的に信頼できるエージェントがウェブサイトに認識され、受け入れられるための一連のグローバルなルールが存在する可能性があることを意味します。
これらの探求はまだ初期段階にありますが、一旦実現すれば、人間↔エージェント↔ウェブサイト間の関係を大幅に改善する可能性があります。想像してみてください:エージェントが人間のマウスの動きを必死に模倣して「風控」を欺く必要がなく、公式に許可された通路を通じてタスクを完了できるようになります。
この道筋において、暗号原生のインフラが先行してスタートする可能性があります。チェーン上のアプリケーションは本質的にオープンAPIとスマートコントラクトに依存しており、自動化に対して友好的です。それに対して、従来のWeb2プラットフォームは、特に広告や不正防止システムに依存している企業は、引き続き慎重に防御する可能性があります。しかし、ユーザーと企業が自動化による効率向上を徐々に受け入れるにつれて、これらの標準化の試みは、インターネット全体を「エージェント優先アーキテクチャ」へと推進する重要な触媒となる可能性があります。
パート6
結論 ブラウザエージェントは、最初の単純な対話ツールから、複雑なオンラインワークフローを完了できる自律システムへと進化しています。この変化は、ユーザーとインターネットの相互作用のコアインターフェースに自動化を直接埋め込むという、より広範なトレンドを反映しています。生産性向上の潜在能力は巨大ですが、根深いボット対策メカニズムを突破する方法や、安全性、信頼、責任ある使用方法を確保する方法など、同様に厳しい課題も存在します。
短期的には、エージェントの推論能力の向上、速度の向上、既存サービスとのより緊密な統合、分散ネットワークの進展が、信頼性を徐々に向上させる可能性があります。長期的には、自動化がサービス提供者とユーザーの双方に利益をもたらすシーンで、「エージェントフレンドリー」な標準が徐々に実現されるかもしれません。しかし、この変化は均一には進まないでしょう:DeFiのような自動化に友好的な環境では、採用が早く進むでしょうが、ユーザーのインタラクション制御に大きく依存するWeb2プラットフォームでは、受け入れが遅れるでしょう。
将来的には、テクノロジー企業の競争は、現実世界の制約の下でのエージェントのナビゲーション能力、安全に重要なワークフローに統合できるかどうか、そして多様なオンライン環境で結果を安定して提供できるかどうかにますます集中していくでしょう。これらすべてが最終的に「ブラウザ戦争」を再構築するかどうかは、単なる技術力ではなく、信頼を築き、インセンティブを調整し、日常的な使用において実際の価値を示すことができるかどうかにかかっています。












