당신의 브라우저가 프록시가 될 때
저자: Mario Chow \& Figo @IOSG
파트 1
서론 지난 12개월 동안 웹 브라우저와 자동화의 관계는 급격히 변화했습니다. 거의 모든 대형 기술 회사들이 자율 브라우저 에이전트(browser agent)를 구축하기 위해 경쟁하고 있습니다. 2024년 말부터 이 추세는 더욱 뚜렷해졌습니다: OpenAI는 1월에 에이전트 모드를 출시했고, Anthropic은 Claude 모델에 "컴퓨터 사용" 기능을 도입했으며, Google DeepMind는 Project Mariner를 발표했고, Opera는 에이전트형 브라우저 Neon을 발표했으며, Perplexity AI는 Comet 브라우저를 출시했습니다. 신호는 매우 분명합니다: AI의 미래는 자율적으로 웹을 탐색할 수 있는 에이전트에 있습니다.
이 추세는 단순히 브라우저에 더 스마트한 챗봇을 추가하는 것이 아니라, 기계와 디지털 환경 간의 상호작용 방식의 근본적인 변화를 의미합니다. 브라우저 에이전트는 웹 페이지를 "보고" 행동을 취할 수 있는 AI 시스템의 일종입니다: 링크 클릭, 양식 작성, 페이지 스크롤, 텍스트 입력 등, 마치 인간 사용자처럼. 이러한 모델은 현재 수작업으로 수행해야 하거나 전통적인 스크립트로는 너무 복잡하여 완료할 수 없는 작업을 자동화할 수 있기 때문에 막대한 생산성과 경제적 가치를 창출할 것으로 기대됩니다.
▲ GIF 시연: AI 브라우저 에이전트의 실제 작동: 지침을 따르고, 목표 데이터 세트 페이지로 탐색하며, 자동으로 스크린샷을 찍고 필요한 데이터를 추출합니다.
파트 2
누가 AI 브라우저 전쟁에서 승리할 것인가?
거의 모든 대형 기술 회사(및 일부 스타트업)가 각자의 브라우저 AI 에이전트 솔루션을 개발하고 있습니다. 다음은 가장 대표적인 몇 가지 프로젝트입니다:
OpenAI -- 에이전트 모드
OpenAI의 에이전트 모드(이전 이름: Operator, 2025년 1월 출시)는 브라우저를 내장한 AI 에이전트입니다. Operator는 웹 양식 작성, 식료품 주문, 회의 일정 조정 등 다양한 반복적인 온라인 작업을 처리할 수 있습니다: 모두 인간이 자주 사용하는 표준 웹 인터페이스를 통해 완료됩니다.
▲ AI 에이전트가 전문 비서처럼 회의를 조정합니다: 캘린더를 확인하고, 사용 가능한 시간대를 찾고, 이벤트를 생성하고, 확인을 보내며, .ics 파일을 생성합니다.
Anthropic -- Claude의 "Computer Use":
2024년 말, Anthropic은 Claude 3.5에 새로운 "Computer Use(컴퓨터 사용)" 기능을 도입하여 사람처럼 컴퓨터와 브라우저를 조작할 수 있는 능력을 부여했습니다. Claude는 화면을 보고, 커서를 이동하고, 버튼을 클릭하고, 텍스트를 입력할 수 있습니다. 이는 공개 테스트 버전에 진입한 최초의 동급 대형 모델 에이전트 도구로, 개발자는 Claude가 웹사이트와 애플리케이션을 자동으로 탐색하도록 할 수 있습니다. Anthropic은 이를 실험적 기능으로定位하고, 주된 목표는 웹에서의 다단계 작업 흐름 자동화입니다.
Perplexity -- Comet
AI 스타트업 Perplexity(질문-답변 엔진으로 유명)는 2025년 중반에 Chrome의 AI 구동 대체품으로 Comet 브라우저를 출시했습니다. Comet의 핵심은 주소창(omnibox)에 내장된 대화형 AI 검색 엔진으로, 전통적인 검색 링크 대신 즉각적인 질문과 요약을 제공합니다.

- 또한, Comet에는 Comet Assistant가 내장되어 있어, 사이드바에 상주하며 웹사이트 간에 일상 작업을 자동으로 수행할 수 있습니다. 예를 들어, 열려 있는 이메일을 요약하거나, 회의를 조정하거나, 브라우저 탭을 관리하거나, 대신 웹 페이지 정보를 탐색하고 수집할 수 있습니다.

- 사이드바 인터페이스를 통해 에이전트가 현재 웹 페이지 내용을 인식할 수 있도록 하여, Comet은 브라우징과 AI 어시스턴트를 원활하게 통합하는 것을 목표로 합니다.
파트 3
브라우저 에이전트의 실제 응용 사례
앞서 우리는 여러 기술 회사(OpenAI, Anthropic, Perplexity 등)가 다양한 제품 형태를 통해 브라우저 에이전트에 기능을 주입하는 방법을 살펴보았습니다. 이들의 가치를 보다 직관적으로 이해하기 위해, 실제 상황에서 이러한 능력이 일상 생활과 기업 작업 흐름에 어떻게 적용되는지 더 살펴보겠습니다.
일상 웹 자동화
#
전자상거래 및 개인 쇼핑
매우 실용적인 사례는 쇼핑 및 예약 작업을 에이전트에 위임하는 것입니다. 에이전트는 고정 목록에 따라 자동으로 온라인 쇼핑 카트를 채우고 주문할 수 있으며, 여러 소매업체 간에 최저가를 찾아 결제 프로세스를 대신 완료할 수 있습니다.
여행의 경우, AI에게 다음과 같은 작업을 수행하도록 할 수 있습니다: "다음 달 도쿄행 항공편을 예약해줘(가격이 800달러 이하인 경우), 무료 Wi-Fi가 있는 호텔도 예약해줘." 에이전트는 전체 프로세스를 처리합니다: 항공편 검색, 옵션 비교, 승객 정보 입력, 호텔 예약 완료, 모두 항공사 및 호텔 웹사이트를 통해 이루어집니다. 이러한 자동화 수준은 기존의 여행 로봇을 훨씬 초월합니다: 단순히 추천하는 것이 아니라 직접 구매를 실행합니다.
#
업무 효율성 향상
에이전트는 사람들이 브라우저에서 수행하는 반복적인 비즈니스 작업을 자동화할 수 있습니다. 예를 들어, 이메일을 정리하고 할 일 목록을 추출하거나, 여러 캘린더에서 빈 시간을 확인하고 자동으로 회의를 조정할 수 있습니다. Perplexity의 Comet 어시스턴트는 이미 웹 인터페이스를 통해 귀하의 받은 편지함 내용을 요약하거나 일정을 추가할 수 있습니다. 에이전트는 귀하의 승인을 받은 후, SaaS 도구에 로그인하여 정기 보고서를 생성하거나, 스프레드시트를 업데이트하거나, 양식을 제출할 수 있습니다. HR 에이전트가 다양한 채용 웹사이트에 자동으로 로그인하여 직위를 게시할 수 있거나, 판매 에이전트가 CRM 시스템의 잠재 고객 데이터를 업데이트할 수 있는 모습을 상상해 보십시오. 이러한 일상적인 잡무는 본래 직원의 많은 시간을 소모했지만, AI는 웹 양식 및 페이지 작업을 자동화하여 이를 수행할 수 있습니다.
단일 작업을 넘어서, 에이전트는 여러 네트워크 시스템 간의 전체 작업 흐름을 연결할 수 있습니다. 이러한 모든 단계는 서로 다른 웹 페이지 인터페이스에서 작업해야 하며, 이것이 바로 브라우저 에이전트의 강점입니다. 에이전트는 다양한 대시보드에 로그인하여 문제를 해결하고, 심지어 프로세스를 조정할 수 있습니다. 예를 들어, 신입 직원의 온보딩 작업을 완료하기 위해 여러 SaaS 웹사이트에서 계정을 생성하는 것입니다. 본질적으로, 현재 여러 웹사이트를 클릭하여 완료해야 하는 다단계 작업은 모두 에이전트에게 위임할 수 있습니다.
파트 4
현재의 도전과 한계 잠재력이 크지만, 오늘날의 브라우저 에이전트는 완벽과는 거리가 멉니다. 현재의 구현은 몇 가지 오랜 기술적 및 인프라 문제를 드러냅니다: 아키텍처 불일치 현대 웹은 인간이 조작하는 브라우저를 위해 설계되었으며, 시간이 지남에 따라 자동화를 적극적으로 저항하는 방향으로 진화했습니다. 데이터는 종종 시각적 표시를 최적화한 HTML/CSS에 묻혀 있으며, 상호작용 제스처(마우스 오버, 스크롤)에 의해 제한되거나 비공식 API를 통해서만 접근할 수 있습니다.
이러한 기반 위에, 반크롤링 및 반사기 시스템은 추가적인 장벽을 인위적으로 추가합니다. 이러한 도구는 IP 평판, 브라우저 지문, JavaScript 챌린지 피드백 및 행동 분석(예: 마우스 이동의 무작위성, 타이핑 리듬, 체류 시간)을 결합합니다. 아이러니하게도, AI 에이전트가 "완벽하게" 작동하고 효율성이 높을수록: 예를 들어 즉시 양식을 작성하고, 결코 실수를 하지 않는 경우, 악의적인 자동화로 인식될 가능성이 높아집니다. 이는 강제 실패를 초래할 수 있습니다: 예를 들어 OpenAI 또는 Google의 에이전트는 결제 전에 모든 단계를 성공적으로 완료할 수 있지만, 결국 CAPTCHA 또는 이중 보안 필터에 의해 차단될 수 있습니다.
인간이 최적화한 인터페이스와 로봇에게 불친절한 방어층이 겹쳐져, 에이전트는 취약한 "인간 모방" 전략을 취해야 합니다. 이러한 접근 방식은 쉽게 실패할 수 있으며, 성공률이 낮습니다(인간의 개입 없이 전체 거래 완료율은 여전히 1/3도 되지 않습니다).
신뢰 및 보안 우려
에이전트가 완전한 제어를 얻으려면 일반적으로 민감한 정보에 접근해야 합니다: 로그인 자격 증명, 쿠키, 이중 인증 토큰, 심지어 결제 정보까지. 이는 사용자와 기업 모두가 이해할 수 있는 우려를 불러일으킵니다:
에이전트가 실수를 하거나 악의적인 웹사이트에 속아 넘어가면 어떻게 하나요?
에이전트가 특정 서비스 약관에 동의하거나 거래를 실행했다면, 누가 책임을 져야 하나요?
이러한 위험을 바탕으로, 현재 시스템은 일반적으로 신중한 태도를 취합니다:
Google의 Mariner는 신용 카드 정보를 입력하거나 서비스 약관에 동의하지 않고, 사용자에게 되돌려줍니다.
OpenAI의 Operator는 사용자가 로그인하거나 CAPTCHA 챌린지를 처리하도록 안내합니다.

- Anthropic의 Claude 기반 에이전트는 보안 문제를 이유로 로그인 자체를 거부할 수 있습니다.
결과적으로: AI와 인간 간의 빈번한 정지 및 인계가 발생하여 원활한 자동화 경험이 약화됩니다.
이러한 장애물에도 불구하고, 진전은 빠르게 진행되고 있습니다. OpenAI, Google, Anthropic 등은 매번 반복되는 과정에서 실패 경험을 반영하고 있습니다. 수요가 증가함에 따라, "공동 진화"가 발생할 가능성이 높습니다: 웹사이트는 유리한 상황에서 에이전트에 더 친숙해지고, 에이전트는 기존 장벽을 우회하기 위해 인간 행동 모방 능력을 지속적으로 향상시킬 것입니다.
파트 5
방법과 기회 현재의 브라우저 에이전트는 두 가지 전혀 다른 현실에 직면해 있습니다: 한편으로는 Web2의 적대적 환경이 존재하고, 반크롤링 및 보안 방어가 도처에 있습니다; 다른 한편으로는 Web3의 개방적 환경이 있으며, 자동화가 오히려 장려되는 경우가 많습니다. 이러한 차이는 다양한 솔루션의 방향을 결정합니다.
아래의 솔루션은 대체로 두 가지 범주로 나눌 수 있습니다: 하나는 에이전트가 Web2의 적대적 환경을 우회하도록 돕는 것이고, 다른 하나는 Web3에서 원주율적으로 발생하는 솔루션입니다.
브라우저 에이전트가 직면한 도전은 여전히 두드러지지만, 새로운 프로젝트가 지속적으로 등장하여 이러한 문제를 직접 해결하려고 시도하고 있습니다. 암호화폐와 탈중앙화 금융(DeFi) 생태계는 개방적이고 프로그래밍 가능하며 자동화에 덜 적대적인 자연스러운 실험장이 되고 있습니다. 개방된 API, 스마트 계약 및 체인 상 투명성은 Web2 세계에서 흔히 발생하는 많은 마찰점을 제거합니다.
다음은 네 가지 유형의 솔루션으로, 각 유형은 현재의 핵심 한 가지 또는 여러 가지 한계를 해결하고 있습니다: 체인 상 작업을 위한 원주율적 에이전트형 브라우저 이러한 브라우저는 처음부터 자율 에이전트 구동을 위해 설계되었으며, 블록체인 프로토콜과 깊이 통합되어 있습니다. 전통적인 Chrome 브라우저와는 달리, 후자는 체인 상 작업 자동화를 위해 Selenium, Playwright 또는 지갑 플러그인에 추가로 의존해야 하지만, 원주율적 에이전트형 브라우저는 API와 신뢰할 수 있는 실행 경로를 직접 제공합니다.
탈중앙화 금융에서는 거래의 유효성이 암호 서명에 의존하며, 사용자가 "인간처럼" 행동하는지 여부에 의존하지 않습니다. 따라서 체인 상 환경에서 에이전트는 Web2 세계에서 흔히 발생하는 CAPTCHA, 사기 탐지 점수 및 장치 지문 검사를 우회할 수 있습니다. 그러나 이러한 브라우저가 Amazon과 같은 Web2 웹사이트를 가리키면, 관련 방어 메커니즘을 우회할 수 없으며, 그런 상황에서는 여전히 정상적인 반 로봇 조치를 촉발할 수 있습니다.
에이전트형 브라우저의 가치는 모든 웹사이트에 마법처럼 접근할 수 있는 것이 아니라:
원주율적 블록체인 통합: 내장된 지갑 및 서명 지원으로, MetaMask 팝업이나 dApp 프론트엔드의 DOM을 해석할 필요가 없습니다.
자동화 우선 설계: 안정적인 고수준 명령을 제공하여 프로토콜 작업으로 직접 매핑할 수 있습니다.
보안 모델: 세분화된 권한 제어 및 샌드박스를 통해 자동화 과정에서 개인 키의 안전을 보장합니다.
성능 최적화: 브라우저 렌더링이나 UI 지연 없이 여러 체인 상 호출을 병렬로 실행할 수 있습니다.
#
사례: Donut
Donut은 블록체인 데이터와 작업을 일등 시민으로 통합합니다. 사용자(또는 그들의 에이전트)는 토큰의 실시간 위험 지표를 확인하거나 "/swap 100 USDC to SOL"과 같은 자연어 명령을 직접 입력할 수 있습니다. Web2의 적대적 마찰점을 우회함으로써, Donut은 에이전트가 DeFi에서 전속력으로 운영할 수 있도록 하여 유동성, 차익 거래 및 시장 효율성을 향상시킵니다.
검증 가능하고 신뢰할 수 있는 에이전트 실행
에이전트에게 민감한 권한을 부여하는 것은 큰 위험을 동반합니다. 관련 솔루션은 신뢰할 수 있는 실행 환경(TEEs) 또는 제로 지식 증명(ZKPs)를 사용하여 실행 전에 에이전트의 예상 행동을 암호화하여 확인하고, 사용자와 상대방이 개인 키나 증명을 노출하지 않고도 에이전트의 행동을 검증할 수 있도록 합니다.
#
사례: Phala Network
Phala는 TEEs(예: Intel SGX)를 사용하여 실행 환경을 격리하고 보호하여 Phala 운영자나 공격자가 에이전트의 논리와 데이터를 엿보거나 변경할 수 없도록 합니다. TEE는 하드웨어 지원 "안전한 방"과 같으며, 기밀성(외부에서 볼 수 없음)과 무결성(외부에서 수정할 수 없음)을 보장합니다.
브라우저 에이전트의 경우, 이는 로그인, 세션 토큰 보유 또는 결제 정보를 처리할 수 있음을 의미하며, 이러한 민감한 데이터는 결코 안전한 방을 떠나지 않습니다. 사용자의 기계, 운영 체제 또는 네트워크가 해킹당하더라도 노출되지 않습니다. 이는 에이전트 응용 프로그램의 최대 장애물 중 하나인 민감한 증명 및 작업에 대한 신뢰 문제를 직접 완화합니다. 탈중앙화된 구조화 데이터 네트워크 현대의 반 로봇 탐지 시스템은 요청이 "너무 빠르거나" "자동화되었는지"를 검사할 뿐만 아니라 IP 평판, 브라우저 지문, JavaScript 챌린지 피드백 및 행동 분석(예: 커서 이동, 타이핑 리듬, 세션 기록)을 결합하여 검사합니다. 데이터 센터 IP 또는 완전히 반복 가능한 브라우저 환경에서 오는 에이전트는 쉽게 인식될 수 있습니다.
이 문제를 해결하기 위해, 이러한 네트워크는 더 이상 인간 최적화된 웹 페이지를 크롤링하지 않고, 기계가 읽을 수 있는 데이터를 직접 수집하고 제공하거나 실제 인간 브라우징 환경을 통해 트래픽을 에이전트로 전달합니다. 이러한 방식은 전통적인 크롤러가 해석 및 반 크롤링 단계에서의 취약성을 우회할 수 있으며, 에이전트에게 더 깨끗하고 신뢰할 수 있는 입력을 제공합니다.
이러한 실제 세계의 세션으로 에이전트 트래픽을 프록시함으로써, 분산 네트워크는 AI 에이전트가 인간처럼 웹 콘텐츠에 접근할 수 있도록 하여 즉시 차단되지 않도록 합니다. # 사례
Grass: 탈중앙화 데이터/DePIN 네트워크로, 사용자가 유휴 주택 브로드밴드를 공유하여 공공 웹 데이터 수집 및 모델 훈련을 위한 에이전트 친화적이고 지리적으로 다양한 접근 경로를 제공합니다.
WootzApp: 암호화폐 결제를 지원하는 오픈 소스 모바일 브라우저로, 백그라운드 에이전트와 제로 지식 신원을 갖추고 있으며, AI/데이터 작업을 소비자에게 "게임화"하여 제공합니다.
Sixpence: 분산 브라우저 네트워크로, 전 세계 기여자의 브라우징을 통해 AI 에이전트에게 트래픽을 라우팅합니다.
하지만 이는 완전한 솔루션이 아닙니다. 행동 탐지(마우스/스크롤 경로), 계정 수준의 제한(KYC, 계정 연령) 및 지문 일관성 검사가 여전히 차단을 촉발할 수 있습니다. 따라서 분산 네트워크는 기본적인 은폐 계층으로 간주되어야 하며, 인간 모방 실행 전략과 결합해야 최대 효과를 발휘할 수 있습니다. 에이전트를 위한 웹 표준(전망) 현재, 점점 더 많은 기술 커뮤니티와 조직이 탐구하고 있습니다: 미래의 웹 사용자가 인간뿐만 아니라 자동화된 에이전트도 포함된다면, 웹사이트는 어떻게 안전하고 규정 준수 방식으로 이들과 상호작용해야 할까요?
이는 웹사이트가 "신뢰할 수 있는 에이전트의 접근을 허용한다"고 명확히 표시하고, 상호작용을 완료하기 위한 안전한 경로를 제공하는 새로운 표준과 메커니즘의 논의를 촉진하고 있습니다. 오늘날처럼 기본적으로 에이전트를 "로봇 공격"으로 차단하는 것이 아니라 말입니다.
"Agent Allowed" 태그: 검색 엔진이 준수하는 robots.txt와 마찬가지로, 미래의 웹 페이지는 코드에 태그를 추가하여 브라우저 에이전트에게 "여기 안전하게 접근할 수 있다"고 알릴 수 있습니다. 예를 들어, 에이전트를 사용하여 항공권을 예약할 경우, 웹사이트는 CAPTCHA와 같은 여러 인증을 요구하지 않고, 인증된 인터페이스를 직접 제공할 것입니다.
인증된 에이전트를 위한 API 게이트웨이: 웹사이트는 인증된 에이전트에게 전용 진입점을 열 수 있으며, 이는 "패스트 트랙"과 같습니다. 에이전트는 인간의 클릭이나 입력을 모방할 필요 없이, 더 안정적인 API 경로를 통해 주문, 결제 또는 데이터 조회를 완료할 수 있습니다.
W3C의 논의: 월드 와이드 웹 컨소시엄(W3C)은 "관리되는 자동화"를 위한 표준화된 경로를 연구하고 있습니다. 이는 미래에 신뢰할 수 있는 에이전트가 웹사이트에 의해 인식되고 수용될 수 있도록 하는 글로벌 규칙 세트를 갖게 될 가능성을 의미합니다. 동시에 안전성과 책임성을 유지할 수 있습니다.
이러한 탐구는 아직 초기 단계에 있지만, 일단 실현된다면 인간↔에이전트↔웹사이트 간의 관계를 크게 개선할 수 있습니다. 상상해 보십시오: 더 이상 에이전트가 인간의 마우스 움직임을 모방하여 "위험 관리"를 피할 필요 없이, 공식적으로 허용된 경로를 통해 작업을 완료할 수 있는 것입니다.
이 과정에서 암호화 원주율적 인프라가 선도적으로 시작될 가능성이 높습니다. 체인 상 애플리케이션은 본질적으로 개방된 API와 스마트 계약에 의존하며, 자동화에 우호적입니다. 반면, 전통적인 Web2 플랫폼은 여전히 조심스럽게 방어할 가능성이 높습니다. 특히 광고나 반사기 시스템에 의존하는 기업은 더욱 그렇습니다. 그러나 사용자와 기업이 자동화로 인한 효율성을 점차 수용함에 따라, 이러한 표준화 시도가 전체 인터넷을 "에이전트 우선 아키텍처"로 나아가게 하는 중요한 촉매제가 될 가능성이 높습니다.
파트 6
결론 브라우저 에이전트는 초기의 단순한 대화 도구에서 복잡한 온라인 작업 흐름을 수행할 수 있는 자율 시스템으로 진화하고 있습니다. 이러한 변화는 사용자와 인터넷 간의 상호작용의 핵심 인터페이스에 자동화를 직접 통합하는 더 넓은 추세를 반영합니다. 생산성 향상의 잠재력은 크지만, 뿌리 깊은 반 로봇 메커니즘을 극복하는 방법과 안전성, 신뢰 및 책임 있는 사용 방식을 보장하는 방법 등 도전 과제가 만만치 않습니다.
단기적으로는 에이전트의 추론 능력 향상, 속도 증가, 기존 서비스와의 더 긴밀한 통합 및 분산 네트워크의 발전이 신뢰성을 점진적으로 높일 수 있습니다. 장기적으로는 서비스 제공자와 사용자 모두에게 자동화가 유리한 상황에서 "에이전트 친화적" 표준이 점진적으로 실현될 수 있을 것입니다. 그러나 이러한 변화는 균일하게 진행되지 않을 것입니다: DeFi와 같은 자동화 친화적 환경에서는 채택 속도가 더 빠를 것이고, 사용자 상호작용 제어에 심각하게 의존하는 Web2 플랫폼에서는 수용 정도가 더 느릴 것입니다.
미래에는 기술 회사의 경쟁이 다음과 같은 몇 가지 측면에 점점 더 집중될 것입니다: 현실 세계의 제한 내에서 에이전트의 탐색 능력, 주요 작업 흐름에 안전하게 통합할 수 있는지 여부, 그리고 다양한 온라인 환경에서 안정적으로 결과를 제공할 수 있는지 여부. 이러한 모든 것이 궁극적으로 "브라우저 전쟁"을 재편할 것인지 여부는 단순한 기술력에 달려 있는 것이 아니라, 신뢰를 구축하고 인센티브를 조정하며 일상적인 사용에서 실질적인 가치를 보여줄 수 있는지에 달려 있습니다.












