브라우저 자동화의 대전환: Selenium을 넘어 AI 에이전트의 시대로
기존에는 RPA로 부르던 범주의 End-point 직접 Handling으로 자동화의 영역에서, 웹 브라우저 자동화 기술은 먼저 Selenium이 한참 동안 혁신의 바다였고, 이제 제3의 물결을 맞이했습니다. HTTP 요청을 보내던 Selenium의 시대를 지나, WebSocket으로 무장한 Playwright가 표준이 되었고, 이제는 스스로 화면을 보고 판단하는 Computer Use와 같은 AI 에이전트들이 등장하고 있습니다.
단순히 도구가 바뀐 것이 아닙니다. "어떻게(How) 클릭할 것인가"를 코딩하던 시대에서, "무엇(What)을 할 것인가"를 명령하는 Vibe Coding의 시대로 넘어가고 있습니다. 이번 포스팅에서는 최신 도구인 Vibium, Playwright Agents, Anthropic Computer Use, Browser-Use를 비교 분석하고, 상황 별 최적의 선택지를 정리해 보겠습니다.

1. 주요 플레이어 한눈에 보기
🛠️ Vibium: AI를 위해 다시 태어난 Selenium
Selenium과 Appium의 창시자 Jason Huggins가 "만약 AI 시대에 Selenium을 다시 만든다면?"이라는 질문으로 시작한 프로젝트입니다.
- 핵심: AI-Native 인프라. 브라우저 자동화를 위한 '운영체제'에 가깝습니다.
- 특징:
npm install vibium한 줄로 설정이 끝납니다(Zero-Config). Go 언어로 작성된 단일 바이너리가 브라우저 수명 주기와 WebDriver BiDi 프로토콜을 관리하며, MCP(Model Context Protocol) 서버를 내장하여 Claude 같은 AI와 즉시 연결됩니다. - 상태: 초기 단계(Alpha)지만, 가장 미래 지향적인 아키텍처(Sense-Think-Act)를 보유하고 있습니다.
🎭 Playwright Agents: 안정성 위에 얹은 AI 날개
현재 업계 표준인 Playwright가 기존의 강력한 신뢰성 위에 AI 기능을 추가했습니다.
- 핵심: 하이브리드 전략. 기존 테스트 코드의 안정성을 해치지 않으면서 AI의 편리함을 누립니다.
- 구성:
- Planner: 사용자의 자연어 요청을 분석해 테스트 계획을 짭니다.
- Generator: 계획을 바탕으로 실제 실행 가능한 코드를 생성합니다.
- Healer: 테스트 실행 중 UI가 변경되어 실패하면, 스스로 새로운 로케이터를 찾아 복구(Self-Healing)합니다.
👁️ Anthropic Computer Use: 인간의 눈을 가진 에이전트
DOM(코드)을 읽는 게 아니라, 스크린샷(픽셀)을 보고 좌표를 찍습니다.
- 핵심: 시각적 범용성. 웹페이지뿐만 아니라 OS, 엑셀, 터미널 등 화면에 보이는 모든 것을 제어합니다.
- 특징: Canvas, Flash, 복잡한 Shadow DOM 등 코드로 접근하기 힘든 영역도 인간처럼 제어 가능합니다. 단, 스크린샷 처리 비용이 비싸고 속도가 느립니다.
🐍 Browser-Use: 오픈소스 생태계의 연결고리
LangChain 등 Python AI 생태계와 브라우저를 연결하는 가장 대중적인 라이브러리입니다.
- 핵심: 접근성. 복잡한 HTML을 AI가 이해하기 쉬운 형태로 경량화하여 전달합니다.
- 특징: 다양한 LLM(GPT-4o, Claude 등)을 쉽게 교체해 쓸 수 있으며, ScrapeGraphAI 등과 결합해 데이터 수집용으로 강력합니다.
2. 핵심 비교: 나에게 맞는 도구는?
| 특징 | Vibium | Playwright Agents | Browser-Use | Anthropic Computer Use |
|---|---|---|---|---|
| 접근 방식 | AI 인프라 (BiDi + MCP) | 기존 코드 + AI 보조 | LLM용 Python 라이브러리 | Vision (픽셀 기반) |
| 실행 속도 | 🚀 매우 빠름 (Go/BiDi) | 🚀 매우 빠름 (WebSocket) | ⚡ 빠름 (Python) | 🐢 느림 (Vision Latency) |
| 비용 | 낮음 | 낮음 (로컬 실행 시) | 낮음 (최적화됨) | 💸 매우 높음 (이미지 토큰) |
| 설치 난이도 | 쉬움 (Zero-Config) | 보통 (Node.js 환경) | 쉬움 (pip install) | 어려움 (격리 환경 권장) |
| 주요 강점 | AI 에이전트 연결성 (MCP) | 엔터프라이즈급 안정성 | 다양한 LLM 연동성 | 모든 앱 제어 가능 (범용성) |
3. 실전 시나리오별 추천 전략
🏢 Scenario A: "수천 개의 QA 테스트를 매일 돌려야 하는 기업 팀"
👉 추천: Playwright (with Healer)
- 이유: 기업 환경에서는 '속도'와 '신뢰성'이 최우선입니다. 기존 Playwright 파이프라인을 유지하면서, Healer 기능을 켜서 UI 변경으로 인한 야간 빌드 실패를 방지하세요. 완전히 새로운 툴을 도입하는 리스크를 피할 수 있습니다.
- 실행 팁:
npx playwright test --update-snapshots와 유사하게 Healer 설정을 CI/CD에 통합하여 유지보수 비용을 줄이세요.
🤖 Scenario B: "Claude를 사용해 나만의 웹 서핑 비서를 만들고 싶다"
👉 추천: Vibium
- 이유: 설정이 가장 간편합니다. Claude Desktop 앱이나 Cursor 에디터에서 Vibium을 도구로 바로 인식합니다. 복잡한 코딩 없이 "항공권 최저가 찾아줘" 같은 명령을 바로 실행할 수 있습니다.
- 바로 써보기 (터미널):
# Claude Desktop이나 Cursor의 MCP 설정에 추가 claude mcp add vibium -- npx -y vibium
🐍 Scenario C: "Python으로 데이터를 수집하고 분석하는 봇을 개발 중이다"
👉 추천: Browser-Use
- 이유: Python 데이터 생태계(Pandas, LangChain)와 찰떡궁합입니다. DOM을 단순화해서 LLM에 던져주므로 토큰 비용을 아끼면서 정확도 높은 스크래핑이 가능합니다.
- 바로 써보기 (Python):
pip install browser-use playwright install
🎨 Scenario D: "보안 프로그램(exe)이 깔리거나 Canvas 차트를 조작해야 한다"
👉 추천: Anthropic Computer Use
- 이유: DOM 접근이 불가능한 경우 유일한 대안입니다. 인간처럼 화면을 보고 클릭해야 하는 상황(예: 뱅킹 보안 키패드, 게임, 지도 앱)에서 사용하세요. 단, VM이나 Docker 같은 격리된 환경에서 실행하는 것이 필수입니다.
4. 마무리 및 전망
브라우저 자동화는 이제 'Sense(인지) → Think(사고) → Act(행동)'의 루프로 진화하고 있습니다.
지금 당장 모든 코드를 버릴 필요는 없습니다. 하지만 Playwright로 기본기를 다지면서, 사이드 프로젝트로 Vibium이나 Browser-Use를 통해 "AI에게 브라우저를 쥐여주는 경험"을 미리 해보시길 권장합니다. 코드를 짜는 것보다 '의도(Vibe)를 설계'하는 능력이 곧 경쟁력이 될 것입니다.
🔗 참고 자료 및 바로가기
도구 공식 저장소 & 문서
- Vibium GitHub:(https://github.com/VibiumDev/vibium)
- Browser-Use GitHub: https://github.com/browser-use/browser-use
- Playwright AI Agents 문서: https://playwright.dev/docs/test-agents
- Anthropic Computer Use 발표: https://www.anthropic.com/news/3-5-models-and-computer-use
추천 영상 & 튜토리얼
- Playwright Agents (Planner, Healer) 시연 영상:(https://www.youtube.com/watch?v=fxkNt3QqiDA)
- Jason Huggins(Vibium 창시자) 인터뷰: https://testguild.com/podcast/automation/a559-jason/
기술 심화 자료
- WebDriver BiDi 표준 문서: https://w3c.github.io/webdriver-bidi/
- OSWorld 벤치마크 (에이전트 성능 비교): https://os-world.github.io/
기타 참고 문서
- selenium vs vibium script‑heavy suites vs ai‑driven automation — where each wins
- vibium test automation: the ai-native successor to selenium - testgrid
- show hn: vibium – browser automation for ai and humans, by selenium's creator | hacker news
- vibium browser automation: ai‑powered tool for web interaction - neura ai blog
- vibium: the next evolution in test automation from selenium's creator
- selenium 5: webdriver bidi and the future of qa - ideas2it
- why testers still choose selenium even in 2025? - suresh it academy
- how to use computer use agents for performing tasks? - appy pie agent
- automate web and desktop apps with computer use (preview) - microsoft copilot studio
- computer use | openai api
- computer use | gemini api | google ai for developers
- zero-drama browser automation: how vibium's 10mb binary enables ai agents - 高效码农
- vibium – the next evolution of test automation: ai, intent, and a global device network
Vibium의 창시자 Jason Huggins가 직접 설명하는 Vibium의 비전과 Selenium과의 관계에 대한 인터뷰 영상: How Vibium Could Become the Selenium for AI Testing with Jason Huggins
