쏟아지는 AI 도구, 옥석을 가리는 법
매주 새로운 AI 도구가 쏟아지지만 실무에 정착하는 것은 극히 일부다. 벤치마크 점수나 데모 영상이 아닌, 도입 비용, 기존 워크플로우와의 정합성, 데이터 통제권, 유지보수 부담이라는 네 가지 기준으로 도구를 평가하는 방법을 정리한다. 유행을 좇지 않고 실제로 팀 생산성을 높이는 선택을 하기 위한 실용적 판단 프레임.

메타콘 2026 둘째 날 무대에서 '쏟아지는 AI 도구, 옥석을 가리는 법'을 발표했습니다. 발표 자료 전체를 위 뷰어에서 넘겨볼 수 있습니다.
매주 순위가 뒤집히는 AI 도구 시장에서 "어떤 도구가 제일 좋은가?"라는 질문은 유효기간이 일주일입니다. 그래서 질문을 바꿨습니다. "내 작업의 특수성에 어떤 도구가 구조적으로 유리한가?" 유행에 휩쓸리지 않는 기준을 잡는 법이 이번 발표의 주제입니다.
발표 흐름
작업의 특수성, 회사의 강점, 가격이라는 3가지 축으로 7가지 사례를 분석했습니다.
코딩 · 모델과 에이전트는 한 몸입니다. 수직 통합 조합을 골라야 하는 이유를 다뤘습니다.
리서치 · 정보가 '처음' 올라오는 곳이 도구를 결정합니다. X와 레딧 그리고 GEO 이야기입니다.
대용량 문서 · 큰 컨텍스트 윈도우와 멀티 에이전트의 조합, 문서 작업자에게도 CLI가 필요한 이유를 설명했습니다.
회사의 환경이 만드는 강점 · Mistral의 고객 구조, Seedance의 규제 환경, GitHub의 릴리스 캐던스, Lovable의 커넥터 생태계를 비교했습니다.
레드 플래그 · 동시다발 유튜버 홍보와 갑작스러운 연간 50% 할인이 보내는 신호를 짚었습니다.
마지막에는 바로 쓸 수 있는 5가지 질문 체크리스트를 담았습니다. 도구는 계속 쏟아지지만 기준을 제대로 잡으면 흔들리지 않습니다.
슬라이드 텍스트 전체 보기
- 슬라이드 1
- METACON 2026 · DAY 2 · STAGE A 쏟아지는 AI 도구, 옥석을 가리는 법 도구 리뷰가 아니라, 흔들리지 않는 선택 기준에 대하여 이보라 모던웹연구소 · Microsoft MVP 2026. 7. 4 (SAT) 16:25 – 17:05 · COEX GRAND BALLROOM 1
- 슬라이드 2
- OPENING 질문을 바꾸면 답이 보인다 지금까지의 질문 “어떤 도구가 제일 좋은가요?” → 매주 답이 바뀌는 질문 오늘의 질문 “내 작업의 특수성에 어떤 도구가 구조적으로 유리한가?” → 매주 답이 바뀌는 질문 성능 순위표는 매주 갱신되지만, 고르는 기준은 갱신될 필요가 없습니다. 2
- 슬라이드 3
- 3
- 슬라이드 4
- CASE STUDY · GOSUCODER (YOUTUBE) 작년 12월, 한 유튜버의 성실한 실험 GosuCoder — 코딩 에이전트 전문 리뷰 채널 매달 '이달의 코딩 에이전트' 시리즈 업로드 에이전트 × 모델 조합별 성능을 직접 테스트 자체 리더보드 운영 — gosuevals.com 실험의 스케일 한 회차에 에이전트 19개 × 모델 5개 테스트 Claude Code · RooCode · Augment 등 + o3 · Gemini 등 2025년 12월 회차 — Opus 4.5 · Gemini 3.0 Pro · GPT 5.1 등장으로 순위가 또 재편 4
- 슬라이드 5
- CASE STUDY · COMBINATORIAL EXPLOSION 조합은 폭발하고, 순위는 매달 뒤집혔다 19 × 5 = 95 에이전트 19개 × 모델 5개 — 단 한 회차의 테스트 조합 01 매달 새 모델·새 에이전트 등장 02 전 조합 재테스트 03 다음 달이면 결과 무효 전부 따라가는 리서치는 불가능하고, 의미도 없다. 도구를 쫓는 리서치가 아니라 — 질문 자체를 바꿔야 한다. 5
- 슬라이드 6
- https://arena.ai/leaderboard/code/webdev 6
- 슬라이드 7
- 7
- 슬라이드 8
- 8
- 슬라이드 9
- 9
- 슬라이드 10
- 10
- 슬라이드 11
- OPENING 질문을 바꾸면 답이 보인다 지금까지의 질문 “어떤 도구가 제일 좋은가요?” → 매주 답이 바뀌는 질문 오늘의 질문 “내 작업의 특수성에 어떤 도구가 구조적으로 유리한가?” → 도구가 바뀌어도 안 바뀌는 질문 성능 순위표는 매주 갱신되지만, 고르는 기준은 갱신될 필요가 없습니다. 11
- 슬라이드 12
- FRAMEWORK 옥석 가리기 3축 01 작업의 특수성 이 작업은 무엇이 특별한가? 코딩 · 리서치 · 대용량 문서 · 영상, 전문 분야마다 요구 조건이 다르다 02 회사의 강점 이 도구를 만드는 회사는 어디에 구조적으로 유리한가? 데이터 · 고객 · 규제 환경이 제품의 강점을 결정한다 03 가격 성능이 상향 평준화된 영역에선 가격이 합리적 기준. 단, 매칭이 항상 가격보다 우선 특수성 → 강점 매칭 → (동률이면) 가격, 이 순서로 일곱 가지 사례를 봅니다 12
- 슬라이드 13
- CASE 1 · CODING 모델과 에이전트는 한 몸이다 코딩 — 수직 통합의 영역 13
- 슬라이드 14
- CASE 1 · CODING 모델을 고른 다음, 그 회사에서 만든 에이전트를 써라 STEP 1 코딩 성능이 좋은 모델을 고른다 ↓ STEP 2 그 모델을 만든 회사의 코딩 에이전트를 쓴다 14
- 슬라이드 15
- Code Arena | WebDev 15
- 슬라이드 16
- Code Arena | Image-to-WebDev 16
- 슬라이드 17
- CASE 1 · CODING 모델 회사들의 수직 통합 전략 모델 제작사가 만든 코딩 에이전트는 자사 모델의 컨텍스트 관리 · 툴콜 패턴 · 장기 세션 거동에 맞춰 튜닝되어 있다 에이전트 회사와 모델 회사가 다르면 프롬프트 포맷 · 컨텍스트 압축 방식의 불일치가 세션 내내 누적된다 Claude Code · OpenAI Codex CLI · Gemini CLI 3사 모두 공식 문서에서 ‘자사 모델 기반 에이전트’임을 명시 17
- 슬라이드 18
- CASE 1 · CODING 왜 장기 세션에서 무너지는가 세션 초반 짧은 작업에선 어느 조합이든 비슷해 보인다 세션 중반 컨텍스트 압축 시작 — 에이전트와 모델의 방식이 어긋나기 시작 세션 후반 불일치 누적 → 맥락 유실 · 반복 실수 · 갑작스러운 품질 저하 * 압축 자체는 정보 손실을 최소화하려는 트레이드오프 — 방식이 다른 조합에서 그 트레이드오프가 어긋난다 “에이전트를 고르지 말고, 모델을 고른 다음 그 회사에서 만든 에이전트를 써라.” 18
- 슬라이드 19
- CODING AGENT × MODEL 지금 바로 쓸 수 있는 '코딩 에이전트 × 모델' 조합 A C ANTHROPIC Claude Code × Claude O G OPENAI Codex × GPT Z G Z.AI ZCode × GLM A Q ALIBABA Qwen Code × Qwen M K MOONSHOT AI Kimi Code CLI × Kimi G G GOOGLE Gemini CLI × Gemini X M XIAOMI MiMo Code × MiMo M D MISTRAL AI Vibe CLI × Devstral 19
- 슬라이드 20
- OPEN SOURCE × OPEN WEIGHTS 에이전트도, 모델도 공개 — 로컬 LLM으로 직접 돌린다 A ALIBABA Qwen Code × Qwen3-Coder 에이전트 오픈소스 + 모델 오픈 웨이트, 둘 다 완전 공개 완전 공개 ★★★★★ M MISTRAL AI Vibe CLI × Devstral Vibe CLI는 Apache 2.0 오픈소스, Devstral은 오픈 웨이트 완전 공개 ★★★★☆ Z Z.AI ZCode × GLM GLM 모델은 일부 공개, ZCode는 완전한 오픈소스 아님 부분 공개 — GPU를 충분히 확보한 조직은 이 조합을 로컬 LLM으로 세팅해, 외부 API 의존 없이 자체 인프라에서 코딩 에이전트를 운영 중 20
- 슬라이드 21
- CASE 2 · RESEARCH 정보가 흐르는 곳에 따라 도구를 결정한다 21
- 슬라이드 22
- 22
- 슬라이드 23
- CASE 2 · RESEARCH 그 정보는 어디에 ‘처음’ 올라오는가 AI · IT 신기술의 1차 소스는 X 연구자 · 파운더들이 새 소식을 논문 · 블로그보다 X에 먼저 올린다 X를 네이티브로 검색하는 Grok이 구조적으로 유리 (x_search 툴) 도구 성능의 문제가 아니라 데이터 접근권의 문제 분야 유리한 도구 AI · 이머징 테크 X (Grok) 학술 · 연구 논문 DB 도구 국내 시장 · 여론 국내 뉴스 · 커뮤니티 분야가 다르면 답도 다르다 ’뭐가 똑똑한가’가 아니라 ’내가 찾는 정보가 어디에 먼저 뜨는가’ 23
- 슬라이드 24
- GEO · REDDIT OPTIMIZATION AI가 상품을 추천할 때, 소스는 레딧이다 40.1% LLM 인용 중 레딧 비중 1위 위키피디아 26.3% · 유튜브 23.5% SEMRUSH 2025 $60M 구글이 레딧 데이터에 매년 지불 OpenAI도 별도 계약 · 총 $203M TECHCRUNCH 2024 +73% 커머스 질의 레딧 인용 성장 기술·전자 등 상업 카테고리 TINUITI 2026 Q1 브랜드들은 이 사실을 이미 알고 있다 — 그리고 움직이기 시작했다 → 24
- 슬라이드 25
- GEO · REDDIT OPTIMIZATION 레딧은 이미 브랜드들의 전장이 됐다 AI 쇼핑 검색의 근거는 레딧 스레드 상품 비교·구매 질문에 AI는 레딧 토론을 인용한다 — Perplexity 인용의 46.5%가 레딧 01 소비재 브랜드의 '레딧 최적화' 러시 옛 스레드 되살리기 · '유기적' 후기 시딩 · 서드파티 대행 — AI 인용이 KPI가 됐다 (Adweek) 02 AI의 추천은 더 이상 중립이 아니다. 소스가 돈으로 최적화되는 시대, AI가 내놓는 답에서도 옥석을 가려야 한다. 25
- 슬라이드 26
- CASE 3 · LONG DOCUMENTS 수천, 수만 장의 문서를 다뤄야 할 때 26
- 슬라이드 27
- CASE 3 · LONG DOCUMENTS 큰 컨텍스트 윈도우 × 멀티 에이전트 조건 1 — 컨텍스트 윈도우가 큰 모델 수천, 수만 장 문서 처리는 애초에 큰창이 있는 회사의 툴이 아니면 시작조차 어렵다 조건 2 — 반드시 멀티 에이전트 세팅 창이 아무리 커도 포화되면 품질 급락 포화를 ‘예방’하는 구조가 필요 27
- 슬라이드 28
- CASE 3 · LONG DOCUMENTS 큰 컨텍스트 윈도우 × 멀티 에이전트 팀장 혼자 수천장을 다 읽게하지 말아야 함 메인 에이전트 (팀장) 지휘만 한다 → 서브 1 분담해서 읽고 요약만 보고 서브 2 분담해서 읽고 요약만 보고 서브 3 분담해서 읽고 요약만 보고 메인 세션의 컨텍스트는 끝까지 가볍게 유지된다 28
- 슬라이드 29
- CASE 3 · LONG DOCUMENTS 문서 다루는 사람에게도, 이제 CLI가 필요하다 왜 CLI류 에이전트인가 GUI 챗봇 — 창 하나에 문서를 다 밀어 넣는 구조, 에이전트 수 고정 CLI 에이전트 — 서브에이전트를 동적으로 생성·해체, 작업 크기에 맞춰 팀을 늘렸다 줄였다 Claude Code · Codex · Gemini CLI 등이 모두 지원 개발자만의 도구가 아니다 수천 장 문서의 요약·비교·검수 — 코딩과 똑같은 '팀 편성' 문제 문서를 나눠 읽히고 요약만 보고받는 구조를 가장 자유롭게 짤 수 있는 곳이 CLI 앞 장의 '팀장 혼자 다 읽지 마라'를 실제로 실행하는 도구 코드를 안 쓰는 사람이라도 — 대용량 문서를 다룬다면, 에이전트 수를 동적으로 조절하는 CLI 에이전트 사용법은 배워둘 가치가 있다. 29
- 슬라이드 30
- CASE 4 – 7 · WIDER LENS 회사가 놓인 환경이, 제품의 강점을 만든다 고객 구조 Mistral 규제 환경 Seedance 릴리스 캐던스 GitHub 파트너십 생태계 Lovable 30
- 슬라이드 31
- CASE 4 · CUSTOMER STRUCTURE Mistral — ‘EU의 희망’이라는 포지션 1 지정학적 포지션 — 프랑스 태생으로 유럽을 대표하는 AI 회사라는 기대를 받는 위치 2 고객 구조 — EU 27개국 · 24개 공식 언어를 쓰는 유럽 기업들이 핵심 고객 3 생존 조건 — 다국어 처리와 다국어 문서 활용(RAG)이 잘될 수밖에 없는 구조 YESTERDAY Mistral OCR 4 어제(7/3) 릴리스 170개 언어 지원 — 다국어 문서가 생존 조건인 회사의 실시간 증명 미국 빅테크의 기본값은 영어 최적화 — Mistral의 기본값은 다국어. “이 회사가 누구를 위해 만들어졌는가”를 보면 무엇을 잘하는지 보인다. 31
- 슬라이드 32
- CASE 5 · REGULATORY ENVIRONMENT 동영상은 데이터 싸움이다 왜 중국계 모델이 강한가 동영상 생성은 토큰 비용이 가장 비싼 영역 — 클립당 $0.5~2.8 (텍스트의 수백 배) 학습 데이터 접근성 관점에서 서구와 다른 균형점의 규제 환경 → 방대한 영상 데이터 → 품질 직결 인프라 비용 구조까지 더해져 뚜렷한 가격 경쟁력 Seedance 2.0 ByteDance · 2026.2 멀티모달 참조: 이미지 최대 9장 + 영상 3개 + 오디오 3개 물리 법칙 이해 — 빠른 움직임 · 사물 상호작용 연출 영상 · 오디오 동기 생성, 4~15초 함께 봐야할 이름들 Kling — 콰이쇼우 Hailuo — MiniMax Wan — 알리바바 규제 환경도 회사의 강점을 만든다. 데이터 확보에 유리한 환경의 회사가 이긴다. 32
- 슬라이드 33
- Text-to-Video Arena 33
- 슬라이드 34
- Image-to-Video Arena 34
- 슬라이드 35
- Video Edit Arena 35
- 슬라이드 36
- CASE 6 · RELEASE CADENCE 릴리스 방식이 고객을 말해준다 — 에이전트 SDK SDK 특화 방향 GitHub Copilot SDK 엔터프라이즈 안정성 중심 Vercel AI SDK 웹 생태계 빠른 통합 Claude Agent SDK 모델 네이티브 · 수직 통합 GitHub의 릴리스 타임라인 — 실제로 그랬다 제품 Preview GA 소요 Copilot CLI 2025.09 2026.02 GA ~5개월 Copilot SDK 2026.01 2026.06 GA ~4.5개월 왜? 주 고객이 엔터프라이즈(기업 고객 5만+) — 선출시 · 후패치는 고객사가 법적 · 컴플라이언스 리스크를 떠안기 때문 안정성이 필요하면 GA 트랙이 있는 제품, 최신 실험이 목적이면 빠른 생태계 — 릴리스 캐던스도 매칭 기준이다. 36
- 슬라이드 37
- CASE 7 · PARTNERSHIP ECOSYSTEM 커넥터 생태계가 진입장벽을 없앤다 도구 특화 방향 Lovable ★ 커넥터 · 통합 생태계 (84개+) v0 Vercel 웹 프론트 생태계 Bolt 브라우저 풀스택 프로토타이핑 셋 다 훌륭한 도구 — 발표자가 Lovable을 선호하는 이유는 성능이 아니라 ‘관계’임 Lovable 커넥터 흐름 1 프롬프트 한 줄 “Outlook 데이터 가져와줘” 2 OAuth 로그인만으로 연결 복잡한 API 키 발급 없이 3 바로 활용 M365 · Google Workspace 데이터 API 키 발급부터 막히는 사용자를 타겟한다면 커넥터 생태계가 풍부한 도구를 골라라. 37
- 슬라이드 38
- RED FLAGS 역발상 — 이런 신호가 보이면 걸러라 성능표에 안 나오는 두 가지 적신호 38
- 슬라이드 39
- RED FLAG 01 유튜버들이 ‘동시에’ 홍보하기 시작하면 갑자기 유명 유튜버들이 같은 시기에 한 도구를 일제히 다룬다? 유기적 입소문 제품력으로 퍼진다. 개발자 커뮤니티와 X에서 먼저, 광고 없이 자연스럽게. 구매한 입소문 광고비로 퍼진다. 성능이 부족한 만큼 마케팅으로 채우는 경우가 많다. 앞서 본 리서치 원칙과 연결된다. 진짜 소식은 X와 커뮤니티에 먼저 뜬다. 39
- 슬라이드 40
- RED FLAG 02 갑작스러운 ‘연간 결제 50% 할인’ 장기 결제 파격 할인은 리텐션에 자신이 없다는 시그널일 수 있다 할인으로 붙잡는 회사 이탈하기 전에 1년치 현금을 미리 확보하려는 구조. 제품이 아니라 가격으로 락인. 정량제로 가는 회사 ‘이거 없으면 일이 안 되는’ 제품은 할인 없이도 계속 쓴다. 쓴 만큼 내라는 건 자신감의 표현. 가격 ‘정책’은 회사가 자기 제품을 어떻게 평가하는지 보여주는 자백서다. 40
- 슬라이드 41
- TAKEAWAY 가져갈 체크리스트 — 5가지 질문 Q1 이 작업의 특수성은 무엇인가? 코딩 · 리서치 · 대용량 문서 · 다국어 · 영상 — 요구 조건부터 정의 Q2 이 회사가 구조적으로 유리한 지점은? 고객 · 데이터 · 규제 환경이 만든 강점을 읽어라 Q3 수직 통합인가? 모델과 도구(에이전트)를 같은 회사가 만드는가 Q4 성능이 비슷하면, 가격은? 상향 평준화 영역에선 가격이 합리적 기준 Q5 입소문은 유기적인가, 구매한 것인가? 동시다발 홍보 · 파격 연간 할인은 걸러낼 신호 41
- 슬라이드 42
- 도구는 계속 쏟아지지만, 이 기준은 변하지 않습니다. 작업의 특수성 × 회사의 강점 × 가격 감사합니다 이보라 · 모던웹연구소 42
이 글은 모던웹연구소 (www.modernweblabs.com)에서 처음 발행되었습니다. © 모던웹연구소. 무단 전재 및 재배포를 금합니다.
뉴스레터
엔터프라이즈 현장 전문가들이 검증한 노트, 격주 발행.
Claude Code, GitHub Copilot, AI 네이티브 엔지니어링 전략과 도입 사례를 격주로 정리해 보내드립니다.
모던웹연구소 · 컨설팅 안내
글을 읽었다면, 다음은 팀에 이식할 차례입니다.
이 글에서 다룬 방식을 우리 팀에 어떻게 적용할지, 짧은 대화부터 시작하면 됩니다.
함께할 수 있는 일
Claude Code · GitHub Copilot
2일 핸즈온 + AI 채점 기반 사내 인증
AI 네이티브 전략
운영 표준·측정·거버넌스 재설계
웹 플랫폼
Next.js 기반 풀스택 서비스 구축
