크롤링이 멈추는 27가지 이유

크롤링이 멈추는 27가지 이유. IP 차단, 캡챠, 구조 변경 등 크롤러 장애 유형과 해결 방법 소개

104
크롤링이 멈추는 27가지 이유

IP 차단, 캡챠, 구조 변경... 크롤러는 만드는 것보다 살려놓는 것이 10배 어렵습니다

읽는 시간: 12분 | 2026년 1월 기준


핵심 요약

크롤러를 만들면 일주일은 잘 돌아갑니다. 문제는 그 다음입니다.

웹사이트는 끊임없이 변하고, 보안은 매달 강해지고, 인프라는 예고 없이 흔들립니다. 해시스크래퍼가 8년간 5,000개 이상의 사이트를 크롤링하며 겪은 27가지 장애 유형을 카테고리별로 정리했습니다. 발생 빈도, 대응 난이도, 자체 해결 시 실제 비용까지 포함합니다.

카테고리 장애 유형 수 대응 난이도
접근 차단 8가지
사이트 변경 6가지
인프라/네트워크 5가지
인증/세션 4가지
데이터 품질 4가지

카테고리 1: 접근 차단 (8가지)

크롤러가 가장 자주 부딪히는 벽입니다. 대상 사이트가 "너 봇이지?"라고 판단하는 순간, 데이터 수집은 멈춥니다.

1. IP 차단 (Rate Limiting)

증상: 갑자기 403 Forbidden 또는 429 Too Many Requests
원인: 같은 IP에서 짧은 시간에 대량 요청
빈도: (매우 흔함)
대응 난이도:

가장 기본적인 차단입니다. 요청 속도를 줄이거나 프록시 풀을 사용하면 해결됩니다. 단, 프록시 관리 자체가 별도 업무가 됩니다. IP 품질 관리, 차단된 IP 교체, 가용성 모니터링까지 신경 써야 합니다.

자체 해결 비용: 프록시 서비스 월 50만~200만원 + 관리 인력

2. Akamai Bot Manager

증상: 페이지 접근 시 Akamai 로고와 대기 화면만 표시
원인: 봇 탐지 전문 보안 솔루션이 브라우저 지문(fingerprint)까지 정밀 분석
빈도: (대형 이커머스에서 흔함)
대응 난이도:

국내에서는 쿠팡이 대표적입니다. Selenium이나 Playwright로 접근해도 브라우저 지문, JavaScript 실행 패턴, 마우스 궤적, 스크롤 속도까지 분석합니다. 일반적인 크롤링 도구로는 거의 우회 불가능합니다.

2026년 1월 실측 테스트에서 Firecrawl(Stealth Proxy 포함)과 Jina Reader 모두 쿠팡 Akamai에 차단되었습니다. 해시스크래퍼는 자체 브라우저 에뮬레이션 기술로 이를 돌파합니다.

자체 해결 비용: 전문 인력 + 지속적 우회 기술 개발 (연간 수천만원 급)

3. 캡챠 (CAPTCHA)

증상: "로봇이 아닙니다" 인증 화면
원인: 의심스러운 트래픽 패턴 감지 시 사람 여부 확인
빈도:
대응 난이도:

reCAPTCHA, hCaptcha는 외부 풀이 서비스(2Captcha, Anti-Captcha)로 자동 해결할 수 있습니다. 그러나 네이버 쇼핑의 영수증 캡챠처럼 자체 개발된 캡챠는 외부 서비스로 처리가 불가능합니다. 별도 머신러닝 모델을 학습시켜야 하고, 사이트가 캡챠 이미지를 바꾸면 모델도 재학습이 필요합니다.

자체 해결 비용: 범용 캡챠 풀이 건당 2~5원 + 자체 캡챠는 별도 ML 개발 필요

4. JavaScript 기반 봇 탐지

증상: 페이지 로드 후 빈 화면 또는 무한 리다이렉트
원인: 클라이언트 JavaScript가 브라우저 환경을 검증
빈도:
대응 난이도:

단순 HTTP 요청(requests, urllib)은 즉시 감지됩니다. Headless 브라우저를 써도 navigator.webdriver, window.chrome 객체 등으로 자동화 환경이 식별됩니다. Puppeteer Stealth, undetected-chromedriver 등이 있지만, 사이트마다 탐지 로직이 다르므로 개별 대응이 필요합니다.

5. User-Agent/헤더 검증

증상: 403 Forbidden 또는 비정상 응답
원인: 요청 헤더가 실제 브라우저 패턴과 불일치
빈도:
대응 난이도:

가장 단순한 차단이자 가장 쉬운 대응입니다. User-Agent, Accept, Referer 헤더를 맞추면 됩니다. 크롤링 입문자가 처음 만나는 문제이지만, 이것만으로는 고급 차단을 통과할 수 없습니다.

6. 지역 기반 차단 (Geo-blocking)

증상: 해외 IP에서 접근 시 차단 또는 다른 콘텐츠 반환
원인: 특정 국가 IP에서만 접근 허용
빈도:
대응 난이도:

한국 사이트를 AWS US-East 같은 해외 서버에서 크롤링하면 흔히 발생합니다. 한국 IP 프록시를 사용하거나 국내 서버에서 실행해야 합니다.

7. 로봇 배제 표준 (robots.txt)

증상: 크롤링은 가능하나 법적 리스크 존재
원인: 사이트가 robots.txt로 특정 경로 크롤링 금지
빈도: (대부분의 사이트에 존재)
대응 난이도: (기술) / (법적)

기술적으로는 무시할 수 있지만, 법적으로는 다른 이야기입니다. 대기업 사이트를 상업 목적으로 크롤링할 때는 반드시 확인이 필요합니다.

8. WAF (Web Application Firewall)

증상: 갑작스러운 차단, 일관성 없는 응답
원인: Cloudflare, AWS WAF 등이 트래픽 패턴을 종합 분석
빈도:
대응 난이도:

WAF는 IP, 요청 빈도, 브라우저 지문, TLS 핸드셰이크 패턴을 종합 분석합니다. Cloudflare의 "5초 챌린지"를 우회하려면 JavaScript 실행 환경이 필수입니다. 2025년부터 Cloudflare Turnstile이 reCAPTCHA를 대체하는 사이트가 급증하고 있습니다.


카테고리 2: 사이트 변경 (6가지)

만들 때는 완벽했던 크롤러가 어느 날 빈 데이터를 반환합니다. 아무도 알려주지 않습니다.

9. HTML 구조 변경

증상: 빈 데이터 또는 잘못된 데이터 반환
원인: 대상 사이트 프론트엔드 업데이트
빈도: (가장 흔한 장애 원인)
대응 난이도:

네이버 쇼핑은 연간 수십 회 프론트엔드를 업데이트합니다. 쿠팡, 11번가, G마켓도 마찬가지입니다. 클래스명이 product-price에서 prd_price_v2로 바뀌고, div 구조가 달라지고, 새 컴포넌트가 추가됩니다.

실제 데이터: 크롤러 하나당 연간 평균 6~12회 구조 변경 대응이 필요합니다. 크롤러 10개면 연간 60~120회 — 3일에 한 번 꼴로 어딘가가 깨집니다.

자체 해결 비용: 건당 3~5시간 × 연 8회 = 24~40시간/년/크롤러

10. SPA/동적 렌더링 전환

증상: 기존에 잘 가져오던 페이지가 빈 HTML만 반환
원인: React/Vue/Angular 등 SPA로 전면 리뉴얼
빈도:
대응 난이도:

SSR → SPA 전환 시 기존 HTTP 기반 크롤러는 완전히 무용지물이 됩니다. Headless 브라우저 기반으로 전면 재작성이 필요하고, 리소스 소모도 10배 이상 증가합니다.

11. API 엔드포인트 변경

증상: API 호출 시 404 또는 응답 포맷 변경
원인: 내부 API URL/스키마 변경
빈도:
대응 난이도:

SPA 사이트의 내부 REST/GraphQL API를 직접 호출하면 HTML 파싱보다 효율적이지만, API 버전이 v2→v3으로 바뀌면 파싱 로직 전체를 재작성해야 합니다.

12. URL 패턴 변경

증상: 기존 URL이 404 반환
원인: URL 구조 리뉴얼
빈도:
대응 난이도:

예: /product/12345/shop/items/12345. 크롤러의 URL 생성 로직 수정이 필요합니다.

13. 페이지네이션 방식 변경

증상: 다음 페이지 로딩 실패, 첫 페이지만 반복 수집
원인: 페이지 번호 → 무한스크롤, 또는 오프셋 → 커서 기반 전환
빈도:
대응 난이도:

14. 콘텐츠 로딩 방식 변경

증상: 일부 데이터만 수집되고 나머지 누락
원인: Lazy loading, Intersection Observer 기반 스크롤 트리거 도입
빈도:
대응 난이도:


카테고리 3: 인프라/네트워크 (5가지)

크롤러 코드는 정상인데 실행 환경에서 문제가 발생합니다.

15. 서버 리소스 부족

증상: 속도 저하, OOM(Out of Memory) 크래시
원인: 메모리, CPU, 디스크 용량 부족
빈도:
대응 난이도:

Headless 브라우저(Chromium)는 탭 하나당 200~500MB 메모리를 소모합니다. 10개 동시 크롤링이면 2~5GB가 필요합니다. 메모리 누수까지 고려하면 주기적 프로세스 재시작이 필수입니다.

16. 프록시 장애

증상: 연결 타임아웃, 간헐적 실패
원인: 프록시 서버 다운, IP 만료, 제공업체 장애
빈도:
대응 난이도:

17. DNS 해석 실패

증상: "호스트를 찾을 수 없음" 에러
원인: DNS 서버 장애, 도메인 변경
빈도:
대응 난이도:

18. SSL/TLS 인증서 문제

증상: SSL 핸드셰이크 실패
원인: 대상 사이트 인증서 만료/갱신 지연
빈도:
대응 난이도:

19. 대상 서버 다운타임

증상: 503 Service Unavailable, 504 Gateway Timeout
원인: 대상 사이트 점검 또는 장애
빈도:
대응 난이도: (재시도 + 알림 구현)


카테고리 4: 인증/세션 (4가지)

로그인이 필요한 사이트를 크롤링할 때 특히 골치 아픕니다.

20. 로그인 세션 만료

증상: 갑자기 로그인 페이지로 리다이렉트
원인: 세션 쿠키 만료, 토큰 TTL 초과
빈도:
대응 난이도:

21. 2FA/MFA 인증 요구

증상: SMS/이메일 인증 요구
원인: 새로운 기기/IP에서 접속하여 보안 인증 트리거
빈도:
대응 난이도:

2FA 자동화는 기술적으로 매우 까다롭고, 대부분의 서비스 약관에서 금지합니다. 수동 개입 없이는 해결이 거의 불가능합니다.

22. OAuth 토큰 갱신 실패

증상: API 호출 시 401 Unauthorized
원인: Refresh token 만료, OAuth 앱 권한 변경
빈도:
대응 난이도:

23. 쿠키 정책 변경

증상: 기존 인증 흐름이 갑자기 깨짐
원인: SameSite 정책 강화, 쿠키 이름/도메인/경로 변경
빈도:
대응 난이도:


카테고리 5: 데이터 품질 (4가지)

크롤러는 돌아가는데 수집된 데이터를 믿을 수 없습니다. 발견이 늦을수록 피해가 커집니다.

24. 허니팟(Honeypot) 데이터

증상: 수집 데이터에 가짜 정보 혼입
원인: 사이트가 봇에게 의도적으로 잘못된 데이터 제공
빈도:
대응 난이도:

가장 교활한 방어 수단입니다. 실제와 다른 가격, 존재하지 않는 상품을 봇에게만 보여줍니다. 사람이 직접 대조하기 전까지 데이터 오염을 알기 어렵습니다.

25. 개인화된 콘텐츠

증상: 같은 URL인데 수집 시마다 다른 데이터
원인: 개인화 알고리즘, A/B 테스트, 지역별 가격 차등
빈도:
대응 난이도:

26. 인코딩 문제

증상: 한글 깨짐, 특수문자 오류
원인: UTF-8과 EUC-KR 혼용, 캐릭터셋 불일치
빈도: (한국 사이트에서 특히 흔함)
대응 난이도:

오래된 한국 쇼핑몰이나 공공기관 사이트에서 자주 발생합니다. 페이지 헤더는 UTF-8을 선언하면서 실제 본문은 EUC-KR인 경우가 아직도 있습니다.

27. 동적 가격/재고 불일치

증상: 수집 가격과 실제 표시 가격이 다름
원인: 실시간 가격 변동, 지역별·회원등급별 차등 가격
빈도: (이커머스 필수 고려)
대응 난이도:


장애 대응에 드는 실제 비용

27가지 장애를 모두 자체 대응하면 얼마나 들까요?

인력

역할 필요 수준 연봉 (2025 기준)
크롤링 시니어 개발자 5년+ 경력, 차단 우회 실무 8,000만~1.2억원
인프라 엔지니어 서버/프록시/모니터링 운영 6,000만~9,000만원

크롤러 5개 이상이면 최소 1명은 크롤링 전담이어야 합니다. 겸직하면 장애 대응이 밀려 데이터 공백이 발생합니다.

인프라

항목 월 비용
서버 (크롤러 실행) 50만~200만원
프록시 서비스 50만~300만원
캡챠 풀이 서비스 10만~50만원
모니터링/알림 10만~30만원
합계 120만~580만원/월

시간

장애 카테고리 평균 대응 시간 월 발생 빈도 연간 투입 시간
접근 차단 4~16시간 2~4회 96~768시간
사이트 변경 2~8시간 1~3회 24~288시간
인프라 장애 1~4시간 1~2회 12~96시간
인증 문제 2~6시간 0.3~0.7회 7~50시간
합계 139~1,202시간/년

크롤러 5개 기준 연간 200~500시간이 장애 대응에만 소모됩니다. 시니어 개발자 업무 시간의 10~25%입니다.


이 문제를 해결하는 3가지 방법

방법 1: 직접 구축

위에서 분석한 대로 인력+인프라에 연 1.5억~3억원이 필요합니다. 크롤링이 핵심 사업이거나 전문 인력을 이미 보유한 기업에 적합합니다.

방법 2: 구독제 — 올인원 대행

크롤러 개발부터 운영, 유지보수, 장애 대응까지 전부 맡기는 방식입니다.

장애 카테고리 직접 대응 시 해시스크래퍼 구독제
접근 차단 (8가지) 프록시+우회 직접 개발·관리 자체 기술로 해결
사이트 변경 (6가지) 감지+수동 수정 24시간 내 자동 대응
인프라 (5가지) 서버·프록시 직접 운영 전용 인프라 포함
인증/세션 (4가지) 세션 관리 직접 구현 자동화 포함
데이터 품질 (4가지) 검증 로직 직접 개발 다단계 품질 검증

데이터가 필요하지 크롤러가 필요한 게 아닌 기업에 적합합니다. 월 300만원부터.

방법 3: MCP/API — 개발팀이 직접 연동

자체 개발팀이 있지만 차단 우회와 인프라 관리는 맡기고 싶은 경우입니다. AI 에이전트에서 크롤링 API를 호출하는 것도 이 방식입니다.

Firecrawl, Jina Reader 같은 글로벌 서비스는 한국 주요 사이트(쿠팡, 네이버, 인스타그램)에서 전부 차단됩니다. 해시스크래퍼 MCP 서버는 8년간 축적한 차단 우회 기술로 이를 해결합니다.

크레딧 요금제로 월 3만원부터 시작할 수 있습니다.


결론: 어떤 선택이 맞을까?

상황 추천
크롤링이 핵심 사업 + 전문 인력 보유 직접 구축
데이터만 필요, 개발·운영은 맡기고 싶음 구독제
개발팀 있음, 차단 우회+인프라만 필요 MCP/API
소규모·비정기 수집 크레딧

27가지 장애를 직접 감당할 준비가 되셨나요? 아니라면, 8년 경험에 맡기세요.

크레딧으로 시작하기 →

MCP 서버 알아보기 →

구독제 상담 →


해시스크래퍼 — 크롤링 장애는 우리가 처리합니다. 당신은 데이터에 집중하세요.

댓글

댓글 작성

이메일은 공개되지 않으며, 답글 알림에만 사용됩니다.

이어서 읽어보세요

새 글 알림 받기

해시스크래퍼 기술 블로그의 새 글이 발행되면 이메일로 알려드립니다.

이메일은 새 글 알림에만 사용됩니다.