왜 크롤러는 계속 망가지는가: 웹사이트가 변하는 진짜 이유

크롤러가 망가지는 것이 아니라 웹사이트가 계속 변화하는 이유와 크롤러 유지보수의 중요성에 대한 기술적 설명

47
왜 크롤러는 계속 망가지는가: 웹사이트가 변하는 진짜 이유

"분명 어제까지 잘 됐는데?" — 크롤러를 운영해본 사람이라면 누구나 한 번쯤 해본 말

읽는 시간: 7분 | 최종 업데이트: 2026년 1월


크롤러의 수명은 생각보다 짧다

크롤러를 만들면 처음엔 완벽하게 돌아갑니다. 데이터가 깔끔하게 들어오고, 스케줄러도 잘 동작합니다.

그런데 시간이 지나면서 이런 일이 생깁니다:

  • 1주 차: 아무 문제 없음. "역시 내가 잘 만들었어"
  • 1개월 차: 특정 페이지에서 빈 데이터가 들어오기 시작
  • 3개월 차: 에러는 안 나는데 수집 결과가 이상함. IP도 차단됨
  • 6개월 차: 사이트 리뉴얼로 크롤러 절반이 작동 불능

크롤러가 망가지는 게 아닙니다. 웹사이트가 계속 바뀌는 겁니다.

이 글에서는 웹사이트가 왜 끊임없이 변하는지, 그리고 크롤러 유지보수가 왜 끝없는 싸움이 되는지 기술적으로 설명합니다.


실제 사례: 이커머스 가격 모니터링 크롤러

한 기업이 오픈마켓 3곳(쿠팡, 11번가, G마켓)의 경쟁사 가격을 모니터링하는 크롤러를 개발했습니다.

처음 3개월: 완벽하게 작동. 매일 아침 엑셀 리포트가 자동 생성됨.

4개월 차: 쿠팡이 프론트엔드를 리뉴얼. 크롤러가 빈 데이터를 반환하기 시작했지만, 담당자가 눈치채기까지 일주일이 걸림. 수정에 3일 소요.

6개월 차: 11번가가 봇 탐지를 강화. IP 차단이 시작됨. 프록시 서비스를 도입했지만 월 30만원 추가 비용 발생.

9개월 차: G마켓이 API 응답 구조를 변경. JSON 파싱이 깨짐. 외주 개발자에게 수정을 의뢰했지만, 코드 파악에만 2일, 수정에 3일 소요. 비용 120만원.

1년 후 총 비용: 초기 개발 300만원 + 유지보수(수정 4회) 480만원 + 프록시 180만원 = 960만원. 처음 예상의 3배.

이 기업은 결국 구독형 크롤링 서비스로 전환했습니다. 이유는 단순합니다: 예측할 수 없는 유지보수 비용보다, 예측 가능한 월정액이 경영에 낫다.


웹사이트가 변하는 7가지 이유

1. 프론트엔드 리뉴얼

가장 흔한 원인입니다. 기업은 UX 개선, 브랜딩 변경, 성능 최적화를 위해 정기적으로 프론트엔드를 바꿉니다.

  • 빈도: 대형 사이트는 분기 1~2회 대규모 리뉴얼
  • 영향: HTML 구조, CSS 클래스명, DOM 트리 전체가 변경
  • 크롤러에 미치는 영향: selector 기반 파싱이 전부 깨짐

네이버, 쿠팡, 11번가 같은 대형 사이트는 프론트엔드 변경이 특히 잦습니다. React, Vue.js 같은 SPA 프레임워크 도입 이후에는 SSR과 CSR이 혼합되면서 크롤링 난이도가 크게 올라갔습니다.

2. A/B 테스트

대형 사이트는 항상 A/B 테스트를 돌리고 있습니다. 같은 URL인데 사용자마다 다른 HTML이 내려옵니다.

  • 빈도: 상시 운영 (동시에 수십 개 테스트)
  • 영향: 같은 페이지인데 접속할 때마다 구조가 다름
  • 크롤러에 미치는 영향: 수집할 때마다 결과가 달라지고, 디버깅이 어려움

"어제까지 잘 되다가 오늘 안 되는" 현상의 원인 중 상당수가 A/B 테스트입니다. 테스트 그룹에 따라 DOM 구조가 완전히 다를 수 있기 때문입니다.

3. 봇 탐지/차단 강화

웹사이트는 지속적으로 봇 탐지 시스템을 업그레이드합니다.

  • 기술: Cloudflare, Akamai Bot Manager, PerimeterX, DataDome
  • 탐지 방법: IP 패턴, 브라우저 핑거프린팅, 행동 분석, JavaScript 챌린지
  • 업데이트 빈도: 월 1~2회 규칙 변경

특히 한국의 네이버, 쿠팡은 자체 봇 탐지 시스템을 운영하면서 차단 규칙을 지속적으로 강화하고 있습니다. 어제 통과하던 User-Agent와 헤더 조합이 오늘은 차단될 수 있습니다.

4. API 엔드포인트 변경

프론트엔드가 그대로여도 내부 API가 바뀌면 크롤러가 깨집니다.

  • 형태: API 버전 업데이트, 파라미터 변경, 응답 구조 변경
  • 빈도: 백엔드 배포마다 (주 1~2회)
  • 크롤러에 미치는 영향: JSON 파싱 실패, 인증 방식 변경

REST API를 직접 호출하는 크롤러가 특히 취약합니다. 기업은 내부 API를 외부에 공개하지 않으므로 변경 사항을 사전에 알 수 없습니다.

5. 인증/보안 정책 변경

로그인이 필요한 사이트는 인증 방식을 주기적으로 바꿉니다.

  • 형태: 2FA 추가, 세션 만료 시간 단축, CAPTCHA 추가, 토큰 방식 변경
  • 빈도: 분기 1~2회
  • 크롤러에 미치는 영향: 로그인 자동화가 깨짐

금융, 공공기관 사이트는 보안 강화 주기가 짧고, 변경 시 별도 공지 없이 적용하는 경우가 많습니다.

6. 동적 콘텐츠 로딩 방식 변경

JavaScript로 콘텐츠를 로딩하는 방식이 점점 복잡해지고 있습니다.

  • 형태: Lazy Loading, Infinite Scroll, WebSocket 기반 실시간 업데이트
  • 트렌드: 정적 HTML → AJAX → SPA → SSR/ISR 하이브리드
  • 크롤러에 미치는 영향: 단순 HTTP 요청으로 데이터를 가져올 수 없음

Headless 브라우저(Puppeteer, Playwright)를 써야 하는 사이트가 매년 늘어나고 있고, 이는 크롤링 비용과 복잡성을 크게 높입니다.

7. 법적/정책적 변경

robots.txt 변경, 이용약관 업데이트, 접근 제한 강화도 크롤러에 영향을 줍니다.

  • 형태: robots.txt 크롤링 제한 추가, rate limit 강화, 지역별 접근 제한
  • 빈도: 반기 1~2회
  • 크롤러에 미치는 영향: 합법적 수집 범위가 좁아짐

사이트별 변경 빈도 — 7년간의 관찰

해시스크래퍼는 7년간 5,000개 이상의 사이트를 크롤링해왔습니다. 그 경험에서 정리한 사이트 유형별 변경 빈도입니다:

사이트 유형 프론트엔드 변경 빈도 크롤러 수정 필요 빈도
대형 이커머스 (쿠팡, 11번가) 매주~격주 월 2~4회
포털 (네이버, 다음) 격주~월 1회 월 1~2회
소셜 미디어 (인스타그램, X) 월 1~2회 월 1~2회
공공기관/금융 분기 1~2회 분기 1~2회
중소 쇼핑몰 반기~연 1회 반기 1~2회

핵심: 대형 사이트일수록 변경이 잦습니다. 크롤러 10개를 운영하면 매주 최소 1~2개는 손봐야 합니다.


우리 회사 크롤러, 괜찮은 걸까? — 자가 진단

아래 항목 중 3개 이상 해당되면, 크롤러 유지보수 전략을 재검토할 시점입니다:

  • [ ] 최근 3개월 내 크롤러가 갑자기 안 된 적이 있다
  • [ ] 사이트 변경 때마다 개발자가 직접 코드를 수정한다
  • [ ] 크롤러 장애를 발견하기까지 24시간 이상 걸린 적이 있다
  • [ ] 프록시 비용이 점점 올라가고 있다
  • [ ] CAPTCHA 우회 때문에 별도 서비스를 쓰고 있다
  • [ ] 크롤러 코드를 이해하는 사람이 1명뿐이다
  • [ ] 크롤러 유지보수에 주당 4시간 이상 쓰고 있다

5개 이상 해당? 지금 쓰고 있는 비용이 전문 서비스보다 클 가능성이 높습니다.


크롤러 유지보수의 숨겨진 비용

크롤러를 직접 운영할 때 실제로 발생하는 비용입니다.

초기 개발비

항목 비용
크롤러 개발 (단순 사이트) 50~100만원
크롤러 개발 (복잡한 사이트) 200~500만원
Headless 브라우저 설정 +50~100만원
프록시/차단 우회 구축 +50~200만원

연간 유지보수비 (크롤러 1개 기준)

항목 월 비용 연 비용
사이트 변경 대응 (월 1~2회) 50~100만원 600~1,200만원
서버/인프라 10~30만원 120~360만원
프록시 비용 10~50만원 120~600만원
모니터링/장애 대응 20~50만원 240~600만원
합계 90~230만원 1,080~2,760만원

크롤러 10개를 운영한다면, 연간 1억~2.8억원입니다. 여기에 개발자 인건비(연 6,000만~1.2억)까지 더하면, 직접 운영의 실제 비용이 드러납니다.


해결 방법 비교

방법 비용 대응 속도 장점 단점
전담 인력 채용 연 6,000만~1.2억 즉시 완전한 통제 채용 어려움, 1인 한계
문제 시 외주 건당 50~150만 3~7일 필요 시만 비용 느림, 품질 편차
구독형 서비스 월 300만~ 24시간 이내 예측 가능, 전문가 풀 자체 코드 소유 X
크레딧형 셀프서브 월 3만~ 즉시 (프리빌트) 저렴, 즉시 시작 사이트 한정

크롤러 1~2개: 외주나 크레딧형으로 충분합니다.
크롤러 3개 이상: 전담 인력이나 구독형 서비스가 비용 효율적입니다.
일단 시작: 크레딧형은 월 3만원부터 시작할 수 있어, 부담 없이 테스트하기 좋습니다.


결론

크롤러는 한 번 만들면 끝이 아닙니다. 웹은 살아있는 생태계이고, 사이트는 매주 변합니다.

핵심 질문은 "유지보수를 어떻게 없앨까"가 아닙니다. "유지보수를 누가, 어떤 구조로, 얼마에 할 것인가"입니다.

직접 운영의 숨겨진 비용을 정직하게 계산해보면, 답은 의외로 명확합니다.


다음 단계

유지보수 걱정 없이 데이터에만 집중하고 싶다면, 해시스크래퍼가 대신 해드립니다.


해시스크래퍼 — 7년간 5,000개 사이트를 크롤링한 전문가 팀

댓글

댓글 작성

이메일은 공개되지 않으며, 답글 알림에만 사용됩니다.

이어서 읽어보세요

새 글 알림 받기

해시스크래퍼 기술 블로그의 새 글이 발행되면 이메일로 알려드립니다.

이메일은 새 글 알림에만 사용됩니다.