"분명 어제까지 잘 됐는데?" — 크롤러를 운영해본 사람이라면 누구나 한 번쯤 해본 말
읽는 시간: 7분 | 최종 업데이트: 2026년 1월
크롤러의 수명은 생각보다 짧다
크롤러를 만들면 처음엔 완벽하게 돌아갑니다. 데이터가 깔끔하게 들어오고, 스케줄러도 잘 동작합니다.
그런데 시간이 지나면서 이런 일이 생깁니다:
- 1주 차: 아무 문제 없음. "역시 내가 잘 만들었어"
- 1개월 차: 특정 페이지에서 빈 데이터가 들어오기 시작
- 3개월 차: 에러는 안 나는데 수집 결과가 이상함. IP도 차단됨
- 6개월 차: 사이트 리뉴얼로 크롤러 절반이 작동 불능
크롤러가 망가지는 게 아닙니다. 웹사이트가 계속 바뀌는 겁니다.
이 글에서는 웹사이트가 왜 끊임없이 변하는지, 그리고 크롤러 유지보수가 왜 끝없는 싸움이 되는지 기술적으로 설명합니다.
실제 사례: 이커머스 가격 모니터링 크롤러
한 기업이 오픈마켓 3곳(쿠팡, 11번가, G마켓)의 경쟁사 가격을 모니터링하는 크롤러를 개발했습니다.
처음 3개월: 완벽하게 작동. 매일 아침 엑셀 리포트가 자동 생성됨.
4개월 차: 쿠팡이 프론트엔드를 리뉴얼. 크롤러가 빈 데이터를 반환하기 시작했지만, 담당자가 눈치채기까지 일주일이 걸림. 수정에 3일 소요.
6개월 차: 11번가가 봇 탐지를 강화. IP 차단이 시작됨. 프록시 서비스를 도입했지만 월 30만원 추가 비용 발생.
9개월 차: G마켓이 API 응답 구조를 변경. JSON 파싱이 깨짐. 외주 개발자에게 수정을 의뢰했지만, 코드 파악에만 2일, 수정에 3일 소요. 비용 120만원.
1년 후 총 비용: 초기 개발 300만원 + 유지보수(수정 4회) 480만원 + 프록시 180만원 = 960만원. 처음 예상의 3배.
이 기업은 결국 구독형 크롤링 서비스로 전환했습니다. 이유는 단순합니다: 예측할 수 없는 유지보수 비용보다, 예측 가능한 월정액이 경영에 낫다.
웹사이트가 변하는 7가지 이유
1. 프론트엔드 리뉴얼
가장 흔한 원인입니다. 기업은 UX 개선, 브랜딩 변경, 성능 최적화를 위해 정기적으로 프론트엔드를 바꿉니다.
- 빈도: 대형 사이트는 분기 1~2회 대규모 리뉴얼
- 영향: HTML 구조, CSS 클래스명, DOM 트리 전체가 변경
- 크롤러에 미치는 영향: selector 기반 파싱이 전부 깨짐
네이버, 쿠팡, 11번가 같은 대형 사이트는 프론트엔드 변경이 특히 잦습니다. React, Vue.js 같은 SPA 프레임워크 도입 이후에는 SSR과 CSR이 혼합되면서 크롤링 난이도가 크게 올라갔습니다.
2. A/B 테스트
대형 사이트는 항상 A/B 테스트를 돌리고 있습니다. 같은 URL인데 사용자마다 다른 HTML이 내려옵니다.
- 빈도: 상시 운영 (동시에 수십 개 테스트)
- 영향: 같은 페이지인데 접속할 때마다 구조가 다름
- 크롤러에 미치는 영향: 수집할 때마다 결과가 달라지고, 디버깅이 어려움
"어제까지 잘 되다가 오늘 안 되는" 현상의 원인 중 상당수가 A/B 테스트입니다. 테스트 그룹에 따라 DOM 구조가 완전히 다를 수 있기 때문입니다.
3. 봇 탐지/차단 강화
웹사이트는 지속적으로 봇 탐지 시스템을 업그레이드합니다.
- 기술: Cloudflare, Akamai Bot Manager, PerimeterX, DataDome
- 탐지 방법: IP 패턴, 브라우저 핑거프린팅, 행동 분석, JavaScript 챌린지
- 업데이트 빈도: 월 1~2회 규칙 변경
특히 한국의 네이버, 쿠팡은 자체 봇 탐지 시스템을 운영하면서 차단 규칙을 지속적으로 강화하고 있습니다. 어제 통과하던 User-Agent와 헤더 조합이 오늘은 차단될 수 있습니다.
4. API 엔드포인트 변경
프론트엔드가 그대로여도 내부 API가 바뀌면 크롤러가 깨집니다.
- 형태: API 버전 업데이트, 파라미터 변경, 응답 구조 변경
- 빈도: 백엔드 배포마다 (주 1~2회)
- 크롤러에 미치는 영향: JSON 파싱 실패, 인증 방식 변경
REST API를 직접 호출하는 크롤러가 특히 취약합니다. 기업은 내부 API를 외부에 공개하지 않으므로 변경 사항을 사전에 알 수 없습니다.
5. 인증/보안 정책 변경
로그인이 필요한 사이트는 인증 방식을 주기적으로 바꿉니다.
- 형태: 2FA 추가, 세션 만료 시간 단축, CAPTCHA 추가, 토큰 방식 변경
- 빈도: 분기 1~2회
- 크롤러에 미치는 영향: 로그인 자동화가 깨짐
금융, 공공기관 사이트는 보안 강화 주기가 짧고, 변경 시 별도 공지 없이 적용하는 경우가 많습니다.
6. 동적 콘텐츠 로딩 방식 변경
JavaScript로 콘텐츠를 로딩하는 방식이 점점 복잡해지고 있습니다.
- 형태: Lazy Loading, Infinite Scroll, WebSocket 기반 실시간 업데이트
- 트렌드: 정적 HTML → AJAX → SPA → SSR/ISR 하이브리드
- 크롤러에 미치는 영향: 단순 HTTP 요청으로 데이터를 가져올 수 없음
Headless 브라우저(Puppeteer, Playwright)를 써야 하는 사이트가 매년 늘어나고 있고, 이는 크롤링 비용과 복잡성을 크게 높입니다.
7. 법적/정책적 변경
robots.txt 변경, 이용약관 업데이트, 접근 제한 강화도 크롤러에 영향을 줍니다.
- 형태: robots.txt 크롤링 제한 추가, rate limit 강화, 지역별 접근 제한
- 빈도: 반기 1~2회
- 크롤러에 미치는 영향: 합법적 수집 범위가 좁아짐
사이트별 변경 빈도 — 7년간의 관찰
해시스크래퍼는 7년간 5,000개 이상의 사이트를 크롤링해왔습니다. 그 경험에서 정리한 사이트 유형별 변경 빈도입니다:
| 사이트 유형 | 프론트엔드 변경 빈도 | 크롤러 수정 필요 빈도 |
|---|---|---|
| 대형 이커머스 (쿠팡, 11번가) | 매주~격주 | 월 2~4회 |
| 포털 (네이버, 다음) | 격주~월 1회 | 월 1~2회 |
| 소셜 미디어 (인스타그램, X) | 월 1~2회 | 월 1~2회 |
| 공공기관/금융 | 분기 1~2회 | 분기 1~2회 |
| 중소 쇼핑몰 | 반기~연 1회 | 반기 1~2회 |
핵심: 대형 사이트일수록 변경이 잦습니다. 크롤러 10개를 운영하면 매주 최소 1~2개는 손봐야 합니다.
우리 회사 크롤러, 괜찮은 걸까? — 자가 진단
아래 항목 중 3개 이상 해당되면, 크롤러 유지보수 전략을 재검토할 시점입니다:
- [ ] 최근 3개월 내 크롤러가 갑자기 안 된 적이 있다
- [ ] 사이트 변경 때마다 개발자가 직접 코드를 수정한다
- [ ] 크롤러 장애를 발견하기까지 24시간 이상 걸린 적이 있다
- [ ] 프록시 비용이 점점 올라가고 있다
- [ ] CAPTCHA 우회 때문에 별도 서비스를 쓰고 있다
- [ ] 크롤러 코드를 이해하는 사람이 1명뿐이다
- [ ] 크롤러 유지보수에 주당 4시간 이상 쓰고 있다
5개 이상 해당? 지금 쓰고 있는 비용이 전문 서비스보다 클 가능성이 높습니다.
크롤러 유지보수의 숨겨진 비용
크롤러를 직접 운영할 때 실제로 발생하는 비용입니다.
초기 개발비
| 항목 | 비용 |
|---|---|
| 크롤러 개발 (단순 사이트) | 50~100만원 |
| 크롤러 개발 (복잡한 사이트) | 200~500만원 |
| Headless 브라우저 설정 | +50~100만원 |
| 프록시/차단 우회 구축 | +50~200만원 |
연간 유지보수비 (크롤러 1개 기준)
| 항목 | 월 비용 | 연 비용 |
|---|---|---|
| 사이트 변경 대응 (월 1~2회) | 50~100만원 | 600~1,200만원 |
| 서버/인프라 | 10~30만원 | 120~360만원 |
| 프록시 비용 | 10~50만원 | 120~600만원 |
| 모니터링/장애 대응 | 20~50만원 | 240~600만원 |
| 합계 | 90~230만원 | 1,080~2,760만원 |
크롤러 10개를 운영한다면, 연간 1억~2.8억원입니다. 여기에 개발자 인건비(연 6,000만~1.2억)까지 더하면, 직접 운영의 실제 비용이 드러납니다.
해결 방법 비교
| 방법 | 비용 | 대응 속도 | 장점 | 단점 |
|---|---|---|---|---|
| 전담 인력 채용 | 연 6,000만~1.2억 | 즉시 | 완전한 통제 | 채용 어려움, 1인 한계 |
| 문제 시 외주 | 건당 50~150만 | 3~7일 | 필요 시만 비용 | 느림, 품질 편차 |
| 구독형 서비스 | 월 300만~ | 24시간 이내 | 예측 가능, 전문가 풀 | 자체 코드 소유 X |
| 크레딧형 셀프서브 | 월 3만~ | 즉시 (프리빌트) | 저렴, 즉시 시작 | 사이트 한정 |
크롤러 1~2개: 외주나 크레딧형으로 충분합니다.
크롤러 3개 이상: 전담 인력이나 구독형 서비스가 비용 효율적입니다.
일단 시작: 크레딧형은 월 3만원부터 시작할 수 있어, 부담 없이 테스트하기 좋습니다.
결론
크롤러는 한 번 만들면 끝이 아닙니다. 웹은 살아있는 생태계이고, 사이트는 매주 변합니다.
핵심 질문은 "유지보수를 어떻게 없앨까"가 아닙니다. "유지보수를 누가, 어떤 구조로, 얼마에 할 것인가"입니다.
직접 운영의 숨겨진 비용을 정직하게 계산해보면, 답은 의외로 명확합니다.
다음 단계
- 크레딧으로 테스트하기 — 월 3만원~, 프리빌트 봇 즉시 사용
- 구독제 무료 상담 — 맞춤 크롤링이 필요하다면
유지보수 걱정 없이 데이터에만 집중하고 싶다면, 해시스크래퍼가 대신 해드립니다.
해시스크래퍼 — 7년간 5,000개 사이트를 크롤링한 전문가 팀




