"크롤링하면 잡혀가나요?"
개발자 커뮤니티에서 매년 반복되는 질문입니다. 어떤 글은 "공개 데이터니까 자유롭게 수집 가능"이라 하고, 다른 글은 "함부로 하면 형사 처벌까지 받을 수 있다"고 합니다. 혼란스러운 이유가 있습니다 — 둘 다 맞는 말이기 때문입니다. 상황에 따라 같은 행위가 합법이 되기도, 위법이 되기도 합니다.
2024-2025년에는 AI 학습 데이터 수집을 둘러싼 대규모 소송이 연이어 제기되면서, 크롤링의 법적 경계선이 그 어느 때보다 뜨거운 이슈가 되었습니다. 이 글에서는 한국법, 미국법, EU 규정을 기준으로 크롤링의 법적 쟁점을 정리합니다. 법률 자문을 대체하지는 않지만, "어디까지가 안전하고 어디서부터 위험한가"에 대한 실무적 판단 기준을 세우는 데 도움이 될 것입니다.
목차
- 크롤링 자체는 합법인가?
- 한국에서 적용되는 법률
- 한국의 주요 크롤링 관련 판례
- 미국의 주요 판례와 법률
- EU — GDPR과 데이터베이스 지시령
- AI 학습 데이터와 크롤링 — 2025년의 새로운 전선
- robots.txt의 법적 효력
- 이용약관(ToS) 위반은 불법인가?
- 실무 체크리스트 — 안전하게 크롤링하는 법
- 기업이 크롤링 서비스를 이용하는 이유
- 자주 묻는 질문 (FAQ)
크롤링 자체는 합법인가?
짧은 답변: 크롤링이라는 기술 자체는 합법입니다. 불법이 되는 것은 크롤링이 아니라, 무엇을, 어떻게, 왜 수집하느냐에 따라 달라집니다.
웹 브라우저로 웹사이트에 접속해서 화면에 표시된 정보를 읽는 행위는 아무 문제가 없습니다. 크롤링은 이 과정을 프로그램이 대신 수행하는 것뿐입니다. 하지만 다음 상황에서는 법적 문제가 발생합니다:
| 상황 | 위험도 | 관련 법률 |
|---|---|---|
| 공개된 상품 가격 수집 | 낮음 | — |
| 로그인 후 비공개 데이터 수집 | 높음 | 정보통신망법, CFAA |
| 개인정보(이름, 연락처 등) 수집 | 매우 높음 | 개인정보보호법, GDPR |
| 저작물 전체 복제 | 높음 | 저작권법 |
| 서버에 과부하를 주는 대량 수집 | 중간~높음 | 정보통신망법, 업무방해죄 |
| robots.txt 무시 | 중간 | 판례에 따라 다름 |
| AI 모델 학습용 대규모 수집 | 논쟁 중 | 저작권법, AI 관련 신규 법안 |
핵심 원칙은 이렇습니다: "공개 데이터를 합리적인 방법으로 수집하는 것"은 대체로 합법이고, "접근 제한을 우회하거나 개인정보·저작물을 무단 수집하는 것"은 위험합니다.
한국에서 적용되는 법률
한국에서 크롤링과 관련된 법률은 크게 네 가지입니다. 각 법률이 보호하는 대상이 다르므로, 하나의 크롤링 행위에 여러 법률이 동시에 적용될 수 있습니다.
1. 정보통신망 이용촉진 및 정보보호 등에 관한 법률 (정보통신망법)
핵심 조항: 제48조 (정보통신망 침해행위 등의 금지)
누구든지 정당한 접근권한 없이 또는 허용된 접근권한을 넘어 정보통신망에 침입하여서는 아니 된다.
이 조항이 크롤링에서 가장 자주 문제됩니다. 쟁점은 "정당한 접근권한"의 범위입니다.
- 공개 웹페이지 접근: 일반적으로 합법. 누구나 접근할 수 있도록 공개된 페이지에 프로그램으로 접근하는 것은 "정당한 접근"으로 볼 수 있습니다.
- 로그인 우회 / 인증 우회: 위법 가능성 높음. CAPTCHA를 우회하거나, 타인의 계정 정보로 접근하는 경우 접근권한을 넘은 것으로 판단될 수 있습니다.
- IP 차단 우회: 회색 지대. 사이트가 특정 IP를 차단했는데 프록시로 우회하는 경우, "허용된 접근권한을 넘는" 행위로 해석될 여지가 있습니다.
또한 제48조 제2항은 "정보통신망의 안정적 운영을 방해할 수 있는 악성프로그램을 전달 또는 유포"하는 행위를 금지하며, 제48조 제3항은 정보통신망에 장애를 발생하게 하는 행위를 금지합니다. 서버에 과도한 부하를 주는 크롤링은 이 조항에 해당할 수 있습니다.
벌칙: 5년 이하의 징역 또는 5,000만 원 이하의 벌금
2. 개인정보 보호법
2020년 데이터 3법 개정과 2023년 전면 개정으로 개인정보 처리에 대한 규제가 크게 강화되었습니다.
크롤링에서 문제되는 경우:
- 이름, 전화번호, 이메일 등 개인정보 수집: 정보주체의 동의 없이 수집하면 위법. 웹에 공개되어 있더라도, 그 공개 목적과 다른 용도로 수집·이용하면 문제됩니다.
- 공개된 개인정보의 예외: 2023년 개정법에서 '공개된 개인정보' 처리에 대한 기준이 구체화되었습니다. 정보주체가 직접 공개한 정보라도, 수집 목적이 공개 목적과 상당한 관련이 있고 정보주체의 이익을 부당하게 침해하지 않는 범위에서만 허용됩니다.
- 가명처리와 예외: 통계 작성, 과학적 연구 등의 목적이라면 가명처리 후 동의 없이 이용할 수 있지만, 이는 엄격한 요건 하에서만 가능합니다.
벌칙: 위반 유형에 따라 5년 이하의 징역, 5,000만 원 이하의 벌금, 또는 전체 매출액의 3% 이하 과징금
3. 저작권법
웹 콘텐츠가 저작물에 해당하면, 이를 복제·전송하는 행위에 저작권이 적용됩니다.
크롤링에서의 쟁점:
- 사실 정보(Fact) vs 창작물: 상품 가격, 주소, 영업시간 같은 사실 정보는 저작권 보호 대상이 아닙니다. 하지만 뉴스 기사, 블로그 글, 상품 리뷰 등 창작적 표현이 담긴 콘텐츠는 저작물입니다.
- 데이터베이스 보호: 한국 저작권법은 데이터베이스 제작자의 권리를 별도로 보호합니다(제93조). 개별 데이터는 저작물이 아니더라도, 그것을 체계적으로 수집·정리한 데이터베이스 자체는 보호 대상입니다. 데이터베이스의 전부 또는 상당 부분을 복제·배포하면 위법입니다.
- 일시적 복제: 크롤링 과정에서 데이터를 메모리에 임시 저장하는 것도 기술적으로는 복제에 해당할 수 있으나, 저작권법 제35조의2에서 원활한 이용을 위한 일시적 복제는 예외로 인정합니다.
- 텍스트·데이터 마이닝(TDM) 예외: 일부 국가에서는 비상업적 연구 목적의 텍스트·데이터 마이닝에 대해 저작권 예외를 인정하고 있습니다. 한국에서도 관련 논의가 진행 중이나, 아직 명시적 예외 규정은 없습니다.
4. 부정경쟁방지 및 영업비밀보호에 관한 법률
제2조 제1호의 일반조항(카목)이 크롤링에 적용될 수 있습니다. 이 조항은 2013년 신설 이후 여러 차례 개정을 거쳐 현재의 형태가 되었습니다:
그 밖에 타인의 상당한 투자나 노력으로 만들어진 성과 등을 공정한 상거래 관행이나 경쟁질서에 반하는 방법으로 자신의 영업을 위하여 무단으로 사용함으로써 타인의 경제적 이익을 침해하는 행위
쉽게 말해, 경쟁사가 큰 비용을 들여 구축한 데이터베이스를 통째로 크롤링해서 자기 서비스에 활용하면, 이 조항에 해당할 수 있습니다. 이 일반조항은 다른 법률로 보호받기 어려운 "데이터 무임승차" 행위를 포착하기 위한 것입니다.
한국의 주요 크롤링 관련 판례
법조문만으로는 실제로 어디에 선이 그어지는지 판단하기 어렵습니다. 실제 판례를 살펴봐야 합니다.
잡코리아 vs 사람인 (2017)
사건 개요: 채용 플랫폼 사람인이 경쟁사 잡코리아의 채용공고 데이터를 크롤링하여 자사 서비스에 표시한 사건입니다.
법원 판단: 법원은 잡코리아가 상당한 투자와 노력을 들여 구축한 채용공고 데이터베이스를 사람인이 무단으로 크롤링하여 경쟁 서비스에 활용한 행위를 부정경쟁행위로 판단했습니다.
시사점: 경쟁사의 핵심 데이터를 크롤링해서 동일한 사업에 활용하는 것은 부정경쟁방지법에 의해 제재될 수 있습니다. 단순히 "공개된 데이터"라는 이유만으로 자유롭게 사용할 수 없습니다.
골목식당 리뷰 크롤링과 저작권 논란
국내에서는 포털 사이트의 맛집 리뷰, 블로그 콘텐츠 등을 대량으로 크롤링하여 자사 서비스에 활용하는 행위가 반복적으로 문제되었습니다. 이러한 사례에서 법원은 개별 리뷰가 저작물에 해당하는지, 그리고 리뷰 데이터베이스의 상당 부분을 복제했는지를 기준으로 판단합니다.
시사점: 사용자 생성 콘텐츠(UGC)라도 창작성이 인정되면 저작물이며, 이를 대량으로 복제하면 저작권법과 데이터베이스 보호 규정에 저촉될 수 있습니다.
기술적 보호 조치 우회와 정보통신망법
한국 대법원은 웹사이트의 기술적 보호 조치를 우회하여 데이터를 수




