Ist Web-Scraping und KI-Training wirklich illegal? - Kernpunkte des Leitfadens zur fairen Nutzung durch die Regierung

Ich habe die Kerninhalte des Leitfadens zur fairen Nutzung von AI-generierten Werken, der von vier Organisationen, darunter das Ministerium für Kultur, Sport und Tourismus, gemeinsam veröffentlicht wurde, aus Sicht eines Web-Crawling-Praktikers zusammengefasst.

218
Ist Web-Scraping und KI-Training wirklich illegal? - Kernpunkte des Leitfadens zur fairen Nutzung durch die Regierung

"크롤링은 불법이다" — 아직도 이렇게 믿는 분이 많습니다.
정부가 공식 답변을 내놓았습니다. "아닙니다."

웹 크롤링을 업무에 활용하는 기업이라면, 법적 리스크 때문에 데이터 수집 프로젝트를 보류한 경험이 한 번쯤 있으실 겁니다. 경쟁사는 이미 같은 데이터를 수집하고 있는데, 우리만 망설이고 있다는 느낌.

2026년 2월 26일, 문화체육관광부·과학기술정보통신부·국가 인공지능전략위원회·한국저작권위원회가 공동으로 「생성형 인공지능의 저작물 학습에 대한 저작권법상 "공정이용" 안내서」를 발간했습니다.

이 안내서의 핵심 메시지는 명확합니다:

"상업적 목적이나 웹 자동 수집(크롤링) 방식의 학습이라도, 공정이용에서 배제되는 것은 아닙니다."

이번 글에서는 이 안내서의 핵심 내용을 웹 크롤링 실무자 관점에서 정리해 드리겠습니다.


목차

  • 안내서가 나온 배경
  • 공정이용이란 무엇인가
  • 공정이용 4대 판단 기준
  • 크롤링 사업자가 알아야 할 핵심 포인트
  • 공정이용에 해당하지 않는 경우
  • 공정이용 자가진단 5문항
  • 함께 추진되는 정부 정책
  • FAQ

안내서가 나온 배경

생성형 AI 시대에 접어들면서 전 세계적으로 "AI가 저작물을 학습하는 행위"에 대한 법적 논쟁이 뜨거워지고 있습니다. 미국에서는 뉴욕타임스가 OpenAI를 상대로 소송을 제기했고, 일본은 AI 학습에 대해 비교적 관대한 입장을 유지하고 있습니다.

한국에서도 AI 기업, 콘텐츠 창작자, 데이터 수집 사업자 모두가 "어디까지가 합법인가"에 대한 명확한 기준을 필요로 했습니다.

이번 안내서는 문체부와 저작권위원회가 주도하고, 과기정통부·AI전략위원회가 공동 검토를 거쳐 마련한 자료입니다. 현장 관계자, 관계부처, 전문가의 폭넓은 의견 수렴을 거쳐 발간되었다는 점에서 신뢰성이 높습니다.

공정이용이란 무엇인가

저작권법 제35조의5에 규정된 공정이용(Fair Use)은, 저작권자의 허락 없이도 저작물을 이용할 수 있는 법적 예외 규정입니다. 2011년 12월에 도입되었습니다.

쉽게 말해, 모든 저작물 이용이 곧 저작권 침해는 아니라는 뜻입니다.

공정이용이 인정되려면 아래 4가지 요소를 종합적으로 판단합니다. 하나의 요소만으로 결론이 나지 않습니다.

공정이용 4대 판단 기준

기준 1: 이용의 목적과 성격

이용이 상업적인지, 비영리적인지를 봅니다.

안내서는 여기서 중요한 단서를 달았습니다:

"상업적 목적의 이용이라 하더라도, 그 자체만으로 공정이용이 부정되지는 않는다."

"돈을 벌려고 크롤링했다 = 불법"이 아닙니다.

이용의 목적이 원저작물을 대체하는 것인지, 아니면 새로운 가치를 창출하는 변환적 이용(transformative use)인지가 더 중요합니다.

또한 불법복제방지 조치 여부, 불법적 접근 여부 등 이용 경위와 방법도 이 기준에서 함께 고려됩니다.

기준 2: 저작물의 종류와 용도

이용되는 저작물이 사실적 정보인지, 창작적 표현인지를 구분합니다.

  • 사실적 정보 (뉴스 기사의 팩트, 상품 가격, 리뷰 평점 등) → 공정이용 인정 가능성 높음
  • 고도의 창작적 표현 (소설, 영화, 미술, 음악 등) → 공정이용 인정이 더 엄격
  • 미공표 저작물 → 공표된 저작물보다 불리하게 고려

크롤링으로 수집하는 데이터가 주로 가격 정보, 리뷰, 상품 스펙 등 사실적 정보에 해당하는 경우, 이 기준에서는 유리한 위치에 있습니다.

기준 3: 이용된 부분의 양과 비중

원저작물에서 얼마나 많은 부분을 이용했는지를 봅니다.

전체를 통째로 복제하면 불리하게 고려됩니다. 다만, 이용 목적상 불가피하거나 필요한 범위 내에서 이용된 경우에는 유리하게 고려될 여지가 있습니다.

기준 4: 시장에 미치는 영향

가장 중요한 기준입니다. 해당 이용이 원저작물의 시장 가치를 대체하거나 훼손하는지를 판단합니다.

  • 크롤링한 데이터를 분석 목적으로 활용 → 원저작물의 시장을 대체하지 않음
  • 크롤링한 콘텐츠를 그대로 재게시 → 원저작물의 시장을 직접 대체 → 공정이용 불인정 가능성 높음

저작물 판매 손해, 경제적 손해, 이용허락 기회의 상실 등이 세부적으로 고려됩니다.

크롤링 사업자가 알아야 할 핵심 포인트

크롤링 방식 자체는 공정이용 판단에서 부정적 요소가 아닙니다

  • 안내서는 "웹 자동 수집(크롤링) 방식의 학습이라도 공정이용에서 배제되는 것은 아니다"라고 명시했습니다
  • 수집 방식이 아닌, 수집한 데이터를 어떻게 활용하느냐가 핵심입니다

상업적 목적도 그 자체로는 문제가 아닙니다

  • 사업 목적으로 데이터를 수집하더라도, 원저작물의 시장을 대체하지 않는 변환적 이용이라면 공정이용이 인정될 수 있습니다

robots.txt와 이용약관도 고려 대상입니다

  • 기술적 보호조치(robots.txt 등)를 무시하고 수집하는 행위는 제1요소(이용 경위·방법) 판단에서 불리하게 작용할 수 있습니다
  • 사이트의 접근 제한 정책을 존중하는 것이 법적 리스크를 줄이는 기본 원칙입니다

공정이용에 해당하지 않는 경우

공정이용이 인정되지 않을 가능성이 높은 사례도 명확히 알아두어야 합니다.

  • 수집한 콘텐츠를 원본 그대로 재배포하는 경우
  • 원저작물의 시장을 직접 대체하는 서비스를 만드는 경우
  • 기술적 보호조치를 우회하여 데이터를 수집하는 경우
  • 고도의 창작적 저작물을 대량으로 복제하여 이용하는 경우

핵심은 "수집 자체"가 아닌 "수집 후 활용 방식"에 달려 있다는 점입니다.

공정이용 자가진단 5문항

웹 크롤링을 업무에 활용하고 계시다면, 아래 항목에 해당하는 개수를 세어보세요.

  1. 수집한 데이터를 분석·가공 목적으로 활용하고 있다
  2. 원본 콘텐츠를 그대로 재게시하지 않는다
  3. 대상 사이트의 robots.txt 정책을 확인하고 있다
  4. 수집 대상이 주로 사실적 정보(가격, 스펙, 통계)이다
  5. 수집 활동이 대상 사이트의 정상적 운영을 방해하지 않는다

4~5개 해당: 이번 안내서 기준으로 공정이용 범위 안에 있을 가능성이 높습니다.
2~3개 해당: 데이터 활용 방식을 점검해 보시기를 권장합니다.
0~1개 해당: 법률 전문가 상담을 권장합니다.

함께 추진되는 정부 정책

이번 안내서는 단독으로 발간된 것이 아닙니다. 관계부처가 함께 추진하는 실질적 지원 정책도 주목할 만합니다.

  • 공공누리 'AI 학습용' 유형 신설 (2026.1.28) — 공공 저작물의 AI 학습 활용 기준이 명확해졌습니다
  • AI 학습용 데이터 구매비용 R&D 세액공제 — 학습 데이터 확보 비용 부담이 줄어듭니다
  • 저작권위원회 AI 특화 분쟁조정 창구 신설 — AI 학습 관련 저작권 분쟁 시 전문 상담·자문·조정을 받을 수 있습니다
  • 학습용 데이터 통합제공 체계 구축 — 권리정보 확인에 드는 거래비용이 줄어듭니다

정부가 안내서만 낸 것이 아니라, AI 산업과 저작권의 균형을 위한 실질적 제도 정비를 동시에 추진하고 있다는 점에서 의미가 큽니다.

FAQ

Q. 이 안내서는 법적 구속력이 있나요?

아닙니다. 이 안내서는 가이드라인 성격으로, 법원의 판결을 대체하지 않습니다. 최종 판단은 구체적 사실관계에 따라 법원이 개별적으로 판단합니다. 다만 4개 기관(문체부·과기정통부·AI전략위원회·저작권위원회)이 공동 발간한 공식 기준이라는 점에서 향후 분쟁 시 참고 자료로서 의미가 큽니다.

Q. 크롤링으로 수집한 데이터를 AI 학습에 쓰면 합법인가요?

"합법이다/불법이다"로 단정할 수 없습니다. 4대 판단 기준을 종합적으로 검토해야 하며, 특히 수집한 데이터의 성격과 활용 방식이 핵심입니다.

Q. 해시스크래퍼를 통해 수집한 데이터도 해당되나요?

해시스크래퍼는 고객이 지정한 공개 웹 데이터를 구조화하여 제공하는 서비스입니다. 수집된 데이터의 최종 활용은 고객사의 책임이며, 대부분의 고객사는 시장 분석, 가격 모니터링, 트렌드 파악 등 분석 목적으로 활용하고 계십니다. 이런 활용 방식은 이번 안내서의 공정이용 기준에 부합할 가능성이 높습니다.

Q. 안내서 원문은 어디서 볼 수 있나요?

한국저작권위원회 공식 사이트(www.copyright.or.kr)에서 전문을 확인하실 수 있습니다. 안내서의 정식 명칭은 「생성형 인공지능의 저작물 학습에 대한 저작권법상 "공정이용" 안내서」입니다.


"크롤링은 불법"이라는 막연한 인식은, 이제 정부 차원에서 공식적으로 바로잡아지고 있습니다.

중요한 것은 수집 방식이 아니라 활용 방식입니다.

공개된 웹 데이터를 분석 목적으로 수집하고, 원저작물의 시장을 대체하지 않는 방식으로 활용한다면, 공정이용의 범위 안에 있을 가능성이 높습니다.

데이터 수집과 관련한 법적 궁금증이 있으시다면, 해시스크래퍼 팀에 언제든 문의해 주세요.

Comments

Add Comment

Your email won't be published and will only be used for reply notifications.

Weiterlesen

Get notified of new posts

We'll email you when 해시스크래퍼 기술 블로그 publishes new content.

Your email will only be used for new post notifications.