Le web scraping et l'apprentissage automatique sont-ils vraiment illégaux ? — Principaux points du guide sur l'utilisation équitable du gouvernement

J'ai résumé les points clés du guide sur l'utilisation équitable de l'apprentissage des œuvres AI génératives publié en collaboration par quatre organismes, du point de vue des praticiens du web crawling.

216
Le web scraping et l'apprentissage automatique sont-ils vraiment illégaux ? — Principaux points du guide sur l'utilisation équitable du gouvernement

"Le web scraping est illégal" - Beaucoup de gens croient encore cela.
Le gouvernement a donné une réponse officielle. "Ce n'est pas vrai."

Si vous êtes une entreprise utilisant le web scraping dans vos activités, vous avez probablement déjà reporté des projets de collecte de données en raison des risques juridiques. Pendant que vos concurrents collectent déjà les mêmes données, vous hésitez.

Le 26 février 2026, le ministère de la Culture, des Sports et du Tourisme, le ministère de la Science et des Technologies de l'Information et de la Communication, le Comité national de stratégie en intelligence artificielle et la Commission du droit d'auteur de Corée ont conjointement publié le guide intitulé « Guide sur l'utilisation équitable des œuvres d'apprentissage de l'intelligence artificielle générative en vertu de la loi sur le droit d'auteur ».

Le message clé de ce guide est clair:

"Même l'apprentissage à des fins commerciales ou l'apprentissage automatique du web (web scraping) ne sont pas exclus de l'utilisation équitable."

Cet article résume les points clés de ce guide du point de vue des praticiens du web scraping.


Table des matières

  • Contexte de la publication du guide
  • Qu'est-ce que l'utilisation équitable?
  • Les 4 critères principaux de l'utilisation équitable
  • Points clés à connaître pour les opérateurs de web scraping
  • Cas où l'utilisation équitable ne s'applique pas
  • Les 5 questions d'auto-évaluation de l'utilisation équitable
  • Politiques gouvernementales en cours
  • FAQ

Contexte de la publication du guide

Avec l'avènement de l'ère de l'IA générative, les débats juridiques sur "l'apprentissage des œuvres par l'IA" sont devenus brûlants à l'échelle mondiale. Aux États-Unis, le New York Times a intenté un procès à OpenAI, tandis que le Japon adopte une position relativement conciliante à l'égard de l'apprentissage par l'IA.

En Corée, les entreprises d'IA, les créateurs de contenu et les collecteurs de données ont tous besoin de critères clairs sur "jusqu'où est-ce légal".

Ce guide a été élaboré sous la direction du ministère de la Culture et de la Commission du droit d'auteur, avec un examen conjoint du ministère de la Science et des Technologies de l'Information et de la Communication et du Comité national de stratégie en intelligence artificielle. Il bénéficie d'une grande crédibilité car il a été publié après avoir recueilli un large éventail d'opinions d'acteurs sur le terrain, d'organismes concernés et d'experts.

Qu'est-ce que l'utilisation équitable?

L'utilisation équitable stipulée à l'article 35-5 de la loi sur le droit d'auteur est une disposition légale d'exception permettant d'utiliser une œuvre sans l'autorisation de l'auteur. Elle a été introduite en décembre 2011.

En d'autres termes, cela signifie que utiliser une œuvre ne constitue pas nécessairement une violation du droit d'auteur.

Pour que l'utilisation équitable soit reconnue, les 4 éléments suivants sont évalués de manière globale. Aucun élément pris individuellement ne suffit pour conclure.

Les 4 critères principaux de l'utilisation équitable

Critère 1: Objectif et nature de l'utilisation

Il examine si l'utilisation est commerciale ou non commerciale.

Le guide apporte une précision importante à ce sujet:

"Même si l'utilisation est à des fins commerciales, cela ne signifie pas nécessairement que l'utilisation équitable est exclue."

Le fait de scraper pour gagner de l'argent n'est pas illégal.

Il est plus important de savoir si l'objectif de l'utilisation est de remplacer l'œuvre originale ou s'il s'agit d'une utilisation transformative créant une nouvelle valeur.

De plus, les circonstances et méthodes d'utilisation, telles que les mesures de prévention de la contrefaçon et l'accès illégal, sont également prises en compte dans ce critère.

Critère 2: Type et but de l'œuvre

Il distingue si l'œuvre utilisée est une information factuelle ou une expression créative.

  • Information factuelle (faits d'un article de presse, prix des produits, évaluations, etc.) → Possibilité de reconnaissance de l'utilisation équitable
  • Expression créative élevée (romans, films, art, musique, etc.) → Critères plus stricts pour la reconnaissance de l'utilisation équitable
  • Œuvres non publiées → Prises en compte moins favorablement que les œuvres publiées

Si les données collectées par scraping concernent principalement des informations factuelles telles que les prix, les avis, les spécifications de produits, elles sont généralement bien placées selon ce critère.

Critère 3: Quantité et importance de la partie utilisée

Il évalue combien de parties de l'œuvre originale ont été utilisées.

Reproduire l'ensemble de l'œuvre est considéré défavorablement. Cependant, s'il est nécessaire ou indispensable pour l'objectif d'utilisation, il peut être favorablement pris en compte.

Critère 4: Impact sur le marché

C'est le critère le plus important. Il évalue si l'utilisation affecte ou altère la valeur marchande de l'œuvre originale.

  • Utilisation des données scrapées à des fins d'analyse → Ne remplace pas la valeur marchande de l'œuvre originale
  • Republication directe du contenu scrapé → Remplace directement la valeur marchande de l'œuvre originale → Possibilité de non-reconnaissance de l'utilisation équitable

Les pertes de vente d'œuvres, les pertes économiques, la perte d'opportunités de licence d'utilisation sont prises en compte en détail.

Points clés à connaître pour les opérateurs de web scraping

La méthode de scraping en soi n'est pas un élément négatif dans l'évaluation de l'utilisation équitable

  • Le guide précise que "même l'apprentissage par le biais de la collecte automatique de données (web scraping) n'est pas exclu de l'utilisation équitable"
  • Ce qui est crucial, c'est comment les données collectées sont utilisées

Un but commercial n'est pas un problème en soi

  • Même si vous collectez des données à des fins commerciales, une utilisation transformative qui ne remplace pas la valeur marchande de l'œuvre originale peut être reconnue comme une utilisation équitable

Le fichier robots.txt et les conditions d'utilisation sont également pris en compte

  • Le fait de collecter en ignorant les mesures de protection techniques (robots.txt, etc.) peut jouer en votre défaveur dans l'évaluation du premier critère (circonstances et méthodes d'utilisation)
  • Respecter la politique de restriction d'accès du site est un principe fondamental pour réduire les risques juridiques

Cas où l'utilisation équitable ne s'applique pas

Il est important de connaître clairement les cas où l'utilisation équitable n'est pas susceptible d'être reconnue.

  • Republier les contenus collectés tel quels
  • Créer des services qui remplacent directement la valeur marchande de l'œuvre originale
  • Contourner les mesures de protection techniques pour collecter des données
  • Reproduire en masse des œuvres créatives hautement originales

L'essentiel est que cela dépend de la manière dont les données sont utilisées après la collecte.

Les 5 questions d'auto-évaluation de l'utilisation équitable

Si vous utilisez le web scraping dans vos activités, comptez le nombre d'éléments correspondant aux critères ci-dessous.

  1. Vous utilisez les données collectées à des fins d'analyse et de traitement
  2. Vous ne republiez pas les contenus originaux tels quels
  3. Vous vérifiez la politique du fichier robots.txt du site cible
  4. Les données collectées concernent principalement des informations factuelles (prix, spécifications, statistiques)
  5. Vos activités de collecte ne perturbent pas le fonctionnement normal du site cible

4 à 5 éléments correspondants: Il est probable que vous soyez dans le cadre de l'utilisation équitable selon ce guide.
2 à 3 éléments correspondants: Il est recommandé de vérifier votre mode d'utilisation des données.
0 à 1 élément correspondant: Il est recommandé de consulter un expert juridique.

Politiques gouvernementales en cours

Ce guide n'a pas été publié seul. Il est également important de prêter attention aux politiques de soutien pratiques menées par les ministères concernés.

  • Introduction d'un nouveau type de licence 'AI Learning' pour le domaine public (28 janvier 2026) - Les critères d'utilisation de l'IA pour les œuvres du domaine public sont désormais clairs
  • Déduction fiscale pour les coûts d'achat de données d'apprentissage AI - Réduction des coûts d'acquisition de données d'apprentissage
  • Création d'un guichet spécialisé en résolution de conflits AI par la Commission du droit d'auteur - Consultation, avis et médiation spécialisés en cas de conflit de droits d'auteur lié à l'apprentissage par l'IA
  • Mise en place d'un système intégré de fourniture de données d'apprentissage - Réduction des coûts de transaction liés à la vérification des droits

Le gouvernement ne se contente pas de publier ce guide, il met également en œuvre des ajustements pratiques pour équilibrer l'industrie de l'IA et les droits d'auteur.

FAQ

Q. Ce guide a-t-il une force juridiquement contraignante?

Non. Ce guide est de nature directive et ne remplace pas les décisions des tribunaux. La décision finale dépendra de l'évaluation individuelle des faits par les tribunaux. Cependant, le fait que ce guide ait été publié conjointement par 4 organismes (ministère de la Culture, ministère de la Science et des Technologies de l'Information et de la Communication, Comité national de stratégie en intelligence artificielle, Commission du droit d'auteur) en fait une référence importante en cas de litige futur.

Q. Est-il légal d'utiliser les données collectées par le scraping pour l'apprentissage de l'IA?

Il n'est pas possible de répondre par un simple "légal/illégal". Les 4 critères principaux doivent être examinés de manière globale, en mettant particulièrement l'accent sur la nature des données collectées et la manière dont elles sont utilisées.

Q. Cela s'applique-t-il également aux données collectées via HashScraper?

HashScraper est un service qui structure et fournit des données web publiques spécifiées par le client. L'utilisation finale des données collectées relève de la responsabilité du client, et la plupart des clients les utilisent pour des analyses de marché, le suivi des prix, l'identification des tendances, etc. Ce type d'utilisation est susceptible de correspondre aux critères d'utilisation équitable de ce guide.

Q. Où puis-je trouver le texte original du guide?

Vous pouvez consulter le texte complet sur le site officiel de la Commission du droit d'auteur de Corée (www.copyright.or.kr). Le titre officiel du guide est "Guide sur l'utilisation équitable des œuvres d'apprentissage de l'intelligence artificielle générative en vertu de la loi sur le droit d'auteur".


L'idée vague selon laquelle "le web scraping est illégal" est en train d'être officiellement corrigée par le gouvernement.

Ce qui compte, c'est la manière dont les données sont utilisées, pas la manière dont elles sont collectées.

Si vous collectez des données web publiques dans un but d'analyse et que vous les utilisez de manière à ne pas remplacer la valeur marchande de l'œuvre originale, il est probable que vous soyez dans le cadre de l'utilisation équitable.

Si vous avez des questions juridiques concernant la collecte de données, n'hésitez pas à contacter l'équipe HashScraper à tout moment.

Comments

Add Comment

Your email won't be published and will only be used for reply notifications.

Continuer la lecture

Get notified of new posts

We'll email you when 해시스크래퍼 기술 블로그 publishes new content.

Your email will only be used for new post notifications.