La réglementation complète sur le web scraping - La frontière entre légal et illégal

Résumé des problèmes juridiques concernant la distinction entre la légalité et l'illégalité du web scraping. Explorez les limites du scraping en fonction de la loi coréenne, américaine et des réglementations de l'UE.

8
La réglementation complète sur le web scraping - La frontière entre légal et illégal

"Si je fais du crawling, est-ce que je serai attrapé ?"

C'est une question récurrente dans la communauté des développeurs. Certains disent que "puisque c'est des données publiques, on peut les collecter librement", tandis que d'autres affirment que "si on agit de manière irresponsable, on risque des poursuites pénales". La raison de cette confusion est simple : les deux affirmations sont vraies. Selon la situation, un même acte peut être légal ou illégal.

En 2024-2025, une série de poursuites en lien avec la collecte de données pour l'apprentissage de l'IA a fait de la frontière légale du crawling un sujet brûlant comme jamais. Dans cet article, nous passons en revue les points litigieux du crawling en nous basant sur la législation sud-coréenne, américaine et européenne. Bien que cela ne remplace pas une consultation juridique, cela devrait vous aider à établir des critères pratiques pour déterminer "jusqu'où est-il sûr et à partir de quand est-ce risqué" en matière de crawling.


Sommaire

  1. Le crawling en soi est-il légal ?
  2. Lois applicables en Corée du Sud
  3. Principaux arrêts et lois sur le crawling en Corée du Sud
  4. Principaux arrêts et lois aux États-Unis
  5. UE — GDPR et Directive sur les bases de données
  6. Données d'apprentissage de l'IA et crawling — Nouveau front en 2025
  7. L'effet juridique de robots.txt
  8. La violation des conditions d'utilisation est-elle illégale ?
  9. Check-list pratique — Comment crawler en toute sécurité
  10. Pourquoi les entreprises utilisent des services de crawling
  11. FAQ (Foire aux questions)

Le crawling en soi est-il légal ?

Réponse courte : La technologie du crawling en soi est légale. Ce qui rend une action illégale ou non dépend de ce que, comment et pourquoi vous collectez.

Naviguer sur un site web via un navigateur pour lire les informations affichées à l'écran ne pose aucun problème. Le crawling consiste simplement à automatiser ce processus. Cependant, des problèmes juridiques surviennent dans les situations suivantes :

Situation Risque Loi applicable
Collecte de prix de produits publics Faible
Collecte de données non publiques après connexion Élevé Loi sur les réseaux d'information, CFAA
Collecte d'informations personnelles (noms, contacts, etc.) Très élevé Loi sur la protection des informations personnelles, GDPR
Copie complète d'une œuvre Élevé Loi sur le droit d'auteur
Collecte en masse causant une surcharge serveur Moyen à élevé Loi sur les réseaux d'information, délit de perturbation des activités
Ignorer robots.txt Moyen Varie selon les précédents
Collecte en masse pour l'apprentissage de l'IA Débat en cours Loi sur le droit d'auteur, nouvelles lois sur l'IA

Le principe clé est le suivant : "Collecter des données publiques de manière raisonnable est généralement légal, mais contourner les restrictions d'accès ou collecter des informations personnelles ou des œuvres sans autorisation est risqué."


Lois applicables en Corée du Sud

En Corée du Sud, il existe quatre lois principales concernant le crawling. Étant donné que chaque loi protège des éléments différents, une même action de crawling peut être soumise à plusieurs lois en même temps.

1. Loi sur la promotion de l'utilisation des réseaux d'information et la protection des informations (Loi sur les réseaux d'information)

Article clé : Article 48 (Interdiction des actes d'infraction aux réseaux d'information)

Personne ne doit pénétrer dans un réseau d'information sans autorisation légitime ou au-delà de l'autorisation accordée.

Cet article est souvent problématique dans le cadre du crawling. Le point litigieux est la portée de "l'autorisation légitime".

  • Accès à une page web publique : Généralement légal. Accéder à une page ouverte à tous à l'aide d'un programme est considéré comme un "accès légitime".
  • Contournement de la connexion / de l'authentification : Risque élevé. Le contournement des CAPTCHA ou l'accès avec les informations d'identification d'une autre personne peut être considéré comme un dépassement de l'autorisation.
  • Contournement du blocage IP : Zone grise. Si un site a bloqué une IP spécifique et que vous contournez cela avec un proxy, cela peut être interprété comme une violation de l'accès autorisé.

De plus, le paragraphe 2 de l'article 48 interdit la transmission ou la diffusion de logiciels malveillants qui peuvent perturber le fonctionnement stable des réseaux d'information, et le paragraphe 3 de l'article 48 interdit les actes qui peuvent causer des perturbations aux réseaux d'information. Le crawling qui surcharge un serveur peut tomber sous cet article.

Sanction : Peine d'emprisonnement de moins de 5 ans ou amende de moins de 50 millions de wons.

2. Loi sur la protection des informations personnelles

Avec la révision des lois sur les données en 2020 et 2023, la réglementation de la protection des données a été considérablement renforcée.

Cas litigieux en matière de crawling :

  • Collecte d'informations personnelles telles que noms, numéros de téléphone, e-mails : Illégal sans le consentement de la personne. Même si ces informations sont publiques, les collecter à des fins autres que celles de la publication initiale peut poser problème.
  • Exceptions pour les informations personnelles publiques : La révision de la loi en 2023 a précisé les critères de traitement des "informations personnelles publiques". Même si une personne a publié directement des informations, leur collecte n'est autorisée que dans la mesure où le but de la collecte est étroitement lié au but de la publication et ne porte pas atteinte de manière déraisonnable aux intérêts de la personne.
  • Pseudonymisation et exceptions : Si la collecte est à des fins statistiques, de recherche scientifique, etc., elle peut être effectuée sans consentement, mais sous des conditions strictes.

Sanction : Selon le type de violation, peine d'emprisonnement de moins de 5 ans, amende de moins de 50 millions de wons, ou amende de 3 % ou moins du chiffre d'affaires total.

3. Loi sur le droit d'auteur

Si le contenu web est considéré comme une œuvre protégée par le droit d'auteur, la copie ou la transmission de ce contenu est soumise au droit d'auteur.

Cas litigieux en matière de crawling :

  • Information factuelle vs œuvre créative : Les informations factuelles telles que les prix des produits, les adresses, les horaires d'ouverture ne sont pas protégées par le droit d'auteur. Cependant, les contenus créatifs tels que les articles de presse, les blogs, les critiques de produits sont des œuvres protégées.
  • Protection des bases de données : La loi sur le droit d'auteur en Corée protège spécifiquement les droits des créateurs de bases de données (article 93). Même si des données individuelles ne sont pas des œuvres, la base de données systématiquement collectée et organisée est protégée. La reproduction ou la distribution de la totalité ou d'une partie substantielle d'une base de données est illégale.
  • Copie temporaire : Même si le fait de stocker temporairement des données en mémoire lors du crawling peut techniquement être considéré comme une copie, l'article 35-2 de la loi sur le droit d'auteur reconnaît une exception pour les copies temporaires nécessaires à une utilisation fluide.

Sanction : Selon le type de violation, peine d'emprisonnement de moins de 5 ans, amende de moins de 50 millions de wons, ou amende de 3 % ou moins du chiffre d'affaires total.

4. Loi sur la prévention de la concurrence déloyale et la protection des secrets commerciaux

Clause générale de l'article 2 (a) (1) peut s'appliquer au crawling. Cette clause, introduite en 2013 et modifiée à plusieurs reprises depuis, se lit comme suit :

"Tout acte qui, pour promouvoir son propre commerce, utilise sans autorisation des résultats obtenus par des efforts ou des investissements substantiels d'autrui d'une manière contraire aux pratiques commerciales équitables ou à l'ordre de la concurrence."

En termes simples, si une entreprise copie une base de données coûteuse construite par un concurrent pour l'utiliser dans son propre service, cela peut être considéré comme une "concurrence déloyale". Cette clause vise à empêcher les "passagers clandestins" qui profitent de données sans payer.


Principaux arrêts et lois sur le crawling en Corée du Sud

Il est difficile de déterminer où se situe la ligne de démarcation en se basant uniquement sur les textes de loi. Il est essentiel d'examiner les arrêts judiciaires réels.

Affaire Job Korea c. Saramin (2017)

Résumé de l'affaire : Saramin, une plateforme de recrutement, a été poursuivi par Job Korea pour avoir crawlé les données des offres d'emploi de ce dernier et les avoir affichées sur son propre service.

Décision de la cour : La cour a jugé que Saramin avait utilisé sans autorisation les bases de données d'offres d'emploi construites avec des efforts et des investissements substantiels par Job Korea pour les utiliser dans son propre service, constituant ainsi un acte de concurrence déloyale.

Point à retenir : Crawler les données essentielles d'un concurrent pour les utiliser dans un service similaire peut être sanctionné en vertu de la loi sur la concurrence déloyale. La simple justification "données publiques" ne suffit pas pour une utilisation libre.

Débats sur le crawling de critiques de restaurants de quartier et controverses sur le droit d'auteur

En Corée, il y a eu plusieurs cas où le crawling massif de critiques de restaurants provenant de sites de portails, de contenus de blogs, etc., a été problématique. Dans ces cas, les tribunaux examinent si chaque critique est une œuvre protégée par le droit d'auteur et si une grande partie de la base de données de critiques a été reproduite.

Point à retenir : Même si le contenu est généré par les utilisateurs (UGC), s'il est jugé créatif, il peut être considéré comme une œuvre protégée par le droit d'auteur. La reproduction en masse de telles œuvres peut violer la loi sur le droit d'auteur et les dispositions de protection des bases de données.

Contournement des mesures de protection technique et loi sur les réseaux d'information

La Cour suprême de Corée a maintenu une position constante selon laquelle le contournement des mesures de protection technique d'un site web pour collecter des données peut constituer une "intrusion" en vertu de la loi sur les réseaux d'information. En particulier, le contournement explicite des blocages IP ou des systèmes de détection de bots peut être considéré comme illégal.


Principaux arrêts et lois aux États-Unis

Les discussions juridiques sur le crawling aux États-Unis ont une influence mondiale sur la pratique.

CFAA (Computer Fraud and Abuse Act)

Le principal point de litige de la loi américaine sur la fraude et l'abus informatique est ce que signifie "accéder sans autorisation" ou "dépasser l'accès autorisé" à un ordinateur.

Van Buren c. États-Unis (2021, Cour suprême fédérale)

Dans cette affaire, un policier a consulté une base de données à laquelle il avait accès dans le cadre de ses fonctions pour un usage personnel. La Cour suprême fédérale a jugé que "dépasser l'accès autorisé" signifie accéder à des informations auxquelles on n'a pas le droit d'accéder, et non pas utiliser des informations autorisées à des fins inappropriées.

Impact sur le crawling : Accéder à des informations publiques sur un site web n'est pas considéré comme une violation du CFAA, même si le but de l'accès diffère de l'intention du propriétaire du site.

hiQ Labs c. LinkedIn (2022, Cour d'appel du 9e circuit)

Cet arrêt est le plus important en matière de légalité du crawling aux États-Unis.

Résumé de l'affaire : La société d'analyse de données hiQ Labs a collecté des données de profils publics LinkedIn pour fournir un service de prédiction de rotation du personnel. Lorsque LinkedIn a envoyé une lettre de cessation et de désistement et a bloqué techniquement le crawling, hiQ a intenté un procès.

Principaux points de la décision :
- Collecter des données publiquement accessibles n'est pas une violation du CFAA.
- "Accès sans autorisation" s'applique uniquement aux systèmes avec des barrières d'authentification telles que des mots de passe. L'accès à une page web publique accessible à tous n'est pas concerné.
- La lettre de cessation et de désistement de LinkedIn ne constitue pas un "retrait de l'accès autorisé".

Point à retenir : Cependant, les développements ultérieurs sont importants. En novembre 2022, un tribunal fédéral de district a jugé que hiQ avait violé les conditions d'utilisation de LinkedIn et les deux parties ont trouvé un accord. En d'autres termes, il n'y a pas eu de violation du CFAA, mais une responsabilité contractuelle en vertu des conditions d'utilisation a été reconnue. Cela montre que "le crawling de données publiques est généralement sûr sur le plan pénal, mais les risques civils sont distincts".

Meta Platforms c. Bright Data (2024)

Résumé de l'affaire : Meta a poursuivi l'entreprise de collecte de données Bright Data pour avoir collecté des données de Facebook et Instagram sans autorisation.

Principaux points de la décision : Le tribunal a jugé que Bright Data avait collecté des données accessibles sans connexion et que cela ne constituait pas une violation du CFAA. Cependant, la responsabilité contractuelle en vertu des conditions d'utilisation est restée une question distincte.

Cet arrêt a clarifié davantage la frontière entre la collecte de données publiquement accessibles et la collecte de données nécessitant une connexion.

Principaux points des arrêts américains

Principe Explication
Principe des données publiques Collecter des informations publiques accessibles sans connexion n'est pas une violation du CFAA.
Critère des barrières techniques Le contournement de mots de passe, d'authentifications, etc., peut être illégal.
Les conditions d'utilisation sont distinctes La violation des conditions d'utilisation n'est pas une violation du CFAA, mais peut entraîner une responsabilité contractuelle distincte.
Objectif non pertinent L'accès autorisé est la clé, l'objectif de l'accès n'est pas un critère pour le C

Comments

Add Comment

Your email won't be published and will only be used for reply notifications.

Continuer la lecture

Get notified of new posts

We'll email you when 해시스크래퍼 기술 블로그 publishes new content.

Your email will only be used for new post notifications.