27 raisons pour lesquelles le crawling s'arrête

27 raisons pour lesquelles le crawling s'arrête. Blocage IP, CAPTCHA, modification de la structure, types de problèmes de crawling et solutions.

108
27 raisons pour lesquelles le crawling s'arrête

Blocage IP, CAPTCHA, changement de structure... Il est 10 fois plus difficile de conserver un crawler que de le créer.

Temps de lecture : 12 minutes | À partir de janvier 2026


Résumé

Créer un crawler fonctionne bien la première semaine. Le problème survient ensuite.

Les sites Web évoluent constamment, la sécurité se renforce chaque mois et l'infrastructure est sujette à des secousses imprévues. Hashscraper a répertorié 27 types de pannes rencontrées en 8 ans de crawling sur plus de 5 000 sites, classés par catégorie. Cela inclut la fréquence des pannes, la difficulté de réponse et les coûts réels de résolution interne.

Catégorie Nombre de pannes Difficulté de réponse
Blocage d'accès 8
Changement de site 6
Infrastructure/Réseau 5
Authentification/Session 4
Qualité des données 4

Catégorie 1 : Blocage d'accès (8 pannes)

C'est le mur le plus fréquemment rencontré par les crawlers. Dès que le site cible détecte un bot, la collecte de données s'arrête.

1. Blocage IP (Limitation de débit)

Symptômes : Soudainement 403 Forbidden ou 429 Too Many Requests
Cause : Demandes massives en peu de temps depuis la même IP
Fréquence : (très courant)
Difficulté de réponse :

C'est le blocage le plus basique. Réduire la vitesse des requêtes ou utiliser un pool de proxies résout le problème. Cependant, la gestion des proxies devient une tâche distincte. Il faut prêter attention à la qualité des IPs, changer les IPs bloquées, et surveiller la disponibilité.

Coût de résolution interne : Service de proxy mensuel de 500 000 à 2 000 000 ₩ + personnel de gestion

2. Gestionnaire de bots Akamai

Symptômes : Affichage du logo Akamai et d'un écran d'attente lors de l'accès à une page
Cause : Une solution de sécurité spécialisée dans la détection des bots analyse même les empreintes digitales de navigateur
Fréquence : (courant dans les grandes entreprises de commerce électronique)
Difficulté de réponse :

En Corée, Coupang est un exemple typique. Même en accédant avec Selenium ou Playwright, l'analyse va jusqu'aux empreintes digitales du navigateur, aux modèles d'exécution JavaScript, aux mouvements de souris et à la vitesse de défilement. Il est presque impossible de contourner cela avec des outils de crawling classiques.

Lors des tests pratiques en janvier 2026, Firecrawl (avec Stealth Proxy) et Jina Reader ont été bloqués par Akamai de Coupang. Hashscraper surmonte cela avec sa propre technologie d'émulation de navigateur.

Coût de résolution interne : Personnel spécialisé + développement continu de la technologie de contournement (coût annuel de plusieurs millions de ₩)

3. CAPTCHA

Symptômes : Écran de vérification "Je ne suis pas un robot"
Cause : Vérification de l'humain en cas de détection de trafic suspect
Fréquence :
Difficulté de réponse :

reCAPTCHA, hCaptcha peuvent être résolus automatiquement via des services externes (2Captcha, Anti-Captcha). Cependant, les CAPTCHAs internes comme le CAPTCHA de reçu de Naver Shopping ne peuvent pas être gérés par des services externes. Il est nécessaire d'entraîner un modèle d'apprentissage automatique distinct, et en cas de changement d'image CAPTCHA sur le site, le modèle doit être réentraîné.

Coût de résolution interne : Résolution de CAPTCHA générique par élément 2 à 5 ₩ + développement ML interne pour les CAPTCHAs spécifiques

4. Détection de bot basée sur JavaScript

Symptômes : Écran vide ou redirection infinie après le chargement de la page
Cause : La validation de l'environnement du navigateur par JavaScript côté client
Fréquence :
Difficulté de réponse :

Les simples requêtes HTTP (requests, urllib) sont immédiatement détectées. Même en utilisant un navigateur sans tête, l'environnement d'automatisation est identifié par des objets tels que navigator.webdriver, window.chrome, etc. Bien qu'il existe des solutions comme Puppeteer Stealth, undetected-chromedriver, chaque site a sa propre logique de détection nécessitant une réponse individuelle.

5. Validation de l'User-Agent/En-tête

Symptômes : 403 Forbidden ou réponse anormale
Cause : Les en-têtes de requête ne correspondent pas aux modèles de navigateur réels
Fréquence :
Difficulté de réponse :

C'est le blocage le plus simple et la réponse la plus facile. Il suffit de correspondre l'User-Agent, Accept, Referer pour y remédier. C'est un problème rencontré par les débutants en crawling, mais cela ne suffit pas à contourner les blocages avancés.

6. Blocage basé sur la localisation (Blocage géographique)

Symptômes : Blocage ou affichage de contenu différent lors de l'accès depuis une IP étrangère
Cause : Autorisation d'accès uniquement depuis des IP spécifiques
Fréquence :
**Difficulté de réponse :

C'est un problème courant lors du crawling de sites coréens depuis des serveurs étrangers comme AWS US-East. Il est souvent nécessaire d'utiliser des proxies IP coréens ou d'exécuter le crawling depuis des serveurs nationaux.

7. Standard d'exclusion des robots (robots.txt)

Symptômes : Le crawling est possible mais il existe un risque juridique
Cause : Le site interdit le crawling de certains chemins via robots.txt
**Fréquence : (présent sur la plupart des sites)
**Difficulté de réponse : (technique) / (juridique)

Techniquement, cela peut être ignoré, mais légalement, c'est une autre histoire. Lors du crawling de sites de grandes entreprises à des fins commerciales, une vérification est nécessaire.

8. Pare-feu d'application Web (WAF)

Symptômes : Blocage soudain, réponses incohérentes
Cause : Cloudflare, AWS WAF, etc., analysent les modèles de trafic
Fréquence :
**Difficulté de réponse :

Les WAF analysent une combinaison de l'IP, de la fréquence des requêtes, des empreintes digitales du navigateur et des modèles de poignée de main TLS. Pour contourner le "Défi des 5 secondes" de Cloudflare, un environnement d'exécution JavaScript est nécessaire. Depuis 2025, de plus en plus de sites remplacent reCAPTCHA par Cloudflare Turnstile.


Catégorie 2 : Changement de site (6 pannes)

Un crawler qui fonctionnait parfaitement peut soudainement renvoyer des données vides. Personne ne vous prévient.

9. Changement de structure HTML

Symptômes : Retour de données vides ou incorrectes
Cause : Mise à jour du frontend du site cible
Fréquence : (cause de panne la plus courante)
**Difficulté de réponse :

Naver Shopping met à jour son frontend des dizaines de fois par an. Coupang, 11th Street, Gmarket font de même. Les noms de classe passent de product-price à prd_price_v2, la structure des div change, de nouveaux composants sont ajoutés.

Données réelles : Chaque crawler nécessite une réponse aux changements de structure 6 à 12 fois par an en moyenne. Avec 10 crawlers, cela signifie 60 à 120 réponses par an — en moyenne une fois tous les 3 jours.

Coût de résolution interne : 3 à 5 heures par cas × 8 fois par an = 24 à 40 heures/an/crawler

10. Transition vers SPA/Rendu dynamique

Symptômes : Les pages qui étaient bien récupérées renvoient uniquement du HTML vide
Cause : Renouvellement complet en SPA avec React/Vue/Angular, etc.
Fréquence :
**Difficulté de réponse :

Lors du passage de SSR à SPA, les crawlers HTTP traditionnels deviennent totalement inutiles. Il est nécessaire de réécrire complètement en utilisant un navigateur sans tête, avec une augmentation de la consommation de ressources de plus de 10 fois.

11. Changement de point de terminaison API

Symptômes : Erreur 404 ou modification du format de réponse lors de l'appel à l'API
Cause : Modification de l'URL/du schéma interne de l'API
Fréquence :
**Difficulté de réponse :

Lorsque l'API REST/GraphQL interne d'un site SPA change de version de v2 à v3, il est nécessaire de réécrire entièrement la logique d'analyse.

12. Changement de motif d'URL

Symptômes : L'URL existante renvoie une erreur 404
Cause : Réorganisation de la structure d'URL, par exemple /product/12345/shop/items/12345. Il est nécessaire de modifier la logique de génération d'URL du crawler.

13. Changement de méthode de pagination

Symptômes : Échec du chargement de la page suivante, collecte répétée de la première page uniquement
Cause : Numéro de page → défilement infini, ou décalage → transition basée sur le curseur
Difficulté de réponse :

14. Changement de méthode de chargement de contenu

Symptômes : Seules certaines données sont collectées, le reste est manquant
Cause : Introduction du chargement différé, déclenché par l'observateur d'intersection
Difficulté de réponse :


Catégorie 3 : Infrastructure/Réseau (5 pannes)

Le code du crawler fonctionne normalement, mais des problèmes surviennent dans l'environnement d'exécution.

15. Ressources serveur insuffisantes

Symptômes : Ralentissement, plantage OOM (hors mémoire)
Cause : Manque de mémoire, de CPU, de capacité de disque
Difficulté de réponse :

Un navigateur sans tête (Chromium) consomme de 200 à 500 Mo de mémoire par onglet. Avec 10 crawlers simultanés, 2 à 5 Go sont nécessaires. En tenant compte des fuites de mémoire, il est essentiel de redémarrer périodiquement les processus.

16. Panne de proxy

Symptômes : Temps d'attente de connexion, échecs intermittents
Cause : Serveur proxy hors service, IP expirée, panne du fournisseur
Difficulté de réponse :

17. Échec de résolution DNS

Symptômes : Erreur "Impossible de trouver l'hôte"
Cause : Panne du serveur DNS, changement de domaine
Difficulté de réponse :

18. Problème de certificat SSL/TLS

Symptômes : Échec de l'handshake SSL
Cause : Expiration/renouvellement retardé du certificat du site cible
Difficulté de réponse :

19. Temps d'arrêt du serveur cible

Symptômes : 503 Service Unavailable, 504 Gateway Timeout
Cause : Maintenance ou panne du site cible
Difficulté de réponse : (mise en œuvre de la notification + réessai)


Catégorie 4 : Authentification/Session (4 pannes)

Le crawling de sites nécessitant une connexion pose des problèmes particuliers.

20. Expiration de la session de connexion

Symptômes : Redirection soudaine vers la page de connexion
Cause : Expiration du cookie de session, dépassement du TTL du jeton
Difficulté de réponse :

21. Demande d'authentification 2FA/MFA

Symptômes : Demande de vérification SMS/e-mail
Cause : Connexion à partir d'un nouvel appareil/IP nécessitant une authentification de sécurité
Difficulté de réponse :

L'automatisation du 2FA est techniquement très complexe et est généralement interdite par la plupart des conditions d'utilisation des services. Il est presque impossible de résoudre cela sans intervention manuelle.

22. Échec de renouvellement du jeton OAuth

Symptômes : Erreur 401 Unauthorized lors de l'appel à l'API
Cause : Expiration du jeton de rafraîchissement, modification des autorisations de l'application OAuth
Difficulté de réponse :

23. Changement de politique de cookies

Symptômes : Interruption soudaine du flux d'authentification existant
Cause : Renforcement de la politique SameSite, changement de nom/domaine/chemin de cookie
Difficulté de réponse :


Catégorie 5 : Qualité des données (4 pannes)

Un crawler peut fonctionner, mais les données collectées ne sont pas fiables. Plus vous tardez à le découvrir, plus les dommages sont importants.

24. Données de leurre (Honeypot)

Symptômes : Mélange de fausses informations dans les données collectées
Cause : Le site fournit intentionnellement des données incorrectes aux bots
Difficulté de réponse :

C'est la méthode de défense la plus sournoise. Le site montre des prix différents, des produits inexistants uniquement aux bots. Il est difficile de détecter la contamination des données tant qu'elle n'est pas vérifiée manuellement.

25. Contenu personnalisé

Symptômes : Les données varient à chaque collecte sur la même URL
Cause : Algorithmes de personnalisation, tests A/B, différences de prix régionales
Difficulté de réponse :

26. Problème d'encodage

Symptômes : Caractères corrompus, erreurs de caractères spéciaux
Cause : Mélange d'UTF-8 et d'EUC-KR, incompatibilité des jeux de caractères
Fréquence : (particulièrement courant sur les sites coréens)
**Difficulté de réponse :

Cela se produit fréquemment sur les anciens sites de commerce coréens ou les sites gouvernementaux. Il arrive encore que l'en-tête de la page déclare l'UTF-8 tout en utilisant l'EUC-KR dans le corps du texte.

27. Incohérence dynamique des prix/stocks

Symptômes : Différence entre les prix collectés et les prix affichés
Cause : Fluctuation des prix en temps réel, différences de prix par région/niveau de membre
Fréquence : (essentiel pour le commerce électronique)
**Difficulté de réponse :


Coûts réels des réponses aux pannes

Combien coûte la gestion de ces 27 pannes ?

Personnel

Rôle Niveau requis Salaire (2025)
Développeur senior en crawling 5 ans+ d'expérience, contournement des blocages en pratique 80 à 120 millions de ₩
Ingénieur infrastructure Gestion des serveurs/proxies/surveillance 60 à 90 millions de ₩

Avec plus de 5 crawlers, au moins 1 personne doit être dédiée au crawling à temps plein. Si elle fait autre chose, la gestion des pannes prendra le pas et des lacunes de données apparaîtront.

Infrastructure

Élément Coût mensuel
Serveur (exécution du crawler) 500 000 à 2 000 000 ₩
Service de proxies 500 000 à 300 000 ₩
Service de résolution de CAPTCHA 100 000 à 500 000 ₩
Surveillance/Notification 100

Comments

Add Comment

Your email won't be published and will only be used for reply notifications.

Continuer la lecture

Get notified of new posts

We'll email you when 해시스크래퍼 기술 블로그 publishes new content.

Your email will only be used for new post notifications.