Blocage IP, CAPTCHA, changement de structure... Il est 10 fois plus difficile de conserver un crawler que de le créer.
Temps de lecture : 12 minutes | À partir de janvier 2026
Résumé
Créer un crawler fonctionne bien la première semaine. Le problème survient ensuite.
Les sites Web évoluent constamment, la sécurité se renforce chaque mois et l'infrastructure est sujette à des secousses imprévues. Hashscraper a répertorié 27 types de pannes rencontrées en 8 ans de crawling sur plus de 5 000 sites, classés par catégorie. Cela inclut la fréquence des pannes, la difficulté de réponse et les coûts réels de résolution interne.
| Catégorie | Nombre de pannes | Difficulté de réponse |
|---|---|---|
| Blocage d'accès | 8 | |
| Changement de site | 6 | |
| Infrastructure/Réseau | 5 | |
| Authentification/Session | 4 | |
| Qualité des données | 4 |
Catégorie 1 : Blocage d'accès (8 pannes)
C'est le mur le plus fréquemment rencontré par les crawlers. Dès que le site cible détecte un bot, la collecte de données s'arrête.
1. Blocage IP (Limitation de débit)
Symptômes : Soudainement 403 Forbidden ou 429 Too Many Requests
Cause : Demandes massives en peu de temps depuis la même IP
Fréquence : (très courant)
Difficulté de réponse :
C'est le blocage le plus basique. Réduire la vitesse des requêtes ou utiliser un pool de proxies résout le problème. Cependant, la gestion des proxies devient une tâche distincte. Il faut prêter attention à la qualité des IPs, changer les IPs bloquées, et surveiller la disponibilité.
Coût de résolution interne : Service de proxy mensuel de 500 000 à 2 000 000 ₩ + personnel de gestion
2. Gestionnaire de bots Akamai
Symptômes : Affichage du logo Akamai et d'un écran d'attente lors de l'accès à une page
Cause : Une solution de sécurité spécialisée dans la détection des bots analyse même les empreintes digitales de navigateur
Fréquence : (courant dans les grandes entreprises de commerce électronique)
Difficulté de réponse :
En Corée, Coupang est un exemple typique. Même en accédant avec Selenium ou Playwright, l'analyse va jusqu'aux empreintes digitales du navigateur, aux modèles d'exécution JavaScript, aux mouvements de souris et à la vitesse de défilement. Il est presque impossible de contourner cela avec des outils de crawling classiques.
Lors des tests pratiques en janvier 2026, Firecrawl (avec Stealth Proxy) et Jina Reader ont été bloqués par Akamai de Coupang. Hashscraper surmonte cela avec sa propre technologie d'émulation de navigateur.
Coût de résolution interne : Personnel spécialisé + développement continu de la technologie de contournement (coût annuel de plusieurs millions de ₩)
3. CAPTCHA
Symptômes : Écran de vérification "Je ne suis pas un robot"
Cause : Vérification de l'humain en cas de détection de trafic suspect
Fréquence :
Difficulté de réponse :
reCAPTCHA, hCaptcha peuvent être résolus automatiquement via des services externes (2Captcha, Anti-Captcha). Cependant, les CAPTCHAs internes comme le CAPTCHA de reçu de Naver Shopping ne peuvent pas être gérés par des services externes. Il est nécessaire d'entraîner un modèle d'apprentissage automatique distinct, et en cas de changement d'image CAPTCHA sur le site, le modèle doit être réentraîné.
Coût de résolution interne : Résolution de CAPTCHA générique par élément 2 à 5 ₩ + développement ML interne pour les CAPTCHAs spécifiques
4. Détection de bot basée sur JavaScript
Symptômes : Écran vide ou redirection infinie après le chargement de la page
Cause : La validation de l'environnement du navigateur par JavaScript côté client
Fréquence :
Difficulté de réponse :
Les simples requêtes HTTP (requests, urllib) sont immédiatement détectées. Même en utilisant un navigateur sans tête, l'environnement d'automatisation est identifié par des objets tels que navigator.webdriver, window.chrome, etc. Bien qu'il existe des solutions comme Puppeteer Stealth, undetected-chromedriver, chaque site a sa propre logique de détection nécessitant une réponse individuelle.
5. Validation de l'User-Agent/En-tête
Symptômes : 403 Forbidden ou réponse anormale
Cause : Les en-têtes de requête ne correspondent pas aux modèles de navigateur réels
Fréquence :
Difficulté de réponse :
C'est le blocage le plus simple et la réponse la plus facile. Il suffit de correspondre l'User-Agent, Accept, Referer pour y remédier. C'est un problème rencontré par les débutants en crawling, mais cela ne suffit pas à contourner les blocages avancés.
6. Blocage basé sur la localisation (Blocage géographique)
Symptômes : Blocage ou affichage de contenu différent lors de l'accès depuis une IP étrangère
Cause : Autorisation d'accès uniquement depuis des IP spécifiques
Fréquence :
**Difficulté de réponse :
C'est un problème courant lors du crawling de sites coréens depuis des serveurs étrangers comme AWS US-East. Il est souvent nécessaire d'utiliser des proxies IP coréens ou d'exécuter le crawling depuis des serveurs nationaux.
7. Standard d'exclusion des robots (robots.txt)
Symptômes : Le crawling est possible mais il existe un risque juridique
Cause : Le site interdit le crawling de certains chemins via robots.txt
**Fréquence : (présent sur la plupart des sites)
**Difficulté de réponse : (technique) / (juridique)
Techniquement, cela peut être ignoré, mais légalement, c'est une autre histoire. Lors du crawling de sites de grandes entreprises à des fins commerciales, une vérification est nécessaire.
8. Pare-feu d'application Web (WAF)
Symptômes : Blocage soudain, réponses incohérentes
Cause : Cloudflare, AWS WAF, etc., analysent les modèles de trafic
Fréquence :
**Difficulté de réponse :
Les WAF analysent une combinaison de l'IP, de la fréquence des requêtes, des empreintes digitales du navigateur et des modèles de poignée de main TLS. Pour contourner le "Défi des 5 secondes" de Cloudflare, un environnement d'exécution JavaScript est nécessaire. Depuis 2025, de plus en plus de sites remplacent reCAPTCHA par Cloudflare Turnstile.
Catégorie 2 : Changement de site (6 pannes)
Un crawler qui fonctionnait parfaitement peut soudainement renvoyer des données vides. Personne ne vous prévient.
9. Changement de structure HTML
Symptômes : Retour de données vides ou incorrectes
Cause : Mise à jour du frontend du site cible
Fréquence : (cause de panne la plus courante)
**Difficulté de réponse :
Naver Shopping met à jour son frontend des dizaines de fois par an. Coupang, 11th Street, Gmarket font de même. Les noms de classe passent de product-price à prd_price_v2, la structure des div change, de nouveaux composants sont ajoutés.
Données réelles : Chaque crawler nécessite une réponse aux changements de structure 6 à 12 fois par an en moyenne. Avec 10 crawlers, cela signifie 60 à 120 réponses par an — en moyenne une fois tous les 3 jours.
Coût de résolution interne : 3 à 5 heures par cas × 8 fois par an = 24 à 40 heures/an/crawler
10. Transition vers SPA/Rendu dynamique
Symptômes : Les pages qui étaient bien récupérées renvoient uniquement du HTML vide
Cause : Renouvellement complet en SPA avec React/Vue/Angular, etc.
Fréquence :
**Difficulté de réponse :
Lors du passage de SSR à SPA, les crawlers HTTP traditionnels deviennent totalement inutiles. Il est nécessaire de réécrire complètement en utilisant un navigateur sans tête, avec une augmentation de la consommation de ressources de plus de 10 fois.
11. Changement de point de terminaison API
Symptômes : Erreur 404 ou modification du format de réponse lors de l'appel à l'API
Cause : Modification de l'URL/du schéma interne de l'API
Fréquence :
**Difficulté de réponse :
Lorsque l'API REST/GraphQL interne d'un site SPA change de version de v2 à v3, il est nécessaire de réécrire entièrement la logique d'analyse.
12. Changement de motif d'URL
Symptômes : L'URL existante renvoie une erreur 404
Cause : Réorganisation de la structure d'URL, par exemple /product/12345 → /shop/items/12345. Il est nécessaire de modifier la logique de génération d'URL du crawler.
13. Changement de méthode de pagination
Symptômes : Échec du chargement de la page suivante, collecte répétée de la première page uniquement
Cause : Numéro de page → défilement infini, ou décalage → transition basée sur le curseur
Difficulté de réponse :
14. Changement de méthode de chargement de contenu
Symptômes : Seules certaines données sont collectées, le reste est manquant
Cause : Introduction du chargement différé, déclenché par l'observateur d'intersection
Difficulté de réponse :
Catégorie 3 : Infrastructure/Réseau (5 pannes)
Le code du crawler fonctionne normalement, mais des problèmes surviennent dans l'environnement d'exécution.
15. Ressources serveur insuffisantes
Symptômes : Ralentissement, plantage OOM (hors mémoire)
Cause : Manque de mémoire, de CPU, de capacité de disque
Difficulté de réponse :
Un navigateur sans tête (Chromium) consomme de 200 à 500 Mo de mémoire par onglet. Avec 10 crawlers simultanés, 2 à 5 Go sont nécessaires. En tenant compte des fuites de mémoire, il est essentiel de redémarrer périodiquement les processus.
16. Panne de proxy
Symptômes : Temps d'attente de connexion, échecs intermittents
Cause : Serveur proxy hors service, IP expirée, panne du fournisseur
Difficulté de réponse :
17. Échec de résolution DNS
Symptômes : Erreur "Impossible de trouver l'hôte"
Cause : Panne du serveur DNS, changement de domaine
Difficulté de réponse :
18. Problème de certificat SSL/TLS
Symptômes : Échec de l'handshake SSL
Cause : Expiration/renouvellement retardé du certificat du site cible
Difficulté de réponse :
19. Temps d'arrêt du serveur cible
Symptômes : 503 Service Unavailable, 504 Gateway Timeout
Cause : Maintenance ou panne du site cible
Difficulté de réponse : (mise en œuvre de la notification + réessai)
Catégorie 4 : Authentification/Session (4 pannes)
Le crawling de sites nécessitant une connexion pose des problèmes particuliers.
20. Expiration de la session de connexion
Symptômes : Redirection soudaine vers la page de connexion
Cause : Expiration du cookie de session, dépassement du TTL du jeton
Difficulté de réponse :
21. Demande d'authentification 2FA/MFA
Symptômes : Demande de vérification SMS/e-mail
Cause : Connexion à partir d'un nouvel appareil/IP nécessitant une authentification de sécurité
Difficulté de réponse :
L'automatisation du 2FA est techniquement très complexe et est généralement interdite par la plupart des conditions d'utilisation des services. Il est presque impossible de résoudre cela sans intervention manuelle.
22. Échec de renouvellement du jeton OAuth
Symptômes : Erreur 401 Unauthorized lors de l'appel à l'API
Cause : Expiration du jeton de rafraîchissement, modification des autorisations de l'application OAuth
Difficulté de réponse :
23. Changement de politique de cookies
Symptômes : Interruption soudaine du flux d'authentification existant
Cause : Renforcement de la politique SameSite, changement de nom/domaine/chemin de cookie
Difficulté de réponse :
Catégorie 5 : Qualité des données (4 pannes)
Un crawler peut fonctionner, mais les données collectées ne sont pas fiables. Plus vous tardez à le découvrir, plus les dommages sont importants.
24. Données de leurre (Honeypot)
Symptômes : Mélange de fausses informations dans les données collectées
Cause : Le site fournit intentionnellement des données incorrectes aux bots
Difficulté de réponse :
C'est la méthode de défense la plus sournoise. Le site montre des prix différents, des produits inexistants uniquement aux bots. Il est difficile de détecter la contamination des données tant qu'elle n'est pas vérifiée manuellement.
25. Contenu personnalisé
Symptômes : Les données varient à chaque collecte sur la même URL
Cause : Algorithmes de personnalisation, tests A/B, différences de prix régionales
Difficulté de réponse :
26. Problème d'encodage
Symptômes : Caractères corrompus, erreurs de caractères spéciaux
Cause : Mélange d'UTF-8 et d'EUC-KR, incompatibilité des jeux de caractères
Fréquence : (particulièrement courant sur les sites coréens)
**Difficulté de réponse :
Cela se produit fréquemment sur les anciens sites de commerce coréens ou les sites gouvernementaux. Il arrive encore que l'en-tête de la page déclare l'UTF-8 tout en utilisant l'EUC-KR dans le corps du texte.
27. Incohérence dynamique des prix/stocks
Symptômes : Différence entre les prix collectés et les prix affichés
Cause : Fluctuation des prix en temps réel, différences de prix par région/niveau de membre
Fréquence : (essentiel pour le commerce électronique)
**Difficulté de réponse :
Coûts réels des réponses aux pannes
Combien coûte la gestion de ces 27 pannes ?
Personnel
| Rôle | Niveau requis | Salaire (2025) |
|---|---|---|
| Développeur senior en crawling | 5 ans+ d'expérience, contournement des blocages en pratique | 80 à 120 millions de ₩ |
| Ingénieur infrastructure | Gestion des serveurs/proxies/surveillance | 60 à 90 millions de ₩ |
Avec plus de 5 crawlers, au moins 1 personne doit être dédiée au crawling à temps plein. Si elle fait autre chose, la gestion des pannes prendra le pas et des lacunes de données apparaîtront.
Infrastructure
| Élément | Coût mensuel |
|---|---|
| Serveur (exécution du crawler) | 500 000 à 2 000 000 ₩ |
| Service de proxies | 500 000 à 300 000 ₩ |
| Service de résolution de CAPTCHA | 100 000 à 500 000 ₩ |
| Surveillance/Notification | 100 |




