Serveur, proxy, contournement des CAPTCHA, réponse anti-bot - révélation de tous les coûts cachés
Temps de lecture : 10 minutes | Janvier 2026
Résumé
| Élément de coût | Coût mensuel (construction interne) | Remarques |
|---|---|---|
| Serveur/Cloud | 500 000~3 000 000 ₩ | Variable selon l'échelle |
| Proxy | 800 000~5 000 000 ₩ | Basé sur les proxies résidentiels |
| Contournement des CAPTCHA | 300 000~1 500 000 ₩ | Proportionnel au nombre de sites |
| Développement de la réponse anti-bot | 2 000 000~5 000 000 ₩ | Coût de l'ingénieur spécialisé |
| Surveillance/Gestion des pannes | 1 000 000~3 000 000 ₩ | Inclut le personnel d'exploitation |
| Total | 4 600 000~17 500 000 ₩ |
Abonnement Hashscraper : 300 000~1 200 000 ₩/mois (inclut tous les coûts ci-dessus)
"Coût du crawler ? Un serveur à 50 000 ₩ suffit"
C'est ce que dit un nouveau développeur. Le chef d'équipe hoche la tête. Le CTO dit aussi "C'est assez pour le faire vous-même".
6 mois plus tard, si vous additionnez tous les coûts liés à l'infrastructure de crawling, cela revient à des centaines de milliers de ₩ par mois. Un chiffre inattendu pour tout le monde.
La raison de ces répétitions est simple. Une grande partie des coûts de crawling se trouve en dehors du code. Le coût du serveur est la pointe de l'iceberg, et sous la surface se cachent des éléments tels que les proxies, les CAPTCHA, la réponse anti-bot et le personnel d'exploitation.
Dans cet article, nous examinons en détail les 5 éléments de coût qui composent l'infrastructure de crawling. Nous expliquerons pourquoi chaque élément est nécessaire, combien il coûte réellement, et pourquoi les coûts explosent souvent au-delà des prévisions.
1. Coût du serveur/Cloud : Le piège du "50 000 ₩ pour le serveur"
Configuration minimale
Pour faire tourner un crawler, un serveur est nécessaire. Configuration de base :
- AWS EC2 t3.medium (2 vCPU, 4 Go de RAM) : Environ 50 000 ₩ par mois
- Pour un petit crawling (quelques milliers de pages par jour), cela suffit
Au moment où le coût du serveur est indiqué à "50 000 ₩", c'est le niveau d'un projet personnel. Mais dans un environnement B2B, les besoins réels sont différents.
Réalité selon l'échelle de l'entreprise
| Échelle | Volume quotidien | Configuration du serveur | Coût mensuel |
|---|---|---|---|
| Petit | 10 000 pages | EC2 t3.medium x1 | ~50 000 ₩ |
| Moyen | 100 000 pages | EC2 c5.xlarge x2 + RDS | ~500 000 ₩ |
| Grand | 1 000 000 pages | EC2 c5.2xlarge x5 + RDS + ElastiCache | ~2 000 000 ₩ |
| Entreprise | 10 000 000+ pages | Cluster K8s + traitement distribué | ~3 000 000+ ₩ |
Et les coûts non mentionnés dans le tableau :
- Coût de transfert de données (egress AWS) : 10 000~50 000 ₩ par mois pour un grand volume
- Stockage (S3/EBS) : 5 000~30 000 ₩ par mois pour stocker les données collectées
- Logs/Monitoring (CloudWatch, Datadog) : 10 000~20 000 ₩ par mois
Un serveur "seul" coûte 50 000 ₩, mais dans un environnement d'entreprise, cela peut monter à 50 000~300 000 ₩ ou plus.
Point facile à manquer : Pics de trafic
"En général, c'est 100 000 pages, mais à la fin du trimestre, nous devons collecter 500 000 pages."
Cela signifie qu'il faut configurer le serveur pour 500 000 pages ou mettre en place un auto-scaling. Dans les deux cas, les coûts et la complexité augmentent.
2. Coût du proxy : L'élément le plus sous-estimé
Pourquoi les proxies sont indispensables
Envoyer des centaines de requêtes depuis la même IP entraîne un blocage. En 2026, dans le crawling commercial, les proxies ne sont pas un choix, mais une nécessité.
Prix par type de proxy
| Type | Caractéristiques | Prix par Go | Coût mensuel estimé (moyen) |
|---|---|---|---|
| Proxy de centre de données | Rapide mais facilement détectable | 0,5~2 $ | 200 000~800 000 ₩ |
| Proxy résidentiel | IP réelle de domicile, difficile à détecter | 3~15 $ | 800 000~5 000 000 ₩ |
| Proxy ISP | Utilisation d'IP réelles d'ISP à partir de centres de données | 2~5 $ | 500 000~2 000 000 ₩ |
| Proxy mobile | IP de l'opérateur mobile, taux de blocage minimal | 10~30 $ | 2 000 000~8 000 000 ₩ |
Calcul réel des coûts
Pour un crawling de taille moyenne (100 000 pages par jour) :
- Données moyennes par page : 200 Ko
- Trafic quotidien : environ 20 Go
- Trafic mensuel : environ 600 Go
Si vous utilisez des proxies résidentiels, cela coûterait environ 8 $/Go selon Bright Data, soit environ 6 000 000 ₩ par mois.
Cependant, le coût réel peut être inférieur. La plupart des fournisseurs offrent des remises en volume, et en combinant avec des proxies de centre de données, les coûts peuvent être réduits. Le coût réaliste est d'environ 1 000 000~4 000 000 ₩ par mois.
Le problème réside dans les sites avec une forte protection anti-bot. Des sites comme Coupang, Naver Shopping ont un taux de blocage élevé, ce qui entraîne des tentatives fréquentes et un trafic réel pouvant être 2 à 3 fois supérieur à ce qui était prévu.
Structure de cercle vicieux
Proxy bon marché → Augmentation du taux de blocage → Augmentation des tentatives → Augmentation du trafic → Augmentation des coûts
Les proxies sont un cas d'école de "ce qui est bon marché coûte cher".
3. Coût de contournement des CAPTCHA : Écart entre le simple et le complexe
Coût par type de CAPTCHA
La plupart des sites d'e-commerce et de portails utilisent des CAPTCHA en 2026.
| Type de CAPTCHA | Difficulté | Coût par 1 000 |
|---|---|---|
| reCAPTCHA v2 (images) | Moyenne | 1~3 $ / 1 000 |
| reCAPTCHA v3 (basé sur le score) | Élevée | 2~5 $ / 1 000 |
| hCaptcha | Moyenne | 1~3 $ / 1 000 |
| Cloudflare Turnstile | Élevée | 3~6 $ / 1 000 |
| Akamai Bot Manager | Très élevée | Non résoluble par service |
| PerimeterX/HUMAN | Très élevée | Non résoluble par service |
CAPTCHA standard : Moins cher que prévu
Pour un crawling de taille moyenne (100 000 pages par jour, taux de CAPTCHA de 30 %) :
- Résolution mensuelle des CAPTCHA : environ 900 000
- Selon reCAPTCHA v2 : environ 230 000 ₩/mois
- Selon Cloudflare Turnstile : environ 580 000 ₩/mois
- Moyenne : environ 300 000~800 000 ₩/mois
Jusqu'ici, c'est gérable.
Véritable problème : Anti-bot de niveau entreprise
Des sites comme Coupang (Akamai), certaines institutions financières (PerimeterX/HUMAN) ne peuvent pas être contournés avec des services comme 2Captcha. Pour les contourner, il faut :
- Fausser les empreintes digitales du navigateur - Personnalisation de Playwright/Puppeteer
- Manipulation des empreintes digitales TLS - Ingénierie réseau de haut niveau
- Simulation de modèles de comportement - Trajectoire de la souris, vitesse de défilement, intervalle de frappe
Il ne s'agit pas de payer pour un service de CAPTCHA. C'est un problème pour lequel un développeur en sécurité senior doit investir de quelques semaines à quelques mois.
Converti en coût du travail :
- Construction initiale : 5 000 000~20 000 000 ₩
- Maintenance mensuelle : 1 000 000~3 000 000 ₩
4. Réponse anti-bot : Course aux armements sans fin
Règles changeantes chaque trimestre
Les entreprises anti-bot mettent à jour leur logique de détection 8 à 12 fois par an. Une fois que vous les avez contournées, ce n'est pas fini.
| Période | Mise à jour | Temps requis pour la réponse |
|---|---|---|
| 2024 T1 | Renforcement du Cloudflare JS Challenge | 1~2 semaines |
| 2024 T3 | Cloudflare Browser Fingerprint v3 | 2~4 semaines |
| 2025 T1 | Amélioration de l'analyse comportementale de PerimeterX | 3~6 semaines |
| 2025 T3 | Mise à jour majeure de Cloudflare Turnstile | 1~3 semaines |
À chaque mise à jour, le crawler s'arrête immédiatement. Si la réponse prend 2 semaines, les données sont vides pendant 2 semaines.
Les personnes capables de faire ce travail
Compétences nécessaires pour la réponse anti-bot :
- Ingénierie inverse : Décryptage du JavaScript, analyse du trafic réseau
- Structure interne du navigateur : Compréhension au niveau du code source de Chromium
- Contournement de la sécurité : Manipulation des empreintes digitales TLS/HTTP2
Le salaire de ces développeurs sur le marché est de 80 000 000~150 000 000 ₩ par an. Même à temps partiel, en investissant à chaque mise à jour, cela entraîne un coût de main-d'œuvre mensuel de 2 000 000~5 000 000 ₩.
Conséquences d'une réponse tardive
Pour les entreprises d'e-commerce qui font une surveillance des prix en temps réel, une interruption de 2 semaines est critique. Les prix des concurrents changent sans que nous le sachions. Peu importe l'argent dépensé par la suite, les données passées ne peuvent pas être récupérées.
5. Surveillance & Exploitation : Coûts invisibles récurrents
Coûts des outils
| Élément | Outil | Coût mensuel |
|---|---|---|
| Surveillance du serveur | Datadog / CloudWatch | 10 000~30 000 ₩ |
| Suivi du taux de réussite du crawling | Tableau de bord interne (besoin de développement) | — |
| Validation de la qualité des données | Scripts internes (besoin de développement) | — |
| Alertes de pannes | PagerDuty / Slack Webhook | 5 000~15 000 ₩ |
| Gestion des logs | ELK Stack / Grafana Loki | 10 000~20 000 ₩ |
Coût total des outils : 25 000~65 000 ₩ par mois
Mais le vrai coût n'est pas dans les outils.
Coût en main-d'œuvre
- Vérification quotidienne de l'état du crawling : 30 minutes
- Révision hebdomadaire de la qualité des données : 2 heures
- Gestion des pannes (3~5 par mois) : 2~4 heures par panne
- Mises à jour/Patches mensuels : 8~16 heures
Cela équivaut à environ 40~60 heures par mois. Avec un taux horaire de 50 000 ₩ pour un développeur, cela représente environ 200 000~300 000 ₩ par mois.
Et il y a un coût non quantifiable supplémentaire. L'alerte de panne à 3 heures du matin. Les conséquences sur le sommeil, l'équilibre travail-vie personnelle, le burn-out du développeur - un schéma qui mène souvent à la démission dans de nombreuses entreprises.
Simulation totale des coûts
Scénario : Entreprise B2B de taille moyenne (100 000 pages/jour, crawling sur 5 sites)
| Élément de coût | Coût mensuel | Coût annuel |
|---|---|---|
| Serveur/Cloud | 800 000 ₩ | 9 600 000 ₩ |
| Proxy | 2 500 000 ₩ | 30 000 000 ₩ |
| Contournement des CAPTCHA | 500 000 ₩ | 6 000 000 ₩ |
| Réponse anti-bot (main-d'œuvre) | 3 000 000 ₩ | 36 000 000 ₩ |
| Surveillance/Exploitation | 2 000 000 ₩ | 24 000 000 ₩ |
| Total | 8 800 000 ₩ | 156 000 000 ₩ |
Si vous exploitiez une entreprise de la même taille avec Hashscraper
Plan Pro : 800 000 ₩/mois (9 600 000 ₩/an)
Inclus : serveur, proxy, contournement des CAPTCHA, réponse anti-bot, surveillance, gestion des pannes, développement supplémentaire - tout.
Différence annuelle : environ 960 000 ₩ (9 %)
Les chiffres ne semblent pas montrer une grande différence. Cependant, il y a des coûts non inclus :
En incluant les coûts invisibles
- Coût initial de construction : 3 000 000~8 000 000 ₩ pour la configuration initiale de l'infrastructure (3~6 mois de développement)
- Coût d'opportunité : Si le développeur affecté au crawling avait travaillé sur un produit principal ?
- Données manquantes : À chaque mise à jour anti-bot, les données pendant cette période sont perdues à jamais
- Risque de départ : Une interruption de 3 mois si le responsable du crawling quitte l'entreprise
En prenant en compte ces éléments, la différence réelle est de plus de 50 000 000 ₩ par an.
Point de rupture du profit selon l'échelle
| Échelle | Construction interne (mensuel) | Hashscraper (mensuel) | Conclusion |
|---|---|---|---|
| Petit (10 000 pages/jour) | ~200 000 ₩ | 300 000 ₩ (Basic) | Interne est moins cher |
| Moyen (100 000 pages/jour) | ~880 000 ₩ | 800 000 ₩ (Pro) | Économie de 80 000 ₩ par mois |
| Grand (1 000 000 pages/jour) | ~1 750 000 ₩ | 1 200 000 ₩ (Entreprise) | Économie de 550 000 ₩ par mois |
Essentiel : Pour une petite échelle, le faire soi-même est moins cher. Mais à mesure que l'échelle augmente, l'efficacité des coûts des services spécialisés s'améliore considérablement.
La raison en est structurelle. Un pool de proxies, un moteur anti-bot et une infrastructure de résolution de CAPTCHA partagés par




