1. Trois choses à surveiller lors du crawling que tout le monde devrait essayer
Récemment, le crawling est devenu un élément essentiel des programmes de formation en logiciel dans les académies ou les sites de formation en ligne.
Le crawling est une technologie incontournable même dans les cours d'analyse de données, mais il arrive parfois que même en le développant rapidement, vous ne puissiez collecter que 10% des données souhaitées. Après avoir investi beaucoup de temps dans le développement, il est possible de découvrir des problèmes plus tard et de subir des pertes.
Alors, commençons par comprendre le crawling et pourquoi on prétend ne collecter que 10%, et comment résoudre ce problème.
Publicité pour la formation au crawling
Qu'est-ce que le crawling?
Le crawling ou le scraping consiste à récupérer une page web telle quelle et à en extraire des données. Le logiciel de crawling est appelé un crawler.
Maintenant, examinons ce à quoi il faut faire attention lors du développement d'un crawler.
1) Python est-il le meilleur choix?
Étant donné que Python est largement utilisé dans l'analyse de données, la plupart des manuels et programmes de formation utilisent Python pour créer des crawlers. Cependant, il n'est pas nécessaire d'utiliser forcément Python. Notre entreprise, Hashscraper, utilise Ruby.
Si l'objectif est atteint, peu importe l'outil utilisé, mais choisir Python largement utilisé est un bon choix. À une époque où "savoir où" est plus important que "savoir comment", choisir un langage facile à résoudre via une recherche est un choix intelligent. (Cependant, j'ai choisi Ruby pour sa simplicité et sa commodité)
2) Blocage d'IP
Lorsque vous lisez un livre, tapez avec diligence et comprenez pour créer un crawler et le faire fonctionner, tout se passe bien au début. Cependant, lorsque vous collectez des données à partir de sites de grande envergure, vous pouvez rencontrer les situations suivantes :
- Blocage d'accès
- Demande de connexion
- Apparition de CAPTCHA
- Redirection vers une page incorrecte
Étant donné que le serveur Web connaît votre adresse IP, si vous demandez fréquemment des pages Web sur de courtes périodes, votre IP peut être bloquée pendant un certain temps.
Comment résoudre le blocage d'IP? Il suffit d'avoir plus d'IP. C'est simple mais difficile à réaliser en pratique.
C'est pourquoi Hashscraper utilise plusieurs instances AWS EC2 depuis environ 3 ans pour collecter des données. De plus, en fonction du volume de données à collecter, la technologie AutoScaling est appliquée pour augmenter ou réduire automatiquement le nombre de serveurs.
De plus, les serveurs qui échouent à plusieurs reprises se terminent d'eux-mêmes et créent de nouvelles instances pour obtenir une nouvelle adresse IP.
3) Distribution des IP
Comme de nombreux endroits qui utilisent EC2 pour le crawling, certains serveurs ont bloqué l'ensemble de la plage d'adresses IP EC2. C'est pourquoi nous sécurisons des adresses IP "propres" via des fournisseurs d'hébergement nationaux et utilisons des serveurs Proxy IP au besoin.
2. Conclusion
Pour la collecte de données nécessaire à des devoirs ou à des rapports, il est suffisant de créer un crawler de base.
Cependant, si vous souhaitez l'utiliser pour des tâches professionnelles (marketing, analyse des tendances, données de base de plateforme, recherche d'influenceurs, etc.), nous vous recommandons de mettre en place un système de crawling correct.
Consultez également cet article :
Automatisez la collecte de données dès maintenant
Commencez en 5 minutes sans coder · Expérience du crawling sur plus de 5 000 sites web




