0. Le web scraping, vous trouvez ça très fastidieux à exécuter manuellement?
Vous avez écrit du code de web scraping, mais vous en avez marre de l'exécuter manuellement à chaque fois? Nous vous présentons une méthode pour que votre code Python s'exécute automatiquement à l'heure et à l'intervalle que vous souhaitez. C'est le début de l'automatisation, essayons ensemble!
1. Utilisation d'un planificateur Python
Si vous avez écrit du code de web scraping en Python, l'une des méthodes les plus simples est d'utiliser la bibliothèque 'schedule' de Python.
1.1. Installation de la bibliothèque
pip install schedule
1.2. Code d'automatisation
import schedule
import time
def job():
print("크롤링 시작!")
# 여기에 웹 크롤링 코드를 넣으세요.
schedule.every(10).minutes.do(job) # 10분마다
# schedule.every().hour.do(job) # 1시간마다
# schedule.every().day.at("10:30").do(job) # 매일 10:30에
while True:
schedule.run_pending()
time.sleep(1)
2. Utilisation d'un planificateur système
Un planificateur système est un outil fourni par le système d'exploitation qui permet à l'utilisateur d'exécuter automatiquement des tâches à des heures ou des intervalles prédéfinis. Il est utilisé non seulement pour les scripts de web scraping, mais aussi pour des tâches telles que la sauvegarde et les mises à jour système. 'Task Scheduler' de Windows, et 'cron' de Mac et Linux en sont des exemples courants.
2.1. Windows: Task Scheduler
Recherchez 'Planificateur de tâches' dans le menu Démarrer.
Sélectionnez 'Créer une tâche'.
Entrez le nom de la tâche et sa description.
Dans l'onglet 'Déclencheurs', ajoutez un nouveau déclencheur pour définir l'heure et l'intervalle d'exécution.
Dans l'onglet 'Actions', ajoutez une nouvelle action pour exécuter le script Python. Par exemple: python.exe chemin\script.py
Une fois la configuration terminée, cliquez sur 'OK' pour enregistrer la tâche.
※ Remarque: Si le chemin du script Python ou le chemin d'exécution de Python contient des espaces, ils doivent être entre guillemets (").
2.2. Mac & Linux: cron
Ouvrez le terminal et saisissez la commande crontab -e pour éditer les tâches cron.
Ajoutez la tâche à planifier en suivant le format ci-dessous.
분 시 일 월 요일 /파이썬의_절대경로/python3 /크롤링_파이썬_스크립트의_절대경로/script.py
Par exemple, pour exécuter tous les jours à 15h30:
30 15 * * * /usr/local/bin/python3 /your/path/to/script.py
※ Vérification des journaux: Par défaut, la sortie des tâches cron est envoyée par e-mail, mais la plupart des systèmes n'ont pas cette fonctionnalité activée. Vous pouvez donc configurer l'envoi directement vers un fichier journal.
※ Remarque: cron nécessite l'utilisation de chemins absolus, donc assurez-vous de saisir correctement les chemins absolus de Python et du script. Il est recommandé de définir directement les variables d'environnement nécessaires dans le script, car les variables d'environnement peuvent ne pas être définies.
3. Conclusion
Nous avons examiné comment automatiser le code de web scraping en utilisant un planificateur Python et un planificateur système. Pour maximiser l'efficacité du web scraping, il est important d'utiliser ces outils d'automatisation.
En plus des méthodes mentionnées ci-dessus, il existe de nombreux services cloud et outils d'automatisation spécialisés, donc il est bon d'explorer différentes méthodes pour trouver la solution optimale.
L'automatisation nous libère des tâches répétitives et nous permet de nous concentrer sur des tâches de plus grande valeur. Nous vous encourageons à l'utiliser activement!
Consultez également cet article:
Collecte de données, automatisez maintenant
Commencez en 5 minutes sans coder · Expérience de plus de 5 000 sites web crawlés




