Automatisierung des Web-Scrapings mit Python: Zeitplan, Task Scheduler, crontab

Untersuchen Sie die automatisierte Methode für Web-Scraping mit Python. Automatisieren Sie Ihre Aufgaben effizient mit 'schedule', 'Task Scheduler' und 'crontab'.

9
Automatisierung des Web-Scrapings mit Python: Zeitplan, Task Scheduler, crontab

0. Web Crawling, manuelle Ausführung zu umständlich?

Sie haben den Web-Crawling-Code geschrieben, aber finden es lästig, den Code jedes Mal manuell auszuführen? Hier ist eine Methode, mit der Sie Ihren Python-Code automatisch zu der von Ihnen gewünschten Zeit und Frequenz ausführen lassen können. Lassen Sie uns gemeinsam mit der Automatisierung beginnen!

1. Python-Scheduler verwenden

Wenn Sie bereits einen Web-Scraping-Code in Python geschrieben haben, ist eine der einfachsten Methoden die Verwendung der 'schedule'-Bibliothek in Python.

1.1. Bibliothek installieren

pip install schedule

1.2. Automatisierungscode

import schedule
import time

def job():
    print("크롤링 시작!")
    # 여기에 웹 크롤링 코드를 넣으세요.

schedule.every(10).minutes.do(job)   # 10분마다
# schedule.every().hour.do(job)     # 1시간마다
# schedule.every().day.at("10:30").do(job)  # 매일 10:30에

while True:
    schedule.run_pending()
    time.sleep(1)

2. System-Scheduler verwenden

Ein System-Scheduler ist ein vom Betriebssystem bereitgestelltes Tool, mit dem Benutzer Aufgaben zu einer vordefinierten Zeit oder Frequenz automatisch ausführen können. Es wird nicht nur für Web-Crawling-Skripte, sondern auch für Backups, Systemupdates und andere Aufgaben verwendet. 'Task Scheduler' für Windows und 'cron' für Mac und Linux sind bekannte Beispiele.

2.1. Windows: Task Scheduler

  • Suchen Sie im Startmenü nach 'Aufgabenplanung'.

  • Wählen Sie 'Aufgabe erstellen'.

  • Geben Sie einen Aufgabenname und eine Beschreibung ein.

  • Fügen Sie unter dem Tab 'Auslöser' einen neuen Auslöser hinzu und legen Sie die Ausführungszeit und -frequenz fest.

  • Unter dem Tab 'Aktion' fügen Sie eine neue Aktion hinzu und geben den Befehl zum Ausführen des Python-Skripts ein. Beispiel: python.exe Pfad\script.py

  • Klicken Sie nach Abschluss der Einstellungen auf 'OK', um die Aufgabe zu speichern.

※ Hinweis: Wenn im Pfad des Python-Skripts oder der Python-Ausführungsdatei Leerzeichen enthalten sind, müssen Sie sie in Anführungszeichen(") setzen.

2.2. Mac & Linux: cron

  • Öffnen Sie das Terminal und geben Sie den Befehl crontab -e ein, um den cron job zu bearbeiten.

  • Fügen Sie die Aufgabe, die Sie planen möchten, gemäß dem folgenden Format hinzu.

분 시 일 월 요일 /파이썬의_절대경로/python3 /크롤링_파이썬_스크립트의_절대경로/script.py

Zum Beispiel, um es täglich um 15:30 Uhr auszuführen:

30 15 * * * /usr/local/bin/python3 /your/path/to/script.py

※ Protokollüberprüfung: Standardmäßig wird die Ausgabe von cron-Jobs per E-Mail gesendet, aber in den meisten Systemen ist das E-Mail-System nicht aktiviert. Sie können jedoch einstellen, dass die Ausgabe direkt in eine Protokolldatei geschrieben wird.

※ Hinweis: Da cron absolute Pfade erfordert, stellen Sie sicher, dass Sie die absoluten Pfade für Python und das Skript korrekt eingeben. Es ist ratsam, benötigte Umgebungsvariablen direkt im Skript festzulegen, da Umgebungsvariablen möglicherweise nicht gesetzt sind.

3. Abschluss

Wir haben uns angesehen, wie man Web-Crawling-Code mithilfe von Python-Scheduler und System-Scheduler automatisiert. Um die Effizienz der Web-Crawling-Arbeit zu maximieren, ist es wichtig, solche Automatisierungstools zu nutzen.

Darüber hinaus gibt es neben den oben genannten Methoden auch verschiedene Cloud-Services und spezialisierte Automatisierungstools. Es ist ratsam, verschiedene Methoden zu erkunden, um die beste Lösung zu finden.

Automatisierung befreit uns von einfachen wiederkehrenden Aufgaben und ermöglicht es uns, uns auf wertvollere Aufgaben zu konzentrieren. Nutzen Sie sie aktiv!

Lesen Sie auch:

Daten sammeln, jetzt automatisieren

Starten Sie in 5 Minuten ohne zu coden · Erfahrung mit dem Crawlen von über 5.000 Websites

Jetzt kostenlos starten →

Comments

Add Comment

Your email won't be published and will only be used for reply notifications.

Weiterlesen

Get notified of new posts

We'll email you when 해시스크래퍼 기술 블로그 publishes new content.

Your email will only be used for new post notifications.