Automatización del web scraping con Python: schedule, Task Scheduler, crontab

Exploraremos métodos de automatización de web scraping con Python. Utilice 'schedule', 'Task Scheduler' y 'crontab' para automatizar eficientemente sus tareas.

9
Automatización del web scraping con Python: schedule, Task Scheduler, crontab

0. ¿No es tedioso hacer web scraping manualmente?

¿Has escrito un código de web scraping pero te molesta tener que ejecutarlo manualmente cada vez? Aquí te presentamos una forma de hacer que tu código en Python se ejecute automáticamente en el momento y con la frecuencia que desees. ¡Comencemos juntos con la automatización!

1. Utilizando un planificador de Python

Si has escrito un código de web scraping en Python, una de las formas más fáciles de automatizarlo es utilizando la biblioteca 'schedule' de Python.

1.1. Instalación de la biblioteca

pip install schedule

1.2. Código de automatización

import schedule
import time

def job():
    print("크롤링 시작!")
    # 여기에 웹 크롤링 코드를 넣으세요.

schedule.every(10).minutes.do(job)   # 10분마다
# schedule.every().hour.do(job)     # 1시간마다
# schedule.every().day.at("10:30").do(job)  # 매일 10:30에

while True:
    schedule.run_pending()
    time.sleep(1)

2. Utilizando un planificador del sistema

Un planificador del sistema es una herramienta proporcionada por el sistema operativo que permite a los usuarios ejecutar automáticamente tareas programadas en el momento o con la frecuencia especificada. Se utiliza no solo para scripts de web scraping, sino también para copias de seguridad, actualizaciones del sistema y otras tareas diversas. Ejemplos comunes son el 'Task Scheduler' de Windows y 'cron' en Mac y Linux.

2.1. Windows: Task Scheduler

  • Busca 'Programador de tareas' en el menú de inicio.

  • Selecciona 'Crear tarea'.

  • Ingresa el nombre y la descripción de la tarea.

  • En la pestaña 'Desencadenadores', agrega un nuevo desencadenador para establecer la hora y la frecuencia de ejecución.

  • En la pestaña 'Acciones', agrega una nueva acción para ejecutar el script de Python. Por ejemplo: python.exe ruta\script.py

  • Una vez configurado, haz clic en 'Aceptar' para guardar la tarea.

Nota: Si la ruta del script de Python o la ruta del ejecutable de Python contienen espacios, deben estar entre comillas (").

2.2. Mac & Linux: cron

  • Abre la terminal y edita el cron job con el comando crontab -e.

  • Agrega la tarea programada siguiendo el formato a continuación.

분 시 일 월 요일 /파이썬의_절대경로/python3 /크롤링_파이썬_스크립트의_절대경로/script.py

Por ejemplo, para ejecutarlo todos los días a las 3:30 p.m.:

30 15 * * * /usr/local/bin/python3 /your/path/to/script.py

Nota: Por lo general, la salida de las tareas de cron se envía por correo electrónico, pero en la mayoría de los sistemas este sistema de correo no está activado. Por lo tanto, puedes configurar la salida directamente en un archivo de registro.

Nota: Debido a que cron requiere rutas absolutas, asegúrate de ingresar correctamente las rutas absolutas de Python y del script. Es recomendable configurar directamente las variables de entorno necesarias dentro del script, ya que es posible que las variables de entorno no estén configuradas.

3. Conclusión

Hemos explorado cómo automatizar el código de web scraping utilizando planificadores de Python y del sistema. Para maximizar la eficiencia de las tareas de web scraping, es importante utilizar estas herramientas de automatización.

Además de los métodos mencionados anteriormente, también existen diversos servicios en la nube y herramientas de automatización especializadas, por lo que es recomendable explorar diferentes opciones para encontrar la solución óptima.

La automatización nos libera de tareas repetitivas y nos permite concentrarnos en tareas de mayor valor. ¡Te animamos a utilizarla activamente!

¡Lee también este artículo!

Automatiza la recopilación de datos ahora

Comienza en 5 minutos sin necesidad de programar · Experiencia en web scraping de más de 5,000 sitios web

Comienza gratis →

Comments

Add Comment

Your email won't be published and will only be used for reply notifications.

Sigue leyendo

Get notified of new posts

We'll email you when 해시스크래퍼 기술 블로그 publishes new content.

Your email will only be used for new post notifications.