0. ¿No es tedioso hacer web scraping manualmente?
¿Has escrito un código de web scraping pero te molesta tener que ejecutarlo manualmente cada vez? Aquí te presentamos una forma de hacer que tu código en Python se ejecute automáticamente en el momento y con la frecuencia que desees. ¡Comencemos juntos con la automatización!
1. Utilizando un planificador de Python
Si has escrito un código de web scraping en Python, una de las formas más fáciles de automatizarlo es utilizando la biblioteca 'schedule' de Python.
1.1. Instalación de la biblioteca
pip install schedule
1.2. Código de automatización
import schedule
import time
def job():
print("크롤링 시작!")
# 여기에 웹 크롤링 코드를 넣으세요.
schedule.every(10).minutes.do(job) # 10분마다
# schedule.every().hour.do(job) # 1시간마다
# schedule.every().day.at("10:30").do(job) # 매일 10:30에
while True:
schedule.run_pending()
time.sleep(1)
2. Utilizando un planificador del sistema
Un planificador del sistema es una herramienta proporcionada por el sistema operativo que permite a los usuarios ejecutar automáticamente tareas programadas en el momento o con la frecuencia especificada. Se utiliza no solo para scripts de web scraping, sino también para copias de seguridad, actualizaciones del sistema y otras tareas diversas. Ejemplos comunes son el 'Task Scheduler' de Windows y 'cron' en Mac y Linux.
2.1. Windows: Task Scheduler
Busca 'Programador de tareas' en el menú de inicio.
Selecciona 'Crear tarea'.
Ingresa el nombre y la descripción de la tarea.
En la pestaña 'Desencadenadores', agrega un nuevo desencadenador para establecer la hora y la frecuencia de ejecución.
En la pestaña 'Acciones', agrega una nueva acción para ejecutar el script de Python. Por ejemplo: python.exe ruta\script.py
Una vez configurado, haz clic en 'Aceptar' para guardar la tarea.
Nota: Si la ruta del script de Python o la ruta del ejecutable de Python contienen espacios, deben estar entre comillas (").
2.2. Mac & Linux: cron
Abre la terminal y edita el cron job con el comando crontab -e.
Agrega la tarea programada siguiendo el formato a continuación.
분 시 일 월 요일 /파이썬의_절대경로/python3 /크롤링_파이썬_스크립트의_절대경로/script.py
Por ejemplo, para ejecutarlo todos los días a las 3:30 p.m.:
30 15 * * * /usr/local/bin/python3 /your/path/to/script.py
Nota: Por lo general, la salida de las tareas de cron se envía por correo electrónico, pero en la mayoría de los sistemas este sistema de correo no está activado. Por lo tanto, puedes configurar la salida directamente en un archivo de registro.
Nota: Debido a que cron requiere rutas absolutas, asegúrate de ingresar correctamente las rutas absolutas de Python y del script. Es recomendable configurar directamente las variables de entorno necesarias dentro del script, ya que es posible que las variables de entorno no estén configuradas.
3. Conclusión
Hemos explorado cómo automatizar el código de web scraping utilizando planificadores de Python y del sistema. Para maximizar la eficiencia de las tareas de web scraping, es importante utilizar estas herramientas de automatización.
Además de los métodos mencionados anteriormente, también existen diversos servicios en la nube y herramientas de automatización especializadas, por lo que es recomendable explorar diferentes opciones para encontrar la solución óptima.
La automatización nos libera de tareas repetitivas y nos permite concentrarnos en tareas de mayor valor. ¡Te animamos a utilizarla activamente!
¡Lee también este artículo!
Automatiza la recopilación de datos ahora
Comienza en 5 minutos sin necesidad de programar · Experiencia en web scraping de más de 5,000 sitios web




