使用Python进行网页爬虫自动化:schedule、任务计划程序、crontab

研究使用Python进行网页爬虫自动化方法。利用'schedule'、'Task Scheduler'、'crontab'来有效地自动化工作。

10
使用Python进行网页爬虫自动化:schedule、任务计划程序、crontab

0. 网络爬虫,手动执行很麻烦吧?

已经编写了网络爬虫代码,但每次手动运行代码都觉得烦人吗?让Python代码按照您想要的时间和周期自动运行的方法。让我们一起开始自动化吧!

1. 使用Python调度器

如果您已经用Python编写了网络爬虫代码,其中一种最简单的方法之一是利用Python的 'schedule' 库。

1.1. 安装库

pip install schedule

1.2. 自动化代码

import schedule
import time

def job():
    print("크롤링 시작!")
    # 여기에 웹 크롤링 코드를 넣으세요.

schedule.every(10).minutes.do(job)   # 10분마다
# schedule.every().hour.do(job)     # 1시간마다
# schedule.every().day.at("10:30").do(job)  # 매일 10:30에

while True:
    schedule.run_pending()
    time.sleep(1)

2. 使用系统调度器

系统调度器是操作系统提供的工具,允许用户在预先设置的时间或周期自动运行所需的任务。不仅可用于网络爬虫脚本,还可用于备份、系统更新等各种任务。Windows的 'Task Scheduler',Mac和Linux的 'cron' 是典型的例子。

2.1. Windows: 任务计划程序

  • 在开始菜单中搜索 '任务计划程序'。

  • 选择 '创建任务'。

  • 输入任务名称和描述。

  • 在 '触发器' 选项卡中添加新触发器以设置执行时间和周期。

  • 在 '操作' 选项卡中添加新操作以输入执行Python脚本的命令。例如:python.exe 路径\script.py

  • 完成设置后,点击 '确定' 保存任务。

※ 注意事项:如果Python脚本路径或Python执行文件路径中包含空格,则必须用双引号(")括起来。

2.2. Mac & Linux: cron

  • 打开终端并输入 crontab -e 命令以编辑cron作业。

  • 按照以下格式添加要调度的任务。

분 시 일 월 요일 /파이썬의_절대경로/python3 /크롤링_파이썬_스크립트의_절대경로/script.py

例如,要在每天下午3点30分运行:

30 15 * * * /usr/local/bin/python3 /your/path/to/script.py

※ 日志查看:通常cron作业的输出会通过邮件发送,但大多数系统中未启用邮件系统。因此,可以设置直接将输出写入日志文件。

※ 注意事项:由于cron需要使用绝对路径,因此必须准确输入Python和脚本的绝对路径。由于环境变量可能未设置,因此最好在脚本中直接设置所需的环境变量。

3. 结尾

到目前为止,我们已经探讨了如何利用Python调度器和系统调度器自动化网络爬虫代码。要最大限度地提高网络爬虫工作的效率,利用这些自动化工具至关重要。

此外,除了前面提到的方法,还有许多云服务和专门的自动化工具,因此建议探索多种方法,找到最佳解决方案。

自动化可以从简单的重复工作中解放我们,帮助我们集中精力进行更有价值的工作。请积极利用!

一起阅读这篇文章:

数据收集,现在开始自动化

无需编码,5分钟即可开始 · 5000多个网站爬取经验

免费开始 →

Comments

Add Comment

Your email won't be published and will only be used for reply notifications.

继续阅读

Get notified of new posts

We'll email you when 해시스크래퍼 기술 블로그 publishes new content.

Your email will only be used for new post notifications.