在上次创建的“使用Python创建CampusPick爬虫”之后,这次我们将探讨如何在我想要的日期、时间执行我们创建的爬虫的方法。
虽然有各种类型的调度程序,但这次我们将使用Unix系列的Mac/Linux上可用的Crontab和Windows上可用的任务计划程序来实现爬虫自动化。请根据您使用的操作系统配置代码。
0. 注意事项
해당 Crontab과 TaskScheduler(작업스케줄러)는 컴퓨터가 켜져있는 상황에서만 동작합니다.
코드를 실행시키고 컴퓨터를 꺼버리면 작동하지 않습니다!
1. 使用Crontab自动化
打开终端并输入crontab -e命令以编辑cron作业。
按照以下格式添加要调度的任务:
分钟 小时 日 月 星期 /Python的绝对路径 /爬虫Python脚本的绝对路径
2. 获取Python的绝对路径
which python3
/usr/local/bin/python3
使用which命令在终端中,您将看到该文件的完整目录。将此目录地址放入Python的绝对路径中。
3. 获取脚本的绝对路径
find . -name "파일이름"
使用命令,您将看到与文件名对应的路径。将此目录地址放入Python脚本的绝对路径部分。
例如)每天下午3点30分执行:
30 15 * * * /usr/local/bin/python3 /your/path/to/script.py
※ 注意事项:cron需要使用绝对路径,因此必须准确输入Python和脚本的绝对路径。由于环境变量可能未设置,建议在脚本中直接设置所需的环境变量。
这样,我们创建的爬虫将在每天下午3点30分执行。
4. 使用任务计划程序自动化
4.1. 获取Python的绝对路径
在Windows中,获取Python路径的方法有所不同。打开CMD命令提示符窗口,
where python3
执行并将显示的路径设置为Python的路径。如果出现多个python3的路径,则需要判断自己使用哪个Python,并获取相应的Python路径。
4.2. 获取脚本的绝对路径
在前面使用的CMD命令提示符中,使用dir命令查找路径。
dir campuspickcrawling.py /s
必须像上面那样写下我的Python爬虫文件的名称和扩展名。
如果返回路径,则使用该路径。
4.3. 设置
在开始菜单中搜索“任务计划程序”
选择“创建任务”
输入任务名称、描述
在“触发器”选项卡中添加新触发器以设置执行时间和周期
在“操作”选项卡中添加新操作以输入执行Python脚本的命令
(*在此处放入您获取的Python脚本路径。)完成设置后,点击“确定”保存任务。
完成这些设置后,您也可以在Windows中实现自动化。
5. 结束语
本文介绍了在UNIX和Windows上使用各自的方法自动化我们创建的爬虫的方法。在下一篇文章中,我们将探讨如何通过邮件定期发送我们创建的爬取数据。
也一起阅读:
数据收集,现在自动化
无需编码,5分钟即可开始 · 5000多个网站爬取经验




