用Python制作Campuspick竞赛和对外活动爬虫 - 竞赛和对外活动自动爬取项目:第2部分

使用Python自动化抓取Campus Pick比赛和对外活动的详细指南。利用Crontab、Task Scheduler实现自动化!

9
用Python制作Campuspick竞赛和对外活动爬虫 - 竞赛和对外活动自动爬取项目:第2部分

在上次创建的“使用Python创建CampusPick爬虫”之后,这次我们将探讨如何在我想要的日期、时间执行我们创建的爬虫的方法。

虽然有各种类型的调度程序,但这次我们将使用Unix系列的Mac/Linux上可用的Crontab和Windows上可用的任务计划程序来实现爬虫自动化。请根据您使用的操作系统配置代码。

0. 注意事项

해당 Crontab과 TaskScheduler(작업스케줄러)는 컴퓨터가 켜져있는 상황에서만 동작합니다.
코드를 실행시키고 컴퓨터를 꺼버리면 작동하지 않습니다!

1. 使用Crontab自动化

打开终端并输入crontab -e命令以编辑cron作业。

按照以下格式添加要调度的任务:

分钟 小时 日 月 星期 /Python的绝对路径 /爬虫Python脚本的绝对路径

2. 获取Python的绝对路径

which python3
/usr/local/bin/python3

使用which命令在终端中,您将看到该文件的完整目录。将此目录地址放入Python的绝对路径中。

3. 获取脚本的绝对路径

find . -name "파일이름"

使用命令,您将看到与文件名对应的路径。将此目录地址放入Python脚本的绝对路径部分。

例如)每天下午3点30分执行:

30 15 * * * /usr/local/bin/python3 /your/path/to/script.py

※ 注意事项:cron需要使用绝对路径,因此必须准确输入Python和脚本的绝对路径。由于环境变量可能未设置,建议在脚本中直接设置所需的环境变量。

这样,我们创建的爬虫将在每天下午3点30分执行。

4. 使用任务计划程序自动化

4.1. 获取Python的绝对路径

在Windows中,获取Python路径的方法有所不同。打开CMD命令提示符窗口,

where python3

执行并将显示的路径设置为Python的路径。如果出现多个python3的路径,则需要判断自己使用哪个Python,并获取相应的Python路径。

4.2. 获取脚本的绝对路径

在前面使用的CMD命令提示符中,使用dir命令查找路径。

dir campuspickcrawling.py /s

必须像上面那样写下我的Python爬虫文件的名称和扩展名。

如果返回路径,则使用该路径。

4.3. 设置

  • 在开始菜单中搜索“任务计划程序”

  • 选择“创建任务”

  • 输入任务名称、描述

  • 在“触发器”选项卡中添加新触发器以设置执行时间和周期

  • 在“操作”选项卡中添加新操作以输入执行Python脚本的命令

    (*在此处放入您获取的Python脚本路径。)

  • 完成设置后,点击“确定”保存任务。

完成这些设置后,您也可以在Windows中实现自动化。

5. 结束语

本文介绍了在UNIX和Windows上使用各自的方法自动化我们创建的爬虫的方法。在下一篇文章中,我们将探讨如何通过邮件定期发送我们创建的爬取数据。

也一起阅读:

数据收集,现在自动化

无需编码,5分钟即可开始 · 5000多个网站爬取经验

免费开始 →

Comments

Add Comment

Your email won't be published and will only be used for reply notifications.

继续阅读

Get notified of new posts

We'll email you when 해시스크래퍼 기술 블로그 publishes new content.

Your email will only be used for new post notifications.