0. 网络爬虫,手动执行很麻烦吧?
已经编写了网络爬虫代码,但每次手动运行代码都觉得烦人吗?让Python代码按照您想要的时间和周期自动运行的方法。让我们一起开始自动化吧!
1. 使用Python调度器
如果您已经用Python编写了网络爬虫代码,其中一种最简单的方法之一是利用Python的 'schedule' 库。
1.1. 安装库
pip install schedule
1.2. 自动化代码
import schedule
import time
def job():
print("크롤링 시작!")
# 여기에 웹 크롤링 코드를 넣으세요.
schedule.every(10).minutes.do(job) # 10분마다
# schedule.every().hour.do(job) # 1시간마다
# schedule.every().day.at("10:30").do(job) # 매일 10:30에
while True:
schedule.run_pending()
time.sleep(1)
2. 使用系统调度器
系统调度器是操作系统提供的工具,允许用户在预先设置的时间或周期自动运行所需的任务。不仅可用于网络爬虫脚本,还可用于备份、系统更新等各种任务。Windows的 'Task Scheduler',Mac和Linux的 'cron' 是典型的例子。
2.1. Windows: 任务计划程序
在开始菜单中搜索 '任务计划程序'。
选择 '创建任务'。
输入任务名称和描述。
在 '触发器' 选项卡中添加新触发器以设置执行时间和周期。
在 '操作' 选项卡中添加新操作以输入执行Python脚本的命令。例如:python.exe 路径\script.py
完成设置后,点击 '确定' 保存任务。
※ 注意事项:如果Python脚本路径或Python执行文件路径中包含空格,则必须用双引号(")括起来。
2.2. Mac & Linux: cron
打开终端并输入 crontab -e 命令以编辑cron作业。
按照以下格式添加要调度的任务。
분 시 일 월 요일 /파이썬의_절대경로/python3 /크롤링_파이썬_스크립트의_절대경로/script.py
例如,要在每天下午3点30分运行:
30 15 * * * /usr/local/bin/python3 /your/path/to/script.py
※ 日志查看:通常cron作业的输出会通过邮件发送,但大多数系统中未启用邮件系统。因此,可以设置直接将输出写入日志文件。
※ 注意事项:由于cron需要使用绝对路径,因此必须准确输入Python和脚本的绝对路径。由于环境变量可能未设置,因此最好在脚本中直接设置所需的环境变量。
3. 结尾
到目前为止,我们已经探讨了如何利用Python调度器和系统调度器自动化网络爬虫代码。要最大限度地提高网络爬虫工作的效率,利用这些自动化工具至关重要。
此外,除了前面提到的方法,还有许多云服务和专门的自动化工具,因此建议探索多种方法,找到最佳解决方案。
自动化可以从简单的重复工作中解放我们,帮助我们集中精力进行更有价值的工作。请积极利用!
一起阅读这篇文章:
数据收集,现在开始自动化
无需编码,5分钟即可开始 · 5000多个网站爬取经验




