哈希抓取技术博客

使用Python进行网页爬虫自动化:schedule、任务计划程序、crontab

使用Python进行网页爬虫自动化:schedule、任务计划程序、crontab

0. 网络爬虫,手动执行很麻烦吧? 已经编写了网络爬虫代码,但每次手动运行代码都觉得烦人吗?让Python代码按照您想要的时间和周期自动运行的方法。让我们一起开始自动化吧! 1. 使用Python调度器 如果您已经用Python编写了网络爬虫代码,其中一种最简单的方法之一是利用Python的 'schedule' 库。 1.1. 安装库 pip install schedule 1.2. 自...

Read more →
与SEO优化相关的索引技术和最佳方法

与SEO优化相关的索引技术和最佳方法

1. Google 搜索控制台确认问题 域名确认后,爬虫开始爬取数据后,几天后再访问,您将看到数据。 爬取时常见问题如下。 超时 连接被拒绝 连接失败 连接超时 无响应 大多数情况下,服务器错误通常是暂时性的,但如果错误持续,请检查服务器是否有问题 有时候可能是由于托管提供商的错误,请咨询托管提供商 如果 robots.txt 文件返回 200 或 404 错误,则表示搜索引擎在尝试检索此文...

Read more →
成功改善不良工序率的客户案例(feat. SHAP库)

成功改善不良工序率的客户案例(feat. SHAP库)

0. 概述 哈希刮取客户案例之一是使用AI模型来减少工厂中出现的不良率。为了更深入和易于理解地解释机器学习模型的预测,我写了这篇文章。 1. 问题定义 1.1. 目标设定 首先,简要描述客户案例,根据128个变量中的数据,在制造产品时,每台机器的不良率有所不同,通过机器学习模型对不良品进行预测,然后分析通过机器学习模型导致哪些变量导致不良率,并调整这些变量以减少不良率是目标。 1.2. 假设...

Read more →
有家公司通过AI模型显著降低了不良工序率,使用了SHAP库。

有家公司通过AI模型显著降低了不良工序率,使用了SHAP库。

0. 概述 哈希刮削器的一个客户案例是使用AI模型来减少工厂中出现的不良率。为了更深入和易于理解地解释机器学习模型的预测,我撰写了这篇文章。 1. 问题定义 1.1. 目标设定 首先简要描述客户案例,根据128个变量的数据,针对每个机器制造产品时不同机器的不良率不同的情况,通过机器学习模型进行不良品预测,然后分析导致不良的变量,并调整这些变量以降低不良率。 1.2. 假设设立 通过机器学习模...

Read more →
AWS易学易懂:初学者开发者的技巧集

AWS易学易懂:初学者开发者的技巧集

0. AWS(亚马逊网络服务)是不是太复杂了? 对于初学者来说,充满有用功能的亚马逊网络服务(Amazone Web Service, 以下简称 AWS)被誉为难度极高。 想要尝试使用,但仍在犹豫吗? 在本篇文章中,我们将分享一些能够更有效地利用AWS的技巧。 AWS是一个强大的云平台,但初次使用时可能会有一些复杂之处。 但不要担心。我们已经准备了最基本的使用方法示例。 1. 利用AWS免费...

Read more →
使用ChatGPT创建一个Coupang爬虫机器人:从搜索结果中提取商品信息

使用ChatGPT创建一个Coupang爬虫机器人:从搜索结果中提取商品信息

0. 概述 如今,由于ChatGPT,开发变得非常容易。 如果与ChatGPT一起,爬虫机器人也能轻松创建吗? 让我们开始开发一个Coupang爬虫机器人(带ChatGPT)。 1. 编写提示 1.1. 目标 希望从搜索结果中提取每个产品的基本信息。 产品名称 原价 销售价 评分 评论数量 卡片折扣信息 积分信息 配送信息 1.2. 查找产品列表HTML 让我们找到包含产品列表的HTML元素...

Read more →
更轻松快速地进行网络爬虫!揭示最受欢迎的4种工具的秘密

更轻松快速地进行网络爬虫!揭示最受欢迎的4种工具的秘密

0. 概述 在进行网络爬虫时,使用什么工具将极大地影响结果和工作的便利性。本文将介绍在这一领域中展现出特色的四种主要工具 Selenium, Undetected Chromedriver, Playwright 和 Pyppeteer。 1. Selenium: 老牌先锋,但光芒逐渐黯淡 Selenium曾经是网络爬虫领域的代表性工具。这个工具最初是为了自动化浏览器和测试而创建的,但随着时...

Read more →
快速、准确:选择和正确使用Selenium等待方法

快速、准确:选择和正确使用Selenium等待方法

0. 概述 当使用Selenium自动化浏览器交互时,经常会遇到需要等待元素变为可用或满足特定条件的情况。 Selenium的等待方法有'Time.sleep()' 'Implicit Wait' 'Explicitly Wait'。 但应该选择哪种呢? 我们将通过各自的优缺点详细比较这三种方法的区别。 1. Time.sleep() 这是引入固定延迟到脚本中的Python默认方法。调用ti...

Read more →
Shadow DOM爬虫指南:解剖网页的隐秘元素

Shadow DOM爬虫指南:解剖网页的隐秘元素

1. Shadow DOM是什么? Shadow DOM是在Web开发中使用的一种技术,主要用于封装Web元素的样式和结构。这里的“封装”意味着保护Shadow DOM内部的Web元素免受外部影响,并保持独立。 2. Shadow DOM与iframe的区别 Shadow DOM和iframe都是在Web页面中创建独立区域的技术,但用途和功能不同。 下面总结了三个主要区别。 2.1. 封装 ...

Read more →

Get notified of new posts

We'll email you when 해시스크래퍼 기술 블로그 publishes new content.

Your email will only be used for new post notifications.