哈希抓取技术博客

深入理解XPath:通配符、节点、函数

深入理解XPath:通配符、节点、函数

0. 概述 在XPath第1部分中,我们讨论了在网络爬虫中必不可少的XPath概念和基本语法,而在第2部分中,我们将介绍XPath的深入内容。 1. 通配符理解 在深入内容之前,有必要理解XPath中“*(通配符)”的含义。 (通配符)在XPath中匹配任何元素,并用于选择所有元素。让我们通过示例来说明。 //div[contains(@class, "aa")] 上面的XPath表示选择具...

Read more →
XPath 简介:网页爬虫的基础

XPath 简介:网页爬虫的基础

0. XPath是什么? XPath是“XML路径语言”的缩写,用于指定访问XML文档特定元素或属性的路径的语言。 XPath通常用于网络爬虫任务,首先让我们了解XPath的基本语法。 1. Xpath的基本语法 <!DOCTYPE html> <html> <head> <meta chars...

Read more →
使用微软 Playwright 进行网页浏览器自动化

使用微软 Playwright 进行网页浏览器自动化

0. 什么是Playwright? Playwright是由微软开发的开源库,用于自动化Web浏览器。 虽然最初并非为Web抓取而设计,但通过适当地组合浏览器和设置,它在这个领域表现出色。 可以在Node.js和Python等多种语言中使用,目前支持Chrome、Firefox、WebKit(移动Safari)、Electron等多个浏览器。 本文中将使用Python。 1. 安装Playw...

Read more →
使用Python进行网页爬虫自动化:schedule、任务计划程序、crontab

使用Python进行网页爬虫自动化:schedule、任务计划程序、crontab

0. 网络爬虫,手动执行很麻烦吧? 已经编写了网络爬虫代码,但每次手动运行代码都觉得烦人吗?让Python代码按照您想要的时间和周期自动运行的方法。让我们一起开始自动化吧! 1. 使用Python调度器 如果您已经用Python编写了网络爬虫代码,其中一种最简单的方法之一是利用Python的 'schedule' 库。 1.1. 安装库 pip install schedule 1.2. 自...

Read more →
与SEO优化相关的索引技术和最佳方法

与SEO优化相关的索引技术和最佳方法

1. Google 搜索控制台确认问题 域名确认后,爬虫开始爬取数据后,几天后再访问,您将看到数据。 爬取时常见问题如下。 超时 连接被拒绝 连接失败 连接超时 无响应 大多数情况下,服务器错误通常是暂时性的,但如果错误持续,请检查服务器是否有问题 有时候可能是由于托管提供商的错误,请咨询托管提供商 如果 robots.txt 文件返回 200 或 404 错误,则表示搜索引擎在尝试检索此文...

Read more →
成功改善不良工序率的客户案例(feat. SHAP库)

成功改善不良工序率的客户案例(feat. SHAP库)

0. 概述 哈希刮取客户案例之一是使用AI模型来减少工厂中出现的不良率。为了更深入和易于理解地解释机器学习模型的预测,我写了这篇文章。 1. 问题定义 1.1. 目标设定 首先,简要描述客户案例,根据128个变量中的数据,在制造产品时,每台机器的不良率有所不同,通过机器学习模型对不良品进行预测,然后分析通过机器学习模型导致哪些变量导致不良率,并调整这些变量以减少不良率是目标。 1.2. 假设...

Read more →
有家公司通过AI模型显著降低了不良工序率,使用了SHAP库。

有家公司通过AI模型显著降低了不良工序率,使用了SHAP库。

0. 概述 哈希刮削器的一个客户案例是使用AI模型来减少工厂中出现的不良率。为了更深入和易于理解地解释机器学习模型的预测,我撰写了这篇文章。 1. 问题定义 1.1. 目标设定 首先简要描述客户案例,根据128个变量的数据,针对每个机器制造产品时不同机器的不良率不同的情况,通过机器学习模型进行不良品预测,然后分析导致不良的变量,并调整这些变量以降低不良率。 1.2. 假设设立 通过机器学习模...

Read more →
AWS易学易懂:初学者开发者的技巧集

AWS易学易懂:初学者开发者的技巧集

0. AWS(亚马逊网络服务)是不是太复杂了? 对于初学者来说,充满有用功能的亚马逊网络服务(Amazone Web Service, 以下简称 AWS)被誉为难度极高。 想要尝试使用,但仍在犹豫吗? 在本篇文章中,我们将分享一些能够更有效地利用AWS的技巧。 AWS是一个强大的云平台,但初次使用时可能会有一些复杂之处。 但不要担心。我们已经准备了最基本的使用方法示例。 1. 利用AWS免费...

Read more →
使用ChatGPT创建一个Coupang爬虫机器人:从搜索结果中提取商品信息

使用ChatGPT创建一个Coupang爬虫机器人:从搜索结果中提取商品信息

0. 概述 如今,由于ChatGPT,开发变得非常容易。 如果与ChatGPT一起,爬虫机器人也能轻松创建吗? 让我们开始开发一个Coupang爬虫机器人(带ChatGPT)。 1. 编写提示 1.1. 目标 希望从搜索结果中提取每个产品的基本信息。 产品名称 原价 销售价 评分 评论数量 卡片折扣信息 积分信息 配送信息 1.2. 查找产品列表HTML 让我们找到包含产品列表的HTML元素...

Read more →

Get notified of new posts

We'll email you when 해시스크래퍼 기술 블로그 publishes new content.

Your email will only be used for new post notifications.