哈希抓取技术博客

September 26, 2023 09:00

利用FastAPI、rembg和extcolors创建图片背景去除和颜色提取API

0. 開始之前我準備了一篇針對對數位圖像處理感興趣或需要在實際項目中進行圖像處理的開發人員的文章。從照片中去除背景或提取主要顏色在數位藝術、網頁開發、移動應用程式、機器學習項目等各種領域中都有應用。要執行這些任務似乎需要複雜的算法或高級技術，但實際上這是一件非常簡單的事情。通過使用 FastAPI、rembg 和名為 extcolors 的 Python 函式庫，您可以輕鬆地將這些任...

Read more →

September 25, 2023 09:00

深入理解XPath：通配符、节点、函数

0. 概述在XPath第1部分中，我们讨论了在网络爬虫中必不可少的XPath概念和基本语法，而在第2部分中，我们将介绍XPath的深入内容。 1. 通配符理解在深入内容之前，有必要理解XPath中“*（通配符）”的含义。（通配符）在XPath中匹配任何元素，并用于选择所有元素。让我们通过示例来说明。 //div[contains(@class, "aa")] 上面的XPath表示选择具...

Read more →

September 18, 2023 09:00

XPath 简介：网页爬虫的基础

0. XPath是什么？ XPath是“XML路径语言”的缩写，用于指定访问XML文档特定元素或属性的路径的语言。 XPath通常用于网络爬虫任务，首先让我们了解XPath的基本语法。 1. Xpath的基本语法 &lt;!DOCTYPE html&gt; &lt;html&gt; &lt;head&gt; &lt;meta chars...

Read more →

September 15, 2023 09:00

使用微软 Playwright 进行网页浏览器自动化

0. 什么是Playwright? Playwright是由微软开发的开源库，用于自动化Web浏览器。虽然最初并非为Web抓取而设计，但通过适当地组合浏览器和设置，它在这个领域表现出色。可以在Node.js和Python等多种语言中使用，目前支持Chrome、Firefox、WebKit（移动Safari）、Electron等多个浏览器。本文中将使用Python。 1. 安装Playw...

Read more →

September 13, 2023 09:00

使用Python进行网页爬虫自动化：schedule、任务计划程序、crontab

0. 网络爬虫，手动执行很麻烦吧？已经编写了网络爬虫代码，但每次手动运行代码都觉得烦人吗？让Python代码按照您想要的时间和周期自动运行的方法。让我们一起开始自动化吧！ 1. 使用Python调度器如果您已经用Python编写了网络爬虫代码，其中一种最简单的方法之一是利用Python的 'schedule' 库。 1.1. 安装库 pip install schedule 1.2. 自...

Read more →

September 11, 2023 09:00

与SEO优化相关的索引技术和最佳方法

1. Google 搜索控制台确认问题域名确认后，爬虫开始爬取数据后，几天后再访问，您将看到数据。爬取时常见问题如下。超时连接被拒绝连接失败连接超时无响应大多数情况下，服务器错误通常是暂时性的，但如果错误持续，请检查服务器是否有问题有时候可能是由于托管提供商的错误，请咨询托管提供商如果 robots.txt 文件返回 200 或 404 错误，则表示搜索引擎在尝试检索此文...

Read more →

September 08, 2023 09:00

成功改善不良工序率的客户案例（feat. SHAP库）

0. 概述哈希刮取客户案例之一是使用AI模型来减少工厂中出现的不良率。为了更深入和易于理解地解释机器学习模型的预测，我写了这篇文章。 1. 问题定义 1.1. 目标设定首先，简要描述客户案例，根据128个变量中的数据，在制造产品时，每台机器的不良率有所不同，通过机器学习模型对不良品进行预测，然后分析通过机器学习模型导致哪些变量导致不良率，并调整这些变量以减少不良率是目标。 1.2. 假设...

Read more →

September 08, 2023 09:00

有家公司通过AI模型显著降低了不良工序率，使用了SHAP库。

0. 概述哈希刮削器的一个客户案例是使用AI模型来减少工厂中出现的不良率。为了更深入和易于理解地解释机器学习模型的预测，我撰写了这篇文章。 1. 问题定义 1.1. 目标设定首先简要描述客户案例，根据128个变量的数据，针对每个机器制造产品时不同机器的不良率不同的情况，通过机器学习模型进行不良品预测，然后分析导致不良的变量，并调整这些变量以降低不良率。 1.2. 假设设立通过机器学习模...

Read more →

August 28, 2023 09:00

AWS易学易懂：初学者开发者的技巧集

0. AWS(亚马逊网络服务)是不是太复杂了？对于初学者来说，充满有用功能的亚马逊网络服务(Amazone Web Service, 以下简称 AWS)被誉为难度极高。想要尝试使用，但仍在犹豫吗？在本篇文章中，我们将分享一些能够更有效地利用AWS的技巧。 AWS是一个强大的云平台，但初次使用时可能会有一些复杂之处。但不要担心。我们已经准备了最基本的使用方法示例。 1. 利用AWS免费...

Read more →

利用FastAPI、rembg和extcolors创建图片背景去除和颜色提取API

深入理解XPath：通配符、节点、函数

XPath 简介：网页爬虫的基础

使用微软 Playwright 进行网页浏览器自动化

使用Python进行网页爬虫自动化：schedule、任务计划程序、crontab

与SEO优化相关的索引技术和最佳方法

成功改善不良工序率的客户案例（feat. SHAP库）

有家公司通过AI模型显著降低了不良工序率，使用了SHAP库。

AWS易学易懂：初学者开发者的技巧集

Get notified of new posts