哈希抓取技术博客

用Python制作CampusPick竞赛和对外活动爬虫 - 竞赛&对外活动自动爬取项目:第1部分

用Python制作CampusPick竞赛和对外活动爬虫 - 竞赛&对外活动自动爬取项目:第1部分

0. 概述 阅读哈希爬虫开发笔记的朋友们中,预计有很多求职者和大学生会对参加比赛、社会活动等感兴趣,为了传授更实用的爬虫技术,我将使用Python创建一个用于爬取比赛/社会活动网站 캠퍼스픽 (https://www.campuspick.com/) 的爬虫。该项目将分为3个系列进行编写。 创建캠퍼스픽爬虫 使用Crontab设置爬虫执行周期并运行 使用Python和Gmail将爬取的数据发...

Read more →
提高代码质量的十个原则 | 编码优化方法

提高代码质量的十个原则 | 编码优化方法

0. 概述 我们在编写代码时需要遵循一些基本原则。 当然,并非一定要严格遵守,但是遵循这些原则在编写代码时会带来许多好处。 这些原则使代码更易阅读和维护。以下是介绍几个重要的编码原则。 1. 缩写记忆开发原则 1.1. DRY(Don't Repeat Yourself) DRY(不要重复自己)原则意味着避免代码中的重复。 不要在多个地方重复编写相同的功能或信息,而是在单一位置管理该功能或信...

Read more →
我们社区美食数据制作词云实践 - 哈希刮刀

我们社区美食数据制作词云实践 - 哈希刮刀

1. 数据可视化和爬虫 1.1. 数据可视化是什么? 数据可视化是将复杂数据或模式直观地表达,以便更容易理解的过程。图像、图表、图形等各种形式可以用来表达信息,有效的可视化有助于发现数据中隐藏的洞察力。 1.2. Python数据可视化库种类 1.2.1. Matplotlib(https://matplotlib.org/) Matplotlib是用于在Python中绘制2D图形的基本库。...

Read more →
应用程序数据爬取的三种技巧:反向工程、OCR、数据包嗅探

应用程序数据爬取的三种技巧:反向工程、OCR、数据包嗅探

1. 逆向工程 (Reverse Engineering) 逆向工程是将应用程序的二进制代码反编译,以恢复原始源代码或类似形式的过程。 Android的APK文件和iOS的IPA文件都可以通过反编译进行分析。 这种方法通常用于理解应用程序的内部逻辑或了解数据通信方法。 对于经过特殊处理以避免逆向工程的应用程序,可能无法进行分析。 以下分别总结了Android APK逆向工程和iOS IPA逆...

Read more →
领先时尚公司的数据利用策略和技巧

领先时尚公司的数据利用策略和技巧

0. 面向时尚MD、设计师和营销人员的无需编码即可收集和利用数据的方法 最近,时尚行业也在快速推动数字化。随着在线商务的快速增长,产品、价格、评论等各种数据正在产生,这些数据可以为时尚行业的各种职能提供洞察。 本文将介绍MD、设计师和营销人员可以参考的评论数据的利用方法,并介绍了在引领国内时尚行业的S公司中,如何分析和收集评论数据。 评论数据为MD、设计师和营销人员提供了在实践中必不可少的洞...

Read more →
利用FastAPI、rembg和extcolors创建图片背景去除和颜色提取API

利用FastAPI、rembg和extcolors创建图片背景去除和颜色提取API

0. 開始之前 我準備了一篇針對對數位圖像處理感興趣或需要在實際項目中進行圖像處理的開發人員的文章。 從照片中去除背景或提取主要顏色在數位藝術、網頁開發、移動應用程式、機器學習項目等各種領域中都有應用。 要執行這些任務似乎需要複雜的算法或高級技術,但實際上這是一件非常簡單的事情。 通過使用 FastAPI、rembg 和名為 extcolors 的 Python 函式庫,您可以輕鬆地將這些任...

Read more →
深入理解XPath:通配符、节点、函数

深入理解XPath:通配符、节点、函数

0. 概述 在XPath第1部分中,我们讨论了在网络爬虫中必不可少的XPath概念和基本语法,而在第2部分中,我们将介绍XPath的深入内容。 1. 通配符理解 在深入内容之前,有必要理解XPath中“*(通配符)”的含义。 (通配符)在XPath中匹配任何元素,并用于选择所有元素。让我们通过示例来说明。 //div[contains(@class, "aa")] 上面的XPath表示选择具...

Read more →
XPath 简介:网页爬虫的基础

XPath 简介:网页爬虫的基础

0. XPath是什么? XPath是“XML路径语言”的缩写,用于指定访问XML文档特定元素或属性的路径的语言。 XPath通常用于网络爬虫任务,首先让我们了解XPath的基本语法。 1. Xpath的基本语法 <!DOCTYPE html> <html> <head> <meta chars...

Read more →
使用微软 Playwright 进行网页浏览器自动化

使用微软 Playwright 进行网页浏览器自动化

0. 什么是Playwright? Playwright是由微软开发的开源库,用于自动化Web浏览器。 虽然最初并非为Web抓取而设计,但通过适当地组合浏览器和设置,它在这个领域表现出色。 可以在Node.js和Python等多种语言中使用,目前支持Chrome、Firefox、WebKit(移动Safari)、Electron等多个浏览器。 本文中将使用Python。 1. 安装Playw...

Read more →

Get notified of new posts

We'll email you when 해시스크래퍼 기술 블로그 publishes new content.

Your email will only be used for new post notifications.