해시스크래퍼 기술 블로그

파이썬을 사용한 웹 크롤링 자동화: schedule, Task Scheduler, crontab

파이썬을 사용한 웹 크롤링 자동화: schedule, Task Scheduler, crontab

0. 웹크롤링, 수동실행하기 매우 번거로우셨죠? 웹 크롤링 코드를 작성했는데, 매번 수동으로 코드를 실행하기 귀찮으신가요? 원하는 시간, 원하는 주기로 파이썬 코드가 알아서 실행되게 하는 방법을 소개합니다. 자동화의 시작, 함께해보시죠! 1. 파이썬 스케줄러 활용하기 파이썬으로 웹 스크래핑 코드를 작성하였다면, 가장 쉬운 방법 중 하나는 파이썬의 's...

더 읽기 →
SEO 최적화와 관련된 인덱싱 기술 및 최상의 방법

SEO 최적화와 관련된 인덱싱 기술 및 최상의 방법

1. Google 검색 콘솔로 문제점 확인 도메인 확인후 크롤링 봇이 크롤링을 시작한후 데이터가 보이므로 몇일뒤에 다시 접속해 보시면 데이터가 보이실 겁니다. 크롤링시에 문제가 되는 일반적인 오류는 다음과 같습니다. 시간 초과 연결이 거부되었습니다 연결에 실패했습니다 연결 시간 초과 응답이 없습니다 대부분의 경우 서버 오류는 일시적으로 일어나는게 대부...

더 읽기 →
불량공정률 획기적으로 개선한 고객사 사례 (feat. SHAP 라이브러리)

불량공정률 획기적으로 개선한 고객사 사례 (feat. SHAP 라이브러리)

0. 개요 해시스크래퍼 고객사례 중 하나로 AI모델을 통하여 공정에서 나타는 불량률을 줄이기 위해 AI모델을 사용하였습니다. 머신러닝 모델의 예측을 좀 더 깊고 이해하기 쉽게 설명해드리고자 글을 작성하였습니다. 1.문제 정의 1.1. 목표 설정 먼저 고객 사례를 간략하게 설명해드리자면, 128개의 변수들에 나와있는 것을 토대로 물건을 만드는데에 있어서...

더 읽기 →
AI모델을 통해 불량 공정률을 획기적으로 줄인 기업이 있다? (feat.SHAP라이브러리)

AI모델을 통해 불량 공정률을 획기적으로 줄인 기업이 있다? (feat.SHAP라이브러리)

0. 개요 해시스크래퍼 고객사례 중 하나로 AI모델을 통하여 공정에서 나타는 불량률을 줄이기 위해 AI모델을 사용하였습니다. 머신러닝 모델의 예측을 좀 더 깊고 이해하기 쉽게 설명해드리고자 글을 작성하였습니다. 1. 문제 정의 1.1. 목표 설정 먼저 고객 사례를 간략하게 설명해드리자면, 128개의 변수들에 나와있는 것을 토대로 물건을 만드는데에 있어...

더 읽기 →
AWS 쉽게 다루기: 초보 개발자를 위한 팁 모음

AWS 쉽게 다루기: 초보 개발자를 위한 팁 모음

0. AWS(아마존 웹 서비스)는 너무 복잡하기만 하다? 유용한 기능이 가득한 만큼 초보 개발자에게는 악명 높은 난이도의 아마존 웹 서비스(Amazone Web Service, 이하 AWS). 이용해보고 싶은데 아직도 망설이고 계시나요? 이번 포스팅에서는 AWS를 더 효과적으로 활용할 수 있는 몇 가지 팁을 공유하겠습니다. AWS는 강력한 클라우드 플...

더 읽기 →
ChatGPT로 쿠팡 크롤링 봇 만들기: 검색 결과에서 상품 정보 추출

ChatGPT로 쿠팡 크롤링 봇 만들기: 검색 결과에서 상품 정보 추출

0. 개요 요즘은 ChatGPT 덕에 정말 개발하기 쉬워진 세상입니다. 과연 크롤링 봇도 ChatGPT와 함께라면 쉽게 만들어 낼 수 있을까요? 쿠팡 크롤링 봇 개발하기(with ChatGPT), 시작해 보겠습니다. 1. 프롬프트 작성 1.1. 목표 검색 결과로 노출되는 상품 리스트에서 각 상품의 기본적인 정보를 가져오고자 합니다. 상품 이름 정가 판...

더 읽기 →
웹 스크래핑을 더 쉽고 빠르게! 가장 인기 있는 4가지 도구 비밀 공개

웹 스크래핑을 더 쉽고 빠르게! 가장 인기 있는 4가지 도구 비밀 공개

0. 개요 웹 스크래핑(크롤링)을 할 때 어떤 도구를 사용하느냐가 그 결과와 작업의 편의성에 크게 영향을 미칩니다. 이번 글에서는 이 분야에서 두각을 나타내고 있는 네 가지 주요 도구 Selenium, Undetected Chromedriver, Playwright, 그리고 Pyppeteer에 대해 소개해보려고 합니다. 1. Selenium: 노련한 ...

더 읽기 →
빠르게, 정확하게: Selenium 대기 방법의 선택과 올바른 활용

빠르게, 정확하게: Selenium 대기 방법의 선택과 올바른 활용

0. 개요 Selenium을 사용하여 브라우저 상호 작용을 자동화할 때 요소가 사용 가능해지거나 특정 조건이 충족될 때까지 기다려야 하는 시나리오에 자주 직면합니다. Selenium의 대기하는 방법에는 'Time.sleep()' 'Implicit Wait' 'Explicitly Wait' 입니다. 하지만 어느 것을 사용해야 할까요? 세 가지의 차이점을...

더 읽기 →
Shadow DOM 크롤링 가이드: 웹의 은밀한 요소 해부

Shadow DOM 크롤링 가이드: 웹의 은밀한 요소 해부

1. Shadow DOM이란? Shadow DOM은 웹 개발에서 사용되는 기술로, 주로 웹 요소의 스타일과 구조를 캡슐화하기 위해 사용됩니다. 여기서 '캡슐화'란, 외부의 영향으로부터 Shadow DOM 내부의 웹 요소를 보호하고 독립적으로 유지하는 것을 의미합니다. 2. Shadow DOM과 iframe의 차이 Shadow Dom과 iframe은 모...

더 읽기 →

새 글 알림 받기

해시스크래퍼 기술 블로그의 새 글이 발행되면 이메일로 알려드립니다.

이메일은 새 글 알림에만 사용됩니다.