해시스크래퍼 기술 블로그

웹 스크래핑을 더 쉽고 빠르게! 가장 인기 있는 4가지 도구 비밀 공개

웹 스크래핑을 더 쉽고 빠르게! 가장 인기 있는 4가지 도구 비밀 공개

0. 개요 웹 스크래핑(크롤링)을 할 때 어떤 도구를 사용하느냐가 그 결과와 작업의 편의성에 크게 영향을 미칩니다. 이번 글에서는 이 분야에서 두각을 나타내고 있는 네 가지 주요 도구 Selenium, Undetected Chromedriver, Playwright, 그리고 Pyppeteer에 대해 소개해보려고 합니다. 1. Selenium: 노련한 ...

더 읽기 →
빠르게, 정확하게: Selenium 대기 방법의 선택과 올바른 활용

빠르게, 정확하게: Selenium 대기 방법의 선택과 올바른 활용

0. 개요 Selenium을 사용하여 브라우저 상호 작용을 자동화할 때 요소가 사용 가능해지거나 특정 조건이 충족될 때까지 기다려야 하는 시나리오에 자주 직면합니다. Selenium의 대기하는 방법에는 'Time.sleep()' 'Implicit Wait' 'Explicitly Wait' 입니다. 하지만 어느 것을 사용해야 할까요? 세 가지의 차이점을...

더 읽기 →
Shadow DOM 크롤링 가이드: 웹의 은밀한 요소 해부

Shadow DOM 크롤링 가이드: 웹의 은밀한 요소 해부

1. Shadow DOM이란? Shadow DOM은 웹 개발에서 사용되는 기술로, 주로 웹 요소의 스타일과 구조를 캡슐화하기 위해 사용됩니다. 여기서 '캡슐화'란, 외부의 영향으로부터 Shadow DOM 내부의 웹 요소를 보호하고 독립적으로 유지하는 것을 의미합니다. 2. Shadow DOM과 iframe의 차이 Shadow Dom과 iframe은 모...

더 읽기 →
뉴스크롤링을 통해 기업파산예측 모형 연구를 진행

뉴스크롤링을 통해 기업파산예측 모형 연구를 진행

본 포스팅은 해시스크래퍼가 기존에 진행했던 연구 중 텍스트 마이닝을 활용한 기업부도예측 모형연구과정에서 다뤘던 항목 중 하나입니다. 0. 개요 유사 주제의 선행 연구들을 기반으로하여, 부도 예측 과정에서 뉴스텍스트와 같은 데이터를 적용 방법에 따라 부도예측의 정확도를 높일 수 있을지, 그리고 인공지능 활용을 통해서 예측 성능이 향상되는지에 대한 연구입...

더 읽기 →
크롤링 전문가가 알려주는 "차단 우회 5가지 원칙"

크롤링 전문가가 알려주는 "차단 우회 5가지 원칙"

0. 웹크롤링 중 차단 발생, 원인이 뭘까? 웹크롤링을 경험해본 개발자는 무조건적으로 차단을 경험해보았을 것입니다. 내 크롤러는 완벽했는데, 어떤 부분에서 문제가 생긴건지 몰라 답답하셨나요? 이번 포스팅에서는 대표적인 차단 원인을 해법 중심으로 다루었습니다. 크롤링은 가게에 들어가서 원하는 상품을 가져오는 것과 비슷합니다. 우리는 가게에 입장할 때 지...

더 읽기 →
웹 크롤러 개발자의 성공 비결: 10배의 수익을 보장하는 분산 웹 크롤링 가이드

웹 크롤러 개발자의 성공 비결: 10배의 수익을 보장하는 분산 웹 크롤링 가이드

0. 웹 크롤링이 중요하게 여겨지는 이유 점점 더 데이터 중심의 디지털 환경에서 웹 크롤링(웹 스크래핑)은 중요해지고 있습니다. 웹에서 대규모 데이터를 추출함으로써 기업들은 인사이트을 얻고, 의사 결정을 개선하며, 경쟁력을 유지할 수 있습니다. 그러나 정확한 인사이트를 얻기 위해서는 대규모의 데이터가 필요로 하게되며, 대규모의 데이터를 획득하기 위해서...

더 읽기 →
크롤링 실패? 바로 이 문제 때문일 거에요! iframe 해결의 모든 것

크롤링 실패? 바로 이 문제 때문일 거에요! iframe 해결의 모든 것

크롤링이 안되는 요소가 있을 때: iframe에 접근하기 웹크롤러를 만들다 보면 한 번쯤은 만나 검색하게 되는 것이 iframe입니다. 오늘은 iframe은 개념과 장단점, 사용 사례에 대해 알아보고 Selenium과 Watir를 사용해 iframe 콘텐츠에 접근하는 방법도 살펴보겠습니다. iframe의 개념 iframe은 "Inline Frame"의...

더 읽기 →
데이터 수집 고수들만이 알고 있는 최강 크롤링 비법 대공개! undetected_chromedriver에 대해서

데이터 수집 고수들만이 알고 있는 최강 크롤링 비법 대공개! undetected_chromedriver에 대해서

0. undetected_chromedriver란 무엇인가? 웹 스크래핑(크롤링)과 웹 자동화는 오늘날 많은 데이터 분석 및 웹 개발 작업에서 중요한 역할을 하고 있습니다. 이러한 작업을 위한 도구 중에서 가장 널리 사용되는 것이 Selenium과 Chromedriver입니다. Selenium은 원래 웹 애플리케이션의 테스트를 자동화하기 위해 만들어진...

더 읽기 →
Selenium과 Chromedriver를 사용한 웹 스크래핑(크롤링)에 있어서의 한계와 그 해결책으로 대두되는 undetected_chromedriver의 특징, 설치 및 사용법, 그리고 이와 관련된 다양한 옵션들에 대한 상세한 설명.

Selenium과 Chromedriver를 사용한 웹 스크래핑(크롤링)에 있어서의 한계와 그 해결책으로 대두되는 undetected_chromedriver의 특징, 설치 및 사용법, 그리고 이와 관련된 다양한 옵션들에 대한 상세한 설명.

0.undetected_chromdriver란 무엇인가? 웹 스크래핑(크롤링)과 웹 자동화는 오늘날 많은 데이터 분석 및 웹 개발 작업에서 중요한 역할을 하고 있습니다. 이러한 작업을 위한 도구 중에서 가장 널리 사용되는 것이 Selenium과 Chromedriver입니다. Selenium은 원래 웹 애플리케이션의 테스트를 자동화하기 위해 만들어진 도...

더 읽기 →

새 글 알림 받기

해시스크래퍼 기술 블로그의 새 글이 발행되면 이메일로 알려드립니다.

이메일은 새 글 알림에만 사용됩니다.