# 📒 개발노트

Posts

이거 모르면 크롤링 못한다! 웹 크롤링의 기본, XPath 알아보기 - 심화편

XPath의 와일드카드, 노드, 함수를 이해하여 XML 문서에서 데이터를 정확하게 찾고 추출하는 방법을 알아봅니다.

이거 모르면 크롤링 못한다! 웹 크롤링의 기본, XPath 알아보기 - 기본편

XPath는 웹 크롤링의 기초로서, XML 문서의 특정 요소 또는 속성에 접근하는 강력한 도구입니다. 이 포스팅에서는 XPath의 기본 문법과 활용 예제를 다룹니다.

셀레니움은 이제 그만, Playwright로 네이버 뉴스 크롤링하기

Playwright는 마이크로소프트에서 개발한 오픈 소스 라이브러리로, 웹 브라우저를 자동화하기 위한 강력한 도구입니다. Node.js와 Python 등 여러 언어에서 사용 가능하며 Chrome, Firefox, WebKit, Electron 등 다양한 브라우저를 지원합니다. 웹 스크래핑부터 다양한 웹 애플리케이션 테스트까지 다양한 용도로 활용할 수 있습니다.

내가 원하는 시간에 자동으로 데이터를 수집하고 싶다면? (파이썬 schedule, Task Scheduler, crontab)

웹 크롤링을 자동화하려면 어떻게 할까요? 파이썬의 schedule 라이브러리와 시스템 스케줄러(Task Scheduler, cron)를 활용하여 데이터를 원하는 시간에 수집하는 방법을 알아보세요.

인덱싱(Indexing)을 모르고 SEO 최적화 하시는 분은 없으시죠?

인덱싱(Indexing) 기술을 활용하여 웹 사이트의 SEO를 최적화하는 방법에 대한 정보입니다. Google 검색 콘솔, Sitemap 생성, 콘텐츠 업데이트, 중복된 컨텐츠 처리 및 백링크 전략을 포함한 유용한 팁과 가이드를 확인하세요.

클릭 한 번으로 쿠팡 상품 정보 끄집어내기! ChatGPT로 완성하는 크롤링 봇

ChatGPT와 함께 시작하는 쿠팡 크롤러 봇 개발! 검색 결과에 노출된 상품 정보를 가져오기 위한 프롬프트 작성과 디버깅 과정을 단계별로 설명합니다. 프롬프트 고려 사항부터 광고 상품 제외, URL 조작까지 자세한 코드 예시와 함께 알려드립니다.

나만 모르는 숨은 웹 요소? Shadow DOM 크롤링 하는 방법

숨겨진 웹 요소, Shadow DOM을 수집하는 방법을 알아보세요. 이 글에서는 Shadow DOM의 개념부터 iframe과의 비교, 크롤링까지 다양한 내용을 다룹니다.

빠르게, 정확하게: Selenium 대기 방법의 선택과 올바른 활용

Selenium으로 자동화된 브라우저 상호 작용 시, 요소의 활성화나 특정 조건 충족까지 기다려야 하는 경우가 빈번합니다. 'Time.sleep()', 'Implicit Wait', 'Explicitly Wait' 등 세 가지 대기 방법의 장단점과 활용법을 자세히 알아보세요. 효율적인 웹 자동화에 필수인 대기 전략을 효과적으로 선택하고 활용하는 방법을 알려드립니다.

앗! AWS, 숨쉬는것 보다 쉽다! 초보개발자를 위한 AWS 꿀팁모음

AWS 초보 개발자를 위한 꿀팁과 노하우 모음! 복잡한 아마존 웹 서비스(AWS)를 사용하는 방법과 효율적인 활용법을 쉽게 배워보세요. 프리티어 활용, 비용 관리 전략, 태그 활용법부터 IAM 보안 설정과 지역/가용 영역 이해까지, 초보자도 따라 할 수 있는 실용적인 조언을 제공합니다. AWS를 더욱 효과적으로 활용하여 개발 프로젝트를 성공적으로 이끌어보세요!

웹 스크래핑을 더 쉽고 빠르게! 가장 인기 있는 4가지 도구 비밀 공개

인기 있는 웹 스크래핑 도구 4가지(Selenium, Undetected Chromedriver, Playwright, Pyppeteer)에 대한 개요를 확인해보세요. 각 도구의 장점과 단점, 그리고 데이터 추출 프로세스를 개선하는 데 가장 적합한 사용 사례를 다룹니다.

뉴스 크롤링부터 시작하는 기업 파산 예측

뉴스 텍스트 마이닝을 통해 어떻게 기업 파산 가능성을 더 정확하게 예측하는지 알아보세요.

크롤링 전문가가 알려주는 ‘차단 우회 5가지 원칙’

웹 크롤링 하다보면 필연적으로 겪는 차단대응 방법, 주요 원인과 해결 방안