Tablero de control para web scraping, procesamiento de lenguaje natural y análisis de imágenes.

HashScraper proporciona un panel que puede realizar procesamiento de lenguaje natural, análisis de imágenes y análisis OCR. Es un lugar donde se puede realizar análisis de datos de forma económica.

6
Tablero de control para web scraping, procesamiento de lenguaje natural y análisis de imágenes.

안녕하세요, soy Hashscraper.

근래에 웹크롤링 문의가 많이 들어옵니다.

데이터 기반의 정확한 의사결정을 하려는 분들도 많아지셨죠!

특히 많이 물어보시는 것 중 하나가 웹크롤링으로 수집한 데이터를 텍스트마이닝, 자연어처리, 이미지분석 요청입니다.

비즈니스 모델을 수립하거나 마케팅 전략을 기획하시는 분들은 데이터를 분석하고 시각화하여 인사이트를 도출하고 싶어합니다.

데이터를 활용해서 스마트하게 온라인으로 마케팅하는 방법은 아래 링크를 참고하세요.

하지만 문제가 있습니다. 여러분이 예측하시는 것, 바로 비용입니다.

자연어처리와 이미지분석은 웹크롤링 비용의 2~3배가 소요됩니다. 예산을 마련하기 어려운 기업체 직원분들, 이제 막 창업해서 운영자금이 부족한 대표님들은 결국 적은 금액으로 데이터 크롤링하고 분석할 수 있는 곳을 찾아 헤매다 포기하게 됩니다.

이런 분들을 위해 자연어처리, 이미지분석, OCR 분석이 가능한 대시보드를 만들었습니다.

다른 데이터 분석 업체에서는 많은 비용을 지불해야 하는 분석 도구지만 저희는 많은 분들이 돈 걱정 없이 데이터 분석을 할 수 있도록 매우 저렴하게 제공하고 있습니다. 심지어 직접 도구를 사용하여 다양한 분석 결과를 얻을 수 있습니다. 어렵지 않습니다. 몇 번의 클릭으로 가능합니다.

1. 해시스크래퍼 대시보드 사용법

대시보드는 모든 분들에게 공개되어 있습니다.

회원가입하고 로그인하면 여러분만의 대시보드가 생성됩니다.

아래와 같은 어두운 홈페이지가 나타나는데 상위 메뉴 중 'DASHBORD'를 클릭하세요!

notion image

그러면 아래와 같은 개인 대시보드가 나타납니다.

notion image

메인 화면에서 데이터 크롤링 스케줄 수, 포인트 잔여량, 데이터 크롤링 성공 여부를 확인할 수 있습니다.

해시스크래퍼는 선불제로도 사용할 수 있습니다. 포인트(1포인트 = 1원)를 넣어 놓으면 수집된 양만큼 포인트가 차감됩니다. 내가 넣어 놓은 금액에서만 데이터가 수집되기 때문에 갑자기 많은 데이터가 수집되어 비용이 크게 청구될 걱정은 없습니다.

아래 화면은 웹크롤링 작업 스케줄입니다.

여러 작업이 진행 중이네요. 차감된 포인트와 데이터 양, 페이지 처리 수, 재시도 확인 수를 확인할 수 있습니다.

옆에 초록색 버튼인 '데이터보기'를 눌러보시겠어요?

notion image

2. 웹크롤링 시작하기

상세 페이지에 들어가면 세부 내용을 확인할 수 있습니다.

왼쪽 상단의 파란색 버튼인 '데이터수집시작'을 누르면 수동으로 데이터를 수집할 수 있습니다.

각 스케줄마다 수집할 수 있는 봇이 있어서 버튼만 누르면 실시간으로 수집할 수 있습니다. 실시간으로 변경되는 정보를 1초 안에 가져올 수 있습니다. 왼쪽 초록색 버튼인 '데이터보기'를 누르면 더 많은 데이터를 확인할 수 있습니다.

notion image

어젯밤에 수집해둔 작업들이 나타납니다.

첫 번째 항목은 크롤링 성공/실패 여부입니다. TRUE는 성공했다는 뜻이겠죠?

9번째 항목으로 Elapsed Time(수집시간)도 확인할 수 있습니다. 1개를 가져오는 데 평균 1.3초가 걸리네요.

실시간 정보 수집이 필요하다면 속도를 높일 수도 있습니다. 1개 페이지를 0.1초 내로 가져올 수 있습니다.

수집이 완료되면 문자로 알림이 갑니다. '수집이 완료되었습니다'라고 하죠.

그럼 대시보드로 들어와서 엑셀이나 이미지로 다운로드하시면 됩니다. 오른쪽 상단에 초록색 버튼이 보이시나요?

notion image

1만 5천개의 데이터가 쉽게 엑셀로 다운로드되었습니다.

이제 이 데이터로 영업, 마케팅 등 다양하게 활용하시면 됩니다.

상품 가격이나 제품 리스트를 실시간으로 확인하는 서비스를 만들 수도 있습니다.

웹크롤링 기술로 데이터를 수집하고 분석하여 트렌드를 분석하거나 판매 예측 모델을 만들기도 하고, 각종 산업에서 다양한 방법으로 활용되고 있습니다.

웹크롤링을 하다 보면 중복된 데이터가 많습니다.

특히 기사를 수집할 때 이런 경우가 많습니다. 기자명과 채널만 다르고 기사 내용은 거의 비슷한 경우가 많습니다.

저희는 이런 경우를 대비하여 텍스트를 비교하여 유사 비율을 분석하는 서비스(Fuzzy String Match)를 제공하고 있습니다.

몇 개의 샘플 텍스트를 넣어 비교해봤는데 89%의 비율이 나왔습니다.

그곳에 텍스트를 넣고 비교하여 매칭률을 확인하고 높은 매칭률이 나올 경우 데이터를 정제하여 제공해드립니다.

3. 웹크롤링 데이터를 자연어처리하기 (형태소분석, 감정분석)

웹크롤링으로 수집한 SNS, 기사 내용이나 댓글을 분석하고 싶을 때 가장 필요한 작업이 자연어 처리입니다.

자연어 처리 작업은 수집된 글/댓글이 긍정적인지, 부정적인지, 어떤 단어가 많이 언급되는지 등을 알 수 있습니다.

자연어 처리의 첫 번째 방법인 형태소 분석인데요. 텍스트를 형태소(문장의 최소 단위)로 자르고 어근, 접두사/접미사, 품사 등 다양한 언어적 속성의 구조를 파악하는 작업입니다. 아래 화면에 텍스트를 넣고 Process 버튼을 누르면 형태소가 분석됩니다.

notion image

문장의 긍/부정을 분석하는 감성분석(Sentiment Analytics)은 어떻게 하는지 살펴볼까요.

아래 화면에 텍스트를 넣고 Process 버튼을 클릭하면 결과가 Results 값에 표시됩니다.

문장별로 분석이 가능하며, Score가 1에 가까울수록 긍정을, -1에 가까울수록 부정을 나타냅니다. Score가 0.5이라면 50%로 긍정도와 부정도가 아닌 중간 수치를 의미합니다.

notion image

4. 웹크롤링 기술로 수집한 이미지 데이터 분석하기 (OCR, Label Detection)

이미지 분석도 어렵지 않습니다.

원하는 이미지를 올리고 분석하기 버튼을 누르면 Result 값에 이미지에 있는 각 객체 정보를 탐지하고 정확도가 %로 표시됩니다.

예를 들어 이미지에 Tree를 탐지하고 score가 98%라면 이미지 내에 tree가 98% 정확도로 인식된다는 것을 의미합니다.

이미지에서 육안으로 확인할 수 있는 tree, sky, woody plant, leaf뿐만 아니라 Architecture, shade, house, City와 같은 추론형 단어까지 추출할 수 있습니다. 생각보다 정확하죠? 저보다 똑똑한 것 같습니다. (슬픔)

notion image

OCR(문자인식)도 원하는 파일을 올리고 분석하기를 누르면 결과가 나옵니다. (다 똑같죠. 너무 쉽…)

스캔한 문서 파일이나, jpg 그림 이미지, PDF 파일 등에서 문자를 인식할 수 있습니다.

아래 그림 이미지 내에 있는 '클래식한 빅사이즈 버튼 디테일'이라는 문구를 인식하고 추출했습니다.

쇼핑몰 상품 페이지에서 글자를 인식해 추출하거나 pdf 문서에서 원하는 글자를 찾을 수 있습니다.

notion image

앞서 말씀드린 자연어처리, 이미지 분석 외에도 수요예측, 브랜드 자산 측정, 광고효과 측정, 모델링 작업도 가능합니다.

데이터 분석 전문기관 간의 협의를 통해 고객님에게 진짜 필요한 유의미한 인사이트를 도출하고 실제 경영성과에 도움을 드리고자 합니다.

아래와 같은 작업을 도와드릴 수 있습니다.

notion image

지금까지 해시스크래퍼 대시보드로 웹크롤링, 자연어처리, 이미지 분석하는 방법에 대해 안내해드렸습니다.

이 글도 함께 읽어보세요:

데이터 수집, 이제 자동화하세요

코딩 없이 5분이면 시작 · 5,000개+ 웹사이트 크롤링 경험

무료로 시작하기 →

Comments

Add Comment

Your email won't be published and will only be used for reply notifications.

Sigue leyendo

Get notified of new posts

We'll email you when 해시스크래퍼 기술 블로그 publishes new content.

Your email will only be used for new post notifications.