안녕하세요, 해시스크래퍼입니다.
근래 들어 웹크롤링(Web Crawling) 문의가 많이 들어옵니다.
데이터 기반의 정확한 의사결정을 하시고자 하는 분들도 많아지셨다는 거겠죠!
특히 많이 물어보시는 것 중 하나가 웹크롤링(Web Crawling)으로 수집한 데이터를 텍스트마이닝, 자연어처리, 이미지분석 요청입니다.
비즈니스 모델을 수립하거나 마케팅 전략을 기획하시는 분들은 데이터를 분석하고 시각화 시켜 인사이트를 도출하고 싶어하시거든요.
데이터를 활용해서 스마트하게 온라인으로 마케팅하는 방법은 아래 링크 참고하세요.
하지만 문제가 있습니다. 여러분이 예측하시는 그것, 바로 비용이죠.
자연어처리와 이미지분석은 웹크롤링(Web Crawling) 비용의 2~3배가 소요됩니다. 예산 따내기 힘드신 기업체 직원분들, 이제 막 창업해서 운영자금 부족하신 대표님들은 결국 적은 금액으로 데이터 크롤링(Crawling)하고 분석할 수 있는 곳을 찾아 헤매다 포기하고 마십니다.
이런 분들을 위하여 저희가 자연어처리, 이미지분석, OCR 분석이 가능한 대시보드 를 만들었습니다.
다른 데이터 분석 업체에서는 많은 비용을 들여 해야 하는 분석 툴이지만 저희는 많은 분들이 돈 걱정 없이 데이터 분석을 할 수 있도록 매우 저렴하게 제공하고 있어요. 심지어 직접 툴을 사용하여 다양한 분석결과를 뽑아볼 수 있습니다. 어렵지 않아요. 클릭 몇 번이면 가능합니다.
1. 해시스크래퍼 대시보드 사용법 대시보드는 모든 분들에게 오픈되어 있습니다.
회원가입하시고 로그인하시면 여러분만의 대시보드가 생성되요 🙂
아래와 같은 다크한 홈페이지가 뜨는데 상위 메뉴 중에DASHBORD 라는 메뉴를 클릭!
그럼 아래와 같은 나만의 대시보드가 뜹니다.
메인 화면에서 데이터 크롤링 스케줄이 몇개나 있는지, 포인트는 얼마나 남아있는지, 데이터 크롤링이 성공했는지 실패했는지 확인할 수 있습니다.
해시스크래퍼는 선불제로도 사용할 수 있어요. 포인트(1point = 1원) 를 넣어 놓으면 수집된 양만큼 포인트가 차감되요. 내가 넣어 놓은 금액에서만 데이터가 수집 되기 때문에 갑자기 많은 데이터가 수집되어서 비용이 크게 청구될 걱정은 없습니다.
아래 화면 데이터셋은 웹크롤링 작업 스케줄 입니다.
여러 작업이 진행되고 있네요. 차감된 포인트와 데이터 수, 페이징처리 수, 재시도 확인 수를 확인 할 수 있어요.
옆에 초록색 버튼인 ‘데이터보기’를 눌러볼까요
2. 웹크롤링 시작하기 상세 페이지를 들어가면 세부 내용을 확인할 수 있어요
아래 화면의 왼쪽 상단에 파란색 버튼인‘데이터수집시작’ 을 누르면 수동으로 데이터를 수집 할 수 있습니다.
각 스케줄 마다 수집할 수 있는 봇이 있어서 버튼만 누르면 실시간으로 수집을 할 수 있어요. 실시간으로 변경되는 정보를 1초 안에 긁어올 수 있답니다. 왼쪽 초록색 버튼인 ‘데이터보기’를 누르시면 더 수집된 데이터를 눈으로 확인할 수 있어요
제가 간밤에 수집해놓으라고 시킨 작업들이 나옵니다.
첫 번째 항목은 크롤링 성공/실패 여부입니다. TRUE 는 성공했다는 얘기겠죠?
9번째 항목으로 Elapsed Time (수집시간) 도 확인할 수 있습니다. 1개 긁어오는데 평균 1.3초 걸리네요.
실시간성 정보 수집이 필요하시다면 속도를 높일 수도 있습니다. 1개 페이지를 0.1초 내로 수집할 수 있어요.
수집이 완료되면 문자로 알람이 갑니다. ‘수집이 완료되었습니다’ 하구요.
그럼 대시보드로 들어오셔서 엑셀이나 이미지로 다운로드 하시면 되세요. 아래 화면의 오른쪽 상단에 초록이 버튼 보이시죠?
1만 5천개 데이터를 엑셀로 쉽게 다운로드 되었습니다.
이제 이 데이터로 영업, 마케팅 등 다양하게 활용하시면 됩니다.
상품 가격이나 제품 리스트를 실시간으로 확인하는 서비스를 만들 수도 있습니다.
웹크롤링 기술로 데이터를 수집하고 분석해서 트렌드를 분석하거나 판매예측모델을 만들기도 하구요. 각종 산업에서 다양한 방법으로 활용되고 있습니다.
웹크롤링(Web Crawling)을 하다 보면 중복된 데이터가 많습니다.
특히 기사 수집할 때 이런 경우가 많아요. 기자명과 채널만 다르고 기사내용은 거의 비슷한 경우가 많습니다.
저희는 이런 경우를 대비해서 텍스트를 비교하여 유사 비율을 분석하는 서비스(Fuzzy String Match) 를 제공하고 있습니다.
제가 몇개 샘플 텍스트를 넣어서 비교해봤는데 89%의 비율이 나오네요.
저 곳에 텍스트를 넣고 비교하여 매칭율을 확인하고 높은 매칭율이 나올 경우 데이터를 정제하여 제공해드립니다.
3. 웹크롤링(Web Crawling) 데이터를 자연어처리하기 (형태소분석, 감정분석) 웹크롤링으로 수집한 SNS, 기사 글이나 댓글을 분석하고 싶을 때 가장 필요로 하시는 작업이 자연어 처리 입니다.
자연어처리 작업은 수집된 글/댓글이 긍정적인지, 부정적인지, 어떤 단어가 많이 언급되는지 등을 알 수 있거든요.
자연어처리의 첫번 째 방법인형태소 분석 인데요. 텍스트를 형태소(문장의 최소 단위)로 자르고 어근, 접두사/접미사, 품사 등 다양한 언어적 속성의 구조를 파악하는 작업입니다. 아래 화면 처럼 텍스트를 넣고 Process 라는 버튼만 누르면 형태소가 분석됩니다.
문장의 긍/부정률을 분석하는 감성분석(Sentiment Analytics) 은 어떻게 하는지 볼까요.
아래 화면처럼 텍스트를 넣고 Process 버튼을 클릭하면 Results 값에 표시됩니다.
문장별로 분석이 가능하며, Score 가 1점에 가까울수록 긍정을, -1점에 가까울수록 부정 을 나타내요. Score 가 0.5 점이라면 50%로 긍정도 부정도 아닌 딱 중간 수치라는 얘기죠.
4. 웹크롤링(Web Crawling) 기술로 수집한 이미지 데이터 분석하기 (OCR, Label Detection) 이미지 분석 도 어렵지 않습니다.
원하는 이미지를 올리고 분석하기 버튼을 누르면 Result 값에 이미지에 있는 각 객체 정보를 탐지하고 정확도가 %로 나와요.
예를 들면 이미지에 Tree 를 탐지하고 score 는 98%가 나왔다 하면 이미지 내에 tree 가 98% 정확도로 인지된다 라는 말입니다.
이미지에서 육안으로 볼 수 있는 tree, sky, woody plant, leaf 뿐만 아니라 Architecture, shade, house, City 같은 유추형 단어까지 추출할 수 있어요. 생각보다 정확하죠? 저보다 똑똑한 것 같습니다. (슬픔)
OCR(문자인식) 도 원하는 파일을 올리고 분석하기를 누르면 결과값이 나와요. (다 똑같죠. 너무 쉽…)
스캐닝한 문서 파일이나, jpg 그림 이미지, PDF 파일 등에서 문자를 인식할 수 있어요.
아래 그림 이미지 내에 있는 ‘클래식한 빅사이즈 버튼 디테일’ 이라는 문구를 인식하고 추출했습니다.
쇼핑몰 상품 페이지에서 글자를 인식해 추출하거나 pdf 문서에서 원하는 글자를 찾을 수 있겠죠.
앞서 말씀드린 자연어처리, 이미지 분석 외에도 수요예측, 브랜드 자산 측정, 광고효과 측정, 모델링 작업 도 가능합니다.
데이터 분석 전문기관 간의 협의를 통해 고객님에게 진짜 필요한 유의미한 인사이트를 도출하고 실제 경영성과에 도움을 드리고자 합니다.
아래와 같은 작업을 도와드릴 수 있습니다.
지금까지 해시스크래퍼 대시보드로 웹크롤링(Web Crawling), 자연어처리(NLP), 이미지 분석하는 방법에 대해서 안내해드렸습니다.
이 글도 함께 읽어보세요: