안녕하세요, ハッシュスクレイパーです。
최근에 웹크롤링(Web Crawling) 문의가 많이 들어옵니다.
データベースを基に正確な意思決定をしたい方々も増えているのでしょう!
特によく尋ねられるのが 웹크롤링(Web Crawling)으로 수집한データをテキストマイニング、自然言語処理、画像分析 です。
ビジネスモデルを立案したりマーケティング戦略を企画する方々はデータを分析し、視覚化してインサイトを導きたいと考えています。
データを活用してスマートにオンラインでマーケティングする方法は以下のリンクを参照してください。
しかし問題があります。皆さんが予測しているもの、それがすぐにコストです。
自然言語処理と画像分析はウェブクローリング(Web Crawling)のコストの2〜3倍かかります。予算を捻出しにくい企業の従業員の方々、たった今起業して資金不足の経営者の方々は結局少額でデータクローリング(Crawling)して分析できる場所を探し求めて諦めてしまいます。
そんな方々のために私たちが 自然言語処理、画像分析、OCR分析が可能なダッシュボード を作成しました。
他のデータ分析会社では多額の費用がかかる分析ツールですが、私たちは多くの方々がお金の心配をせずにデータ分析を行えるよう非常にリーズナブルに提供しています。さらに、ツールを直接使用してさまざまな分析結果を取り出すこともできます。難しくありません。数回のクリックで可能です。
1. ハッシュスクレイパーダッシュボードの使用方法
ダッシュボードはすべての方々に公開されています。
会員登録してログインすると、あなた専用のダッシュボードが作成されます。
以下のようなダークなホームページが表示されますが、上部メニューのDASHBORDというメニューをクリックしてください!
すると、以下のようなあなた専用のダッシュボードが表示されます。
メイン画面では、データクローリングスケジュールの数、残ポイント、データクローリングの成功または失敗を確認できます。
ハッシュスクレイパーは前払いでも利用できます。ポイント(1ポイント = 1ウォン)を入れておくと、収集された量だけポイントが差し引かれます。入れた金額からしかデータが収集されないため、急に多くのデータが収集されてコストが大きく請求される心配はありません。
以下の画面は ウェブクローリング作業スケジュール です。
いくつかの作業が進行中です。 差し引かれたポイントとデータ量、ページング処理数、再試行確認数を確認できます。
横にある緑色のボタン「データビュー」を押してみましょう
2. ウェブクローリングを始める
詳細ページに入ると、詳細内容を確認できます
以下の画面の左上にある青いボタン「データ収集開始」を押すと手動でデータを収集できます。
各スケジュールごとに収集できるボットがあり、ボタンを押すだけでリアルタイムで収集できます。リアルタイムで変化する情報を1秒以内に取得できます。左側の緑色のボタン「データビュー」を押すと、さらに収集されたデータを目で確認できます
昨夜私が収集しておいた作業が表示されます。
最初の項目はクローリングの成功/失敗です。TRUE は成功したということでしょうか?
9番目の項目で Elapsed Time (収集時間) も確認できます。1つ取得するのに平均1.3秒かかります。
リアルタイムの情報収集が必要な場合、速度を上げることもできます。1ページを0.1秒以内に収集できます。
収集が完了するとアラートが表示されます。"収集が完了しました"と言います。
それではダッシュボードに入って、Excelや画像でダウンロードしてください。以下の画面の右上に緑色のボタンが表示されますか?
1万5千個のデータが簡単にExcelでダウンロードされました。
これで営業やマーケティングなどさまざまな方法でこのデータを活用できます。
商品価格や製品リストをリアルタイムで確認するサービスを作成することもできます。
ウェブクローリング技術を使用してデータを収集し、分析してトレンドを分析したり販売予測モデルを作成することもあります。さまざまな産業でさまざまな方法で活用されています。
ウェブクローリング(Web Crawling)を行うと、重複したデータが多くなります。
特に記事を収集する際にはこのようなケースが多いです。記者名とチャンネルが異なるだけで記事内容はほとんど同じ場合が多いです。
私たちはこのようなケースに備えて テキストを比較して類似比率を分析するサービス(Fuzzy String Match) を提供しています。
いくつかのサンプルテキストを入れて比較してみましたが、89%の比率が出ました。
そこにテキストを入れて比較し、一致率が高い場合はデータを洗練して提供します。
3. ウェブクローリング(Web Crawling)データを自然言語処理する (形態素解析、感情分析)
ウェブクローリングで収集したSNS、記事、コメントを分析したいときに最も必要とされる作業は自然言語処理です。
自然言語処理作業は収集されたテキストが肯定的か否定的か、どの単語がよく言及されているかなどを知ることができます。
自然言語処理の最初のステップである 形態素解析 です。テキストを形態素(文の最小単位)に分割し、語根、接頭辞/接尾辞、品詞などさまざまな言語的属性の構造を理解する作業です。以下の画面のようにテキストを入力し、Process ボタンを押すと形態素が解析されます。
文の肯定/否定率を分析する感情分析(Sentiment Analytics) はどのように行うのでしょうか。
以下の画面のようにテキストを入力し、Process ボタンをクリックすると、Results 値に表示されます。
文ごとに分析が可能で、 Score が1に近いほど肯定的で、-1に近いほど否定的 を表します。Score が0.5 ならば50%で肯定でも否定でもないちょうど中間の値ということです。
4. ウェブクローリング(Web Crawling)技術で収集した画像データを分析する (OCR、ラベル検出)
画像分析 も難しくありません。
希望する画像をアップロードし、分析するボタンを押すと、Result 値に画像内の各オブジェクト情報が検出され、精度が%で表示されます。
例えば画像に Tree を検出し、スコアが98%と表示された場合、画像内にtreeが98%の精度で認識されるということです。
画像から肉眼で見えるtree、sky、woody plant、leafだけでなくArchitecture、shade、house、Cityなどの推測的な単語まで抽出できます。思ったよりも正確ですね?私よりも賢いようです。(悲しい)
OCR(文字認識) も希望するファイルをアップロードし、分析すると結果が表示されます。(全く同じですね。簡単すぎます…)
スキャンした文書ファイルや、jpg画像、PDFファイルなどから文字を認識できます。
以下の画像内にある 'クラシックなビッグサイズボタンディテール' という文言を認識し、抽出しました。
ショッピングモールの商品ページから文字を認識して抽出したり、pdf文書から必要な文字を見つけることができます。
先ほど述べた自然言語処理、画像分析以外にも 需要予測、ブランド資産測定、広告効果測定、モデリング作業 も可能です。
データ分析専門機関間の協議を通じてお客様に 本当に必要な有意義なインサイトを導き、実際の経営成果に役立てたい と考えています。
以下のような作業を手伝うことができます。
これまでハッシュスクレイパーダッシュボードでウェブクローリング(Web Crawling)、自然言語処理(NLP)、画像分析する方法についてご案内しました。
この記事も一緒に読んでみてください:
データ収集、今は自動化してください
コーディングなしで5分で開始・5,000以上のウェブサイトクローリング経験




