"requests.get으로 쿠팡 상품 페이지를 가져왔는데 빈 페이지만 나옵니다"
— 매주 개발자 커뮤니티에 올라오는 질문
읽는 시간: 15분 | 2026년 1월 기준
핵심 요약
쿠팡 크롤링은 2024년 이후 急激に困難になりました。 Akamai Bot Managerの導入により、Selenium、Playwright、Puppeteerなどの自動化ツールはほぼすべてブロックされます。
この記事で取り上げる内容:
- 쿠팡がクローリングをブロックする 正確な原理 (5段階の検知構造)
- 直接回避を試みた際の なぜ失敗するか (コードを含む)
- 2026年時点で 実際に機能する方法 3つ
- 各方法の コストと限界 (月間比較表)
結論から言うと: 小規模なテストは可能ですが、安定した大規模収集は専門サービスなしでは事実上不可能です。
目次
- 쿠팡 데이터, 誰がなぜ収集するのか
- 쿠팡で収集できるデータ
- 쿠팡クローリングが困難になった理由
- Akamai Bot Managerの5段階検知構造
- 一般的な試みと失敗パターン
- 方法1: 直接構築(上級者向け)
- 方法2: プロキシサービスの利用
- 方法3: クローリング専門サービスの利用
- コスト比較: どの方法が合理的か
- 自分に合った方法を見つける
- よくある質問
1. 쿠팡 데이터, 誰がなぜ収集するのか
쿠팡は韓国のEC市場で1位です。そのため、多くの人々がコンパンのデータに興味を持っています。
競合他社の価格モニタリング — 自社商品がいくらで販売されているか、競合商品の価格がどのように変動しているかをリアルタイムで把握します。小売ブランド、メーカー、小売企業が主に利用しています。
市場調査&トレンド分析 — 特定カテゴリの人気商品、新商品の発売状況、価格分布を分析します。コンサルティング会社、リサーチ機関、スタートアップが市場参入前に利用します。
レビュー分析 — 自社/競合商品の顧客反応を収集し分析します。製品改善、マーケティングメッセージの導出、顧客の声の確保に利用します。
MAP(最低広告価格)モニタリング — ブランドが指定した最低販売価格をリセラーが守っているか監視します。価格ポリシー違反の販売者を特定するのに利用されます。
在庫&品切れモニタリング — 競合商品の在庫状況を追跡し、チャンスをつかみます。
これらのデータを手動で確認するには、毎日数百〜数千の商品ページを訪れる必要があります。自動化は必須です。
2. 쿠팡で収集できるデータ
クローリングが成功した場合、どのようなデータを取得できるでしょうか?以下は、コンパンの商品ページから抽出可能な主要な項目です:
商品の基本情報
- 商品名、ブランド名、カテゴリ
- 販売価格、割引価格、クーポン適用価格
- 商品画像のURL
- 販売者情報(ロケット配送の有無を含む)
- 商品オプション(色、サイズなど)
レビューデータ
- 総合評価とレビュー数
- 個々のレビューテキスト、投稿者、投稿日
- レビュー画像
- 星評価の分布(1〜5点)
販売&在庫情報
- 品切れ/再入荷状況
- 配送予定日
- 購入件数表示("10,000+件購入")
カテゴリ/検索データ
- カテゴリごとの商品リストとランキング
- 検索キーワードごとの表示商品
- おすすめ商品リスト
収集可能なデータの範囲は、クローリング方法と規模によって異なります。単純な価格照会は比較的簡単ですが、レビューの専門収集やリアルタイム在庫監視にはより高度な技術が必要です。
3. 쿠팡クローリングが困難になった理由
過去 vs 現在
2022年以前: Pythonのrequests + BeautifulSoupだけで商品ページを取得できました。User-Agentヘッダーを設定するだけで十分でした。
2023年: 基本的なボットブロックが適用されました。Seleniumを使用して回避できるレベルでした。
2024年〜現在: Akamai Bot Managerが全面導入されました。従来の自動化ツールではほぼ不可能になりました。
なぜ急に強化されたのか
コンパンは2021年にニューヨーク証券取引所(NYSE)に上場して以降、データ保護とインフラセキュリティに大規模な投資を行ってきました。AkamaiはグローバルCDNおよびセキュリティ市場で最大規模の企業の1つであり、彼らのBot Managerは ボット検知分野の最高ソリューション です。
強化されたブロックの具体的な理由:
- 競合他社価格収集ブロック: 11번가、G마켓などの競合プラットフォームの組織的な価格モニタリングの防止
- 自動購入ボットブロック: 限定品(ロケット直販など)のボット購入防止
- サーバー費用削減: 無分別なクローリングトラフィックは実際のサービス費用を増加させる
- データ資産保護: 数億件の商品レビューや価格履歴はコンパンの主要資産です
4. Akamai Bot Managerの5段階検知構造
Akamai Bot Managerは単純にIPアドレスだけを確認しません。5つのレイヤーで構成された マルチレイヤー検知システム です。
レイヤー1: HTTPヘッダー&TLSフィンガープリント
最初に確認するのはHTTPリクエスト自体の特性です。
탐지되는 패턴:
- User-Agent가 없거나 비정상적인 값
- Accept-Language, Accept-Encoding 등 필수 헤더 누락
- 헤더 순서가 실제 브라우저와 다름
- TLS 지문(JA3/JA4 해시)이 봇 도구의 패턴과 일치
Pythonのrequestsライブラリは、TLSハンドシェイクパターンが実際のChromeと完全に異なります。この段階でフィルタリングされます。
レイヤー2: JavaScript実行検証
コンパンページの読み込み時にAkamaiの センサースクリプト(約70KB)が実行されます。このスクリプトは次のことを行います:
- ブラウザでJavaScriptが正常に実行されているか確認
navigator、window、documentなどのブラウザAPIの応答値を収集- WebGL、Canvas、AudioContextなどのフィンガープリントを生成
- 収集されたデータを暗号化してAkamaiサーバーに送信
- 検証に合格すると
_abckクッキーを発行(このクッキーがないとデータにアクセスできない)
JavaScriptを実行しないツール(requests、curl、Scrapy)はこのクッキーを受け取れないため、すべてのリクエストがブロックされます。
レイヤー3: ブラウザフィンガープリント
センサースクリプトが収集するブラウザフィンガープリントは非常に詳細です:
| 項目 | 収集内容 |
|---|---|
| Navigator | userAgent、platform、language、plugins、hardwareConcurrency |
| Screen | width、height、colorDepth、availWidth、availHeight |
| WebGL | レンダラー名、ベンダー、サポート拡張リスト |
| Canvas | ユニークレンダリングハッシュ(同じハードウェアでもOS/ドライバーで区別) |
| AudioContext | オーディオ処理パイプラインフィンガープリント |
| 自動化フラグ | navigator.webdriver、__selenium_evaluate、callPhantom、_phantom など |
Seleniumはデフォルトで navigator.webdriver = true を設定します。これだけでもすぐにボットと判断されます。
レイヤー4: 行動分析(最も回避が難しい)
Akamaiはユーザーの行動パターンまで分析します:
- マウスの軌跡: 人は直線で移動しません。微細な揺れや曲線があります。Akamaiはこの軌跡のエントロピーを測定します。
- キーボード入力: タイピングスピードやキー間の間隔(keystroke dynamics)を分析します。すべての文字を正確に同じ間隔で入力すると、ボットと見なされます。
- スクロールパターン: 自動スクロールは一定の速度を保ちますが、人は興味のある部分で止まり、素早くスキップし、戻ります。
- ページ滞在時間: ページの読み込み後0.5秒でデータを抽出して退出するパターンは自動化の典型です。
- クリック座標: 毎回同じ座標を正確にクリックすることは人間の行動ではありません。
レイヤー5: IP評判&レート制限
- 同じIPから短時間に多数のリクエスト → 即座にブロック
- データセンターIP(AWS、GCP、Azureなど) → 疑いスコアが大幅に増加
- VPNサービスIP範囲 → ブラックリスト登録
- 以前にブロックされたIP → 永久ブラックリスト
5つのレイヤーをすべて通過すると正常なデータを受け取れます。1つでも引っかかればブロックされます。
5. 一般的な試みと失敗パターン
コンパンクローリングを試みる開発者が直面する代表的な失敗事例です。
試み1: requests + BeautifulSoup
import requests
from bs4 import BeautifulSoup
url = "https://www.coupang.com/vp/products/12345678"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
"AppleWebKit/537.36 Chrome/120.0.0.0 Safari/537.36"
}
response = requests.get(url, headers=headers)
print(response.status_code) # 403 Forbidden
print(len(response.text)) # 빈 HTML 또는 챌린지 페이지
なぜ失敗するか: JavaScriptを実行しないため、センサーデータをAkamaiに送信できません。 _abck クッキーの発行ができないため、すべてのリクエストがブロックされます。 TLSフィンガープリントもPythonパターンで検出されます。
試み2: Selenium + ChromeDriver
from selenium import webdriver
options = webdriver.ChromeOptions()
options.add_argument("--headless") # ← 이것부터 문제
driver = webdriver.Chrome(options=options)
driver.get("https://www.coupang.com/vp/products/12345678")
# → Akamai 챌린지 페이지 또는 무한 로딩
なぜ失敗するか: navigator.webdriverが true に設定されているため、レイヤー3で即座に検知されます。 undetected-chromedriverを使用しても、2024年以降、Akamaiセンサーv3が追加の自動化トレース(CDP接続など)を検知します。
試み3: Playwright + Stealthプラグイン
from playwright.sync_api import sync_playwright
with sync_playwright() as p:
browser = p.chromium.launch(headless=False) # Headed 모드
context = browser.new_context()
page = context.new_page()
page.goto("https://www.coupang.com/vp/products/12345678")
# 가끔 성공 → 그러나 10회 중 3~4회만 통과
なぜ不安定か: Headedモードではレイヤー1〜3を通過できますが、大規




