서버、プロキシ、CAPTCHA回避、アンチボット対応 — 隠れたコストまですべて公開
読む時間: 10分 | 2026年1月
要約
| 項目 | 月間費用 (自社構築) | 備考 |
|---|---|---|
| サーバー/クラウド | 50万〜300万ウォン | スケールにより異なる |
| プロキシ | 80万〜500万ウォン | 住宅用プロキシ基準 |
| CAPTCHA回避 | 30万〜150万ウォン | サイト数に比例 |
| アンチボット対応開発 | 200万〜500万ウォン | 専門開発者の人件費 |
| モニタリング/障害対応 | 100万〜300万ウォン | 運用人員を含む |
| 合計 | 460万〜1,750万ウォン |
ハッシュスクレイパーのサブスクリプション: 月300万〜1,200万ウォン (上記の費用すべてが含まれます)
"クローラーのコスト?サーバー費用5万ウォンで十分なのに"
新人開発者がそう報告します。チームリーダーはうなずきます。CTOも「それなら自分でやればいい」と言います。
6ヶ月後、クローリングインフラ関連の費用をすべて合算すると月数百万ウォンになります。誰も予想していなかった数字です。
このようなことが繰り返される理由は単純です。クローリングのコストのかなりの部分はコードの外側にあるためです。サーバー費用は氷山の一角であり、水面の下にはプロキシ、CAPTCHA、アンチボット対応、運用人員という巨大な塊が隠れています。
この記事では、クローリングインフラを構成する5つの費用項目を1つずつ詳しく見ていきます。それぞれがなぜ必要であり、実際にどれだけかかるか、どこで予想外にコストが爆発するかを示します。
1. サーバー/クラウド費用: "5万ウォンで十分です"の罠
最小構成
クローラーを実行するにはサーバーが必要です。最も基本的な構成:
- AWS EC2 t3.medium (vCPU 2、RAM 4GB): 月約5万ウォン
- 小規模クローリング (1日数千ページ)ならこれで十分です
レポートに「サーバー費用5万ウォン」と記載されている時点です。しかし、ここまでは個人プロジェクトレベルであり、B2B企業が実際に必要とするスケールは異なります。
企業規模別の現実
| 規模 | 日間収集量 | サーバー構成 | 月額費用 |
|---|---|---|---|
| 小規模 | 1万ページ | EC2 t3.medium x1 | ~5万ウォン |
| 中規模 | 10万ページ | EC2 c5.xlarge x2 + RDS | ~50万ウォン |
| 大規模 | 100万ページ | EC2 c5.2xlarge x5 + RDS + ElastiCache | ~200万ウォン |
| エンタープライズ | 1,000万+ページ | K8sクラスター + 分散処理 | ~300万ウォン+ |
そして表に表示されない費用:
- データ転送費用 (AWS egress): 大規模なら月10〜50万ウォン
- ストレージ (S3/EBS): 収集データ保存に月5〜30万ウォン
- ログ/モニタリング (CloudWatch、Datadog): 月10〜20万ウォン
サーバー"1つ"は5万ウォンですが、企業環境では50万〜300万ウォン以上になります。
見逃しやすいポイント: トラフィックスパイク
"通常は10万ページですが、四半期末だけ50万ページを収集する必要があります。"
これは50万ページ基準でサーバーをセットアップするか、Auto Scalingを実装する必要があることを意味します。どちらにしてもコストと複雑さが増します。
2. プロキシ費用: 最も過小評価される項目
プロキシなしではできない理由
同じIPから何百回ものリクエストを送信するとブロックされます。2026年現在、商用クローリングではプロキシは選択ではなく必須です。
プロキシタイプ別価格
| タイプ | 特徴 | GB当たりの価格 | 月の見積もり費用 (中規模) |
|---|---|---|---|
| データセンタープロキシ | 速いが検出が容易 | $0.5〜2 | 20万〜80万ウォン |
| 住宅用(Residential)プロキシ | 実際の家庭用IP、検出が難しい | $3〜15 | 80万〜500万ウォン |
| ISPプロキシ | データセンターから実際のISP IPを使用 | $2〜5 | 50万〜200万ウォン |
| モバイルプロキシ | モバイルキャリアIP、ブロック率最小 | $10〜30 | 200万〜800万ウォン |
実際の費用計算
中規模クローリング (1日10万ページ)を基準に計算してみましょう:
- ページあたり平均データ: 200KB
- 日間トラフィック: 約20GB
- 月間トラフィック: 約600GB
ここで住宅用プロキシを使用する場合? Bright Data基準$8/GBで計算すると、月約600万ウォンになります。
しかし実際にはこれより低くなることがあります。ほとんどの企業がボリュームディスカウントを提供し、データセンタープロキシと組み合わせて使用すればコストを削減できます。現実的な範囲は月100万〜400万ウォン程度です。
問題はアンチボットが強力なサイトです。Coupang、Naver Shoppingなどはブロック率が高く、リトライが頻繁に行われ、実際のトラフィックが計画の2〜3倍になることがあります。
悪循環構造
安いプロキシ → ブロック率上昇 → リトライ増加 → トラフィック増加 → コスト増加
プロキシは「安いものが高い」という教科書的な事例です。
3. CAPTCHA回避費用: 簡単なものと複雑なものの差
CAPTCHAタイプ別費用
2026年現在、多くの主要なECサイト・ポータルサイトがCAPTCHAを使用しています。
| CAPTCHAタイプ | 難易度 | 1,000件あたりのコスト |
|---|---|---|
| reCAPTCHA v2 (画像) | 普通 | $1〜3 / 1,000件 |
| reCAPTCHA v3 (スコアベース) | 高い | $2〜5 / 1,000件 |
| hCaptcha | 普通 | $1〜3 / 1,000件 |
| Cloudflare Turnstile | 高い | $3〜6 / 1,000件 |
| Akamai Bot Manager | 非常に高い | サービスで解決不可 |
| PerimeterX/HUMAN | 非常に高い | サービスで解決不可 |
一般的なCAPTCHA: 思ったより安い
中規模 (1日10万ページ、CAPTCHA発生率30%):
- 月間CAPTCHA解決: 約90万件
- reCAPTCHA v2基準: 約23万ウォン/月
- Cloudflare Turnstile基準: 約58万ウォン/月
- 組み合わせ: 平均30万〜80万ウォン/月
ここまでは管理可能です。
本当の問題: エンタープライズ級アンチボット
Coupang(Akamai)、一部金融サイト(PerimeterX/HUMAN)は2Captchaなどのサービスでは解決できません。これを突破するには:
- ブラウザフィンガープリント偽装 — Playwright/Puppeteerをカスタマイズ
- TLSフィンガープリント操作 — 高度なネットワークエンジニアリング
- 行動パターンシミュレーション — マウスの軌跡、スクロール速度、キー入力間隔
これはCAPTCHAサービスにお金を払う問題ではありません。シニアセキュリティ開発者が数週間から数か月を投資する問題です。
人件費に換算すると:
- 初期構築: 500万〜2,000万ウォン
- 月間保守: 100万〜300万ウォン
4. アンチボット対応: 終わらない軍備競争
四半期ごとに変わるルール
アンチボット企業は検出ロジックを年間8〜12回更新します。1度突破しても終わりではありません。
| 時期 | 更新内容 | 対応時間 |
|---|---|---|
| 2024 Q1 | Cloudflare JS Challenge強化 | 1〜2週間 |
| 2024 Q3 | Akamaiブラウザフィンガープリントv3 | 2〜4週間 |
| 2025 Q1 | PerimeterX行動分析強化 | 3〜6週間 |
| 2025 Q3 | Cloudflare Turnstileメジャーアップデート | 1〜3週間 |
アップデートが出るとクローラーは即座に停止します。対応に2週間かかれば2週間間データが空になります。
この仕事をできる人
アンチボット対応に必要なスキル:
- リバースエンジニアリング: JavaScript難読化解除、ネットワークトラフィック分析
- ブラウザ内部構造: Chromiumソースコードレベルの理解
- セキュリティ回避: TLS/HTTP2フィンガープリント操作
このような開発者の市場年収は8,000万〜1億5,000万ウォンです。フルタイムでなくても、アップデートごとに投入すれば月200万〜500万ウォンの人件費が発生します。
遅れると起こること
リアルタイム価格モニタリングを行うECサイトにとって2週間のデータ空白は致命的です。競合他社の価格が変わる中、我々だけが知らない状況。後からいくらお金をかけても過去のデータは復元できません。
5. モニタリング&運用: 毎日繰り返される見えないコスト
ツールコスト
| 項目 | ツール | 月額費用 |
|---|---|---|
| サーバーモニタリング | Datadog / CloudWatch | 10万〜30万ウォン |
| クローリング成功率トラッキング | カスタムダッシュボード (開発必要) | — |
| データ品質検証 | カスタムスクリプト (開発必要) | — |
| 障害通知 | PagerDuty / Slack Webhook | 5万〜15万ウォン |
| ログ管理 | ELK Stack / Grafana Loki | 10万〜20万ウォン |
ツールコスト合計: 月25万〜65万ウォン
しかし、本当のコストはツールではありません。
人件費
- 日々のクローリング状態確認: 30分
- 週間データ品質レビュー: 2時間
- 障害対応 (月3〜5件): 件あたり2〜4時間
- 月次アップデート/パッチ: 8〜16時間
合計すると月40〜60時間。開発者時給5万ウォン基準で月200万〜300万ウォンです。
そして数量化できないコストがもう1つあります。深夜3時の障害通知。担当開発者の睡眠、ワークライフバランス、バーンアウト — 結局は退職につながるパターンを多くの企業で見ます。




