27 Gründe, warum Web-Scraping stoppt

27 Gründe, warum das Crawlen stoppt. Einführung in die Arten von Crawler-Störungen und Lösungen wie IP-Blockierung, Captchas und Strukturänderungen.

106
27 Gründe, warum Web-Scraping stoppt

IP-Sperrung, CAPTCHA, Strukturänderung... Das Retten eines Crawlers ist zehnmal schwieriger als das Erstellen.

Lesezeit: 12 Minuten | Stand Januar 2026


Schlüsselzusammenfassung

Wenn ein Crawler erstellt wird, funktioniert er eine Woche lang gut. Das Problem tritt danach auf.

Websites ändern sich ständig, die Sicherheit wird jeden Monat stärker und die Infrastruktur gerät unerwartet ins Wanken. Der Hashscraper hat 27 Arten von Störungen kategorisiert, die er beim Crawlen von über 5.000 Websites in 8 Jahren erlebt hat. Es umfasst die Häufigkeit des Auftretens, den Schwierigkeitsgrad der Bewältigung und die tatsächlichen Kosten für die interne Lösung.

Kategorie Anzahl der Störungen Schwierigkeitsgrad der Bewältigung
Zugriffssperre 8
Website-Änderung 6
Infrastruktur/Netzwerk 5
Authentifizierung/Sitzung 4
Datenqualität 4

Kategorie 1: Zugriffssperre (8 Störungen)

Dies ist die häufigste Hürde, auf die ein Crawler stößt. Sobald die Zielseite feststellt, dass es sich um einen Bot handelt, wird die Datensammlung gestoppt.

1. IP-Sperrung (Rate Limiting)

Symptom: Plötzlich 403 Forbidden oder 429 Too Many Requests
Ursache: Massenanfragen von derselben IP innerhalb kurzer Zeit
Häufigkeit: (sehr häufig)
Schwierigkeitsgrad der Bewältigung:

Dies ist die grundlegendste Sperre. Sie kann durch Verringerung der Anfragegeschwindigkeit oder Verwendung eines Proxy-Pools behoben werden. Die Verwaltung von Proxies wird jedoch zu einer separaten Aufgabe. Es ist wichtig, sich um die IP-Qualität, den Austausch gesperrter IPs und das Monitoring der Verfügbarkeit zu kümmern.

Interne Lösungskosten: Monatliche Kosten für Proxy-Dienste von 500.000 bis 2.000.000 Won + Personal für das Management

2. Akamai Bot Manager

Symptom: Beim Zugriff auf die Seite wird nur das Akamai-Logo und eine Warteseite angezeigt
Ursache: Bot-Erkennungsspezialisten analysieren bis hin zu Browser-Fingerabdrücken
Häufigkeit: (häufig bei großen E-Commerce-Unternehmen)
Schwierigkeitsgrad der Bewältigung:

In Südkorea ist Coupang ein bekanntes Beispiel. Selbst wenn Sie mit Selenium oder Playwright darauf zugreifen, analysiert es bis hin zu Browser-Fingerabdrücken, JavaScript-Ausführungsmustern, Mausbewegungen und Scrollgeschwindigkeiten. Mit herkömmlichen Crawling-Tools ist dies praktisch nicht zu umgehen.

Bei einem praktischen Test im Januar 2026 wurden sowohl Firecrawl (einschließlich Stealth Proxy) als auch Jina Reader von Coupang Akamai blockiert. Der Hashscraper überwindet dies mit seiner eigenen Browser-Emulations-Technologie.

Interne Lösungskosten: Fachpersonal + kontinuierliche Entwicklung von Umgehungstechnologien (Jährliche Kosten im Millionenbereich)

3. CAPTCHA

Symptom: Anzeige des "Ich bin kein Roboter"-Bestätigungsbildschirms
Ursache: Überwachung verdächtiger Traffic-Muster zur Bestätigung der menschlichen Identität
Häufigkeit:
Schwierigkeitsgrad der Bewältigung:

reCAPTCHA und hCaptcha können automatisch über externe Lösungsdienste (2Captcha, Anti-Captcha) gelöst werden. Jedoch sind selbst entwickelte CAPTCHAs wie das Quittungs-CAPTCHA von Naver Shopping nicht über externe Dienste lösbar. Es erfordert das Training eines separaten Machine-Learning-Modells, und bei Änderungen am CAPTCHA-Bild muss das Modell erneut trainiert werden.

Interne Lösungskosten: Allgemeine CAPTCHA-Lösungskosten von 2 bis 5 Won pro Einheit + Separate ML-Entwicklung für eigenes CAPTCHA erforderlich

4. Bot-Erkennung auf JavaScript-Basis

Symptom: Leere Seite oder endlose Weiterleitungen nach dem Laden der Seite
Ursache: Client-JavaScript überprüft die Browserumgebung
Häufigkeit:
Schwierigkeitsgrad der Bewältigung:

Einfache HTTP-Anfragen (requests, urllib) werden sofort erkannt. Selbst bei Verwendung von Headless-Browsern wie navigator.webdriver, window.chrome wird die Automatisierungsumgebung anhand von Objekten identifiziert. Obwohl es Tools wie Puppeteer Stealth, undetected-chromedriver gibt, erfordert jede Website individuelle Anpassungen, da die Erkennungslogik unterschiedlich ist.

5. Überprüfung von User-Agent/Headern

Symptom: 403 Forbidden oder ungewöhnliche Antworten
Ursache: Anfrageheader stimmt nicht mit dem tatsächlichen Browsermuster überein
Häufigkeit:
Schwierigkeitsgrad der Bewältigung:

Dies ist die einfachste Sperre und auch die einfachste Lösung. Es reicht aus, den User-Agent, Accept und Referer-Header anzupassen. Dies ist ein Problem, dem Anfänger beim Crawlen oft begegnen, aber allein damit können fortgeschrittene Sperren nicht überwunden werden.

6. Geoblocking

Symptom: Blockierung oder Bereitstellung anderer Inhalte beim Zugriff von ausländischen IPs
Ursache: Zugriff nur von bestimmten Länder-IPs erlaubt
Häufigkeit:
Schwierigkeitsgrad der Bewältigung:

Wenn Sie koreanische Websites von ausländischen Servern wie AWS US-East crawlen, tritt dies häufig auf. Sie müssen koreanische IP-Proxys verwenden oder von inländischen Servern ausführen.

7. Robots.txt-Standard

Symptom: Crawlen ist möglich, aber rechtliche Risiken bestehen
Ursache: Website verbietet das Crawlen bestimmter Pfade über robots.txt
Häufigkeit: (auf den meisten Websites vorhanden)
Schwierigkeitsgrad der Bewältigung: (technisch) / (rechtlich)

Technisch gesehen kann dies ignoriert werden, aber rechtlich gesehen ist es eine andere Geschichte. Wenn Sie große Unternehmenswebsites aus kommerziellen Gründen crawlen, müssen Sie dies unbedingt überprüfen.

8. WAF (Web Application Firewall)

Symptom: Plötzliche Blockaden, inkonsistente Antworten
Ursache: Cloudflare, AWS WAF usw. analysieren den Traffic
Häufigkeit:
Schwierigkeitsgrad der Bewältigung:

WAF analysiert eine Vielzahl von Traffic-Mustern wie IP, Anfragehäufigkeit, Browser-Fingerabdruck und TLS-Handshake. Um die "5-Sekunden-Herausforderung" von Cloudflare zu umgehen, ist eine JavaScript-Ausführungsumgebung erforderlich. Seit 2025 haben Websites, die Cloudflare Turnstile verwenden, reCAPTCHA zunehmend ersetzt.


Kategorie 2: Website-Änderung (6 Störungen)

Ein Crawler, der bei der Erstellung perfekt war, liefert eines Tages leere Daten zurück. Niemand sagt Ihnen Bescheid.

9. Änderung der HTML-Struktur

Symptom: Leere oder falsche Daten werden zurückgegeben
Ursache: Frontend-Update der Zielseite
Häufigkeit: (häufigste Ursache für Störungen)
Schwierigkeitsgrad der Bewältigung:

Naver Shopping aktualisiert sein Frontend mehrmals im Jahr. Das gilt auch für Coupang, 11th Street und Gmarket. Klassen wie product-price werden zu prd_price_v2 geändert, die Div-Struktur ändert sich und neue Komponenten werden hinzugefügt.

Tatsächliche Daten: Für jeden Crawler sind durchschnittlich 6-12 Anpassungen an Strukturänderungen pro Jahr erforderlich. Bei 10 Crawlers sind es jährlich 60-120 Anpassungen — etwas geht alle 3 Tage kaputt.

Interne Lösungskosten: Pro Anpassung 3-5 Stunden × 8 Anpassungen pro Jahr = 24-40 Stunden/Jahr/Crawler

10. Umstellung auf SPA/dynamisches Rendern

Symptom: Eine zuvor gut abgerufene Seite gibt nur leeres HTML zurück
Ursache: Umstellung auf SPA wie React/Vue/Angular
Häufigkeit:
Schwierigkeitsgrad der Bewältigung:

Bei der Umstellung von SSR auf SPA wird ein herkömmlicher HTTP-basierter Crawler vollständig nutzlos. Es ist erforderlich, eine vollständige Neuschreibung auf Basis von Headless-Browsern durchzuführen, was zu einer mehr als zehnfachen Ressourcennutzung führt.

11. Änderung des API-Endpunkts

Symptom: 404 bei API-Aufruf oder Änderung des Antwortformats
Ursache: Änderung der internen API-URL/Schema
Häufigkeit:
Schwierigkeitsgrad der Bewältigung:

Wenn die interne REST/GraphQL-API einer SPA-Website direkt aufgerufen wird, ist dies effizienter als das Parsen von HTML. Wenn die API-Version von v2 auf v3 geändert wird, muss die gesamte Parsing-Logik neu geschrieben werden.

12. Änderung des URL-Musters

Symptom: Die bisherige URL gibt 404 zurück
Ursache: Überarbeitung der URL-Struktur
Häufigkeit:
Schwierigkeitsgrad der Bewältigung:

Beispiel: /product/12345/shop/items/12345. Die URL-Erstellung der Crawler muss angepasst werden.

13. Änderung der Paginierungsmethode

Symptom: Das Laden der nächsten Seite schlägt fehl, es wird nur die erste Seite wiederholt gesammelt
Ursache: Seitennummer → Endloses Scrollen oder Offset → Cursorbasierte Umstellung
Häufigkeit:
Schwierigkeitsgrad der Bewältigung:

14. Änderung der Art des Laden von Inhalten

Symptom: Es werden nur einige Daten gesammelt, der Rest fehlt
Ursache: Einführung von Lazy Loading, Scroll-Trigger basierend auf Intersection Observer
Häufigkeit:
Schwierigkeitsgrad der Bewältigung:


Kategorie 3: Infrastruktur/Netzwerk (5 Störungen)

Der Crawler-Code funktioniert einwandfrei, aber es treten Probleme in der Ausführungsumgebung auf.

15. Mangel an Serverressourcen

Symptom: Geschwindigkeitseinbußen, OOM (Out of Memory) Abstürze
Ursache: Mangel an Speicher, CPU, Festplattenkapazität
Häufigkeit:
Schwierigkeitsgrad der Bewältigung:

Ein Headless-Browser (Chromium) verbraucht 200-500 MB Speicher pro Tab. Bei 10 gleichzeitigen Crawls werden 2-5 GB benötigt. Aufgrund von Speicherlecks ist ein regelmäßiger Neustart der Prozesse unerlässlich.

16. Ausfall von Proxies

Symptom: Verbindungszeitüberschreitung, intermittierendes Versagen
Ursache: Ausfall des Proxy-Servers, Ablauf der IP, Ausfall des Anbieters
Häufigkeit:
Schwierigkeitsgrad der Bewältigung:

17. DNS-Auflösungsfehler

Symptom: Fehler "Host nicht gefunden"
Ursache: DNS-Serverausfall, Änderung der Domain
Häufigkeit:
Schwierigkeitsgrad der Bewältigung:

18. Probleme mit SSL/TLS-Zertifikaten

Symptom: Fehlschlag des SSL-Handshakes
Ursache: Verzögerung bei der Ablauf-/Erneuerung des Zertifikats der Zielseite
Häufigkeit:
Schwierigkeitsgrad der Bewältigung:

19. Ausfallzeit des Zielservers

Symptom: 503 Service Unavailable, 504 Gateway Timeout
Ursache: Wartung oder Ausfall der Zielseite
Häufigkeit:
Schwierigkeitsgrad der Bewältigung: (Wiederholung + Implementierung von Benachrichtigungen)


Kategorie 4: Authentifizierung/Sitzung (4 Störungen)

Das Crawlen von Websites, für das eine Anmeldung erforderlich ist, kann besonders knifflig sein.

20. Ablauf der Login-Sitzung

Symptom: Plötzliche Weiterleitung zur Login-Seite
Ursache: Ablauf des Sitzungscookies, Überschreitung der Token-TTL
Häufigkeit:
Schwierigkeitsgrad der Bewältigung:

21. Anforderung von 2FA/MFA-Authentifizierung

Symptom: Anforderung von SMS/E-Mail-Authentifizierung
Ursache: Sicherheitsauthentifizierung beim Zugriff von einem neuen Gerät/IP
Häufigkeit:
Schwierigkeitsgrad der Bewältigung:

Die Automatisierung von 2FA ist technisch sehr schwierig und wird in den meisten Servicebedingungen untersagt. Ohne manuelle Eingriffe ist dies kaum möglich.

22. Fehler bei der Aktualisierung von OAuth-Token

Symptom: 401 Unauthorized bei API-Aufruf
Ursache: Ablauf des Refresh-Tokens, Änderung der OAuth-App-Berechtigungen
Häufigkeit:
Schwierigkeitsgrad der Bewältigung:

23. Änderung der Cookie-Richtlinie

Symptom: Plötzliches Scheitern des bisherigen Authentifizierungsflusses
Ursache: Verstärkung der SameSite-Richtlinie, Änderung von Cookie-Namen/Domänen/Pfaden
Häufigkeit:
Schwierigkeitsgrad der Bewältigung:


Kategorie 5: Datenqualität (4 Störungen)

Ein Crawler funktioniert, aber die gesammelten Daten sind nicht vertrauenswürdig. Je später ein Problem entdeckt wird, desto größer wird der Schaden.

24. Honeypot-Daten

Symptom: Falsche Informationen sind in den gesammelten Daten enthalten
Ursache: Die Website liefert absichtlich falsche Daten an Bots
Häufigkeit:
Schwierigkeitsgrad der Bewältigung:

Dies ist die raffinierteste Verteidigungsmethode. Es werden Bots nur falsche Preise und nicht vorhandene Produkte angezeigt. Es ist schwer zu erkennen, dass die Daten verfälscht sind, bevor sie manuell überprüft werden.

25. Personalisierte Inhalte

Symptom: Unterschiedliche Daten werden bei jedem Sammelvorgang von derselben URL abgerufen
Ursache: Personalisierungsalgorithmen, A/B-Tests, regionale Preisunterschiede
Häufigkeit:
Schwierigkeitsgrad der Bewältigung:

26. Kodierungsprobleme

Symptom: Koreanische Zeichenfehler, Sonderzeichendefekte
Ursache: Mischung von UTF-8 und EUC-KR, Unstimmigkeiten bei den Zeichensätzen
Häufigkeit: (besonders häufig auf koreanischen Websites)
Schwierigkeitsgrad der Bewältigung:

Dies tritt häufig auf alten koreanischen Einkaufswebsites oder Regierungswebsites auf. Es gibt immer noch Fälle, in denen die Seitenüberschrift UTF-8 angibt, der tatsächliche Text jedoch EUC-KR ist.

27. Inkonsistenz bei dynamischen Preisen/Beständen

Symptom: Der gesammelte Preis stimmt nicht mit dem angezeigten Preis überein
Ursache: Echtzeit-Preisschwankungen, preisliche Unterschiede je nach

Comments

Add Comment

Your email won't be published and will only be used for reply notifications.

Weiterlesen

Get notified of new posts

We'll email you when 해시스크래퍼 기술 블로그 publishes new content.

Your email will only be used for new post notifications.