Bloqueo de IP, CAPTCHA, cambios en la estructura... Es 10 veces más difícil mantener un rastreador que crearlo.
Tiempo de lectura: 12 minutos | A partir de enero de 2026
Resumen clave
Cuando se crea un rastreador, funciona bien durante una semana. El problema viene después.
Los sitios web cambian constantemente, la seguridad se fortalece mes a mes y la infraestructura se sacude sin previo aviso. Hashscraper ha categorizado 27 tipos de fallas experimentadas al rastrear más de 5,000 sitios durante 8 años. Incluye la frecuencia de ocurrencia, la dificultad de respuesta y los costos reales de resolución interna.
| Categoría | Número de fallas | Dificultad de respuesta |
|---|---|---|
| Bloqueo de acceso | 8 | |
| Cambio en el sitio | 6 | |
| Infraestructura/Red | 5 | |
| Autenticación/Sesión | 4 | |
| Calidad de datos | 4 |
Categoría 1: Bloqueo de acceso (8 tipos)
Es la barrera con la que los rastreadores se encuentran con más frecuencia. Una vez que el sitio objetivo detecta un "bot", la recopilación de datos se detiene.
1. Bloqueo de IP (Límite de velocidad)
Síntomas: Repentinamente 403 Forbidden o 429 Too Many Requests
Causa: Solicitudes masivas desde la misma IP en poco tiempo
Frecuencia: (Muy común)
Dificultad de respuesta:
Es el bloqueo más básico. Se resuelve reduciendo la velocidad de las solicitudes o utilizando un pool de proxies. Sin embargo, la gestión de proxies en sí misma se convierte en una tarea separada. Debe prestar atención a la calidad de las IPs, cambiar las IPs bloqueadas y monitorear la disponibilidad.
Costo de resolución interna: Servicio de proxy mensual de 500,000 a 2,000,000 de wones + personal de gestión
2. Administrador de Bots de Akamai
Síntomas: Solo se muestra el logotipo de Akamai y una pantalla de espera al acceder a la página
Causa: Una solución de seguridad especializada en la detección de bots analiza incluso las huellas dactilares del navegador
Frecuencia: (Común en grandes empresas de comercio electrónico)
Dificultad de respuesta:
En Corea, Coupang es un ejemplo representativo. Incluso al acceder con Selenium o Playwright, se analizan las huellas dactilares del navegador, los patrones de ejecución de JavaScript, la trayectoria del mouse y la velocidad de desplazamiento. Es casi imposible de eludir con herramientas de rastreo convencionales.
En las pruebas de campo de enero de 2026, tanto Firecrawl (con Stealth Proxy) como Jina Reader fueron bloqueados por Coupang Akamai. Hashscraper supera esto con su propia tecnología de emulación de navegador.
Costo de resolución interna: Personal especializado + desarrollo continuo de tecnología de elusión (costos anuales de varios millones de wones)
3. CAPTCHA
Síntomas: Pantalla de verificación "No soy un robot"
Causa: Verificación de la humanidad cuando se detectan patrones de tráfico sospechosos
Frecuencia:
Dificultad de respuesta:
reCAPTCHA, hCaptcha se pueden resolver automáticamente con servicios externos (2Captcha, Anti-Captcha). Sin embargo, CAPTCHAs desarrollados internamente como el CAPTCHA de recibo de Naver Shopping no se pueden resolver con servicios externos. Se requiere el desarrollo de un modelo de aprendizaje automático por separado, y si el sitio cambia la imagen CAPTCHA, también se necesita una reentrenamiento del modelo.
Costo de resolución interna: Resolución de CAPTCHA genérico de 2 a 5 wones por solicitud + se requiere desarrollo de ML para CAPTCHAs internos
4. Detección de bots basada en JavaScript
Síntomas: Pantalla en blanco o redirecciones infinitas después de cargar la página
Causa: La validación del entorno del navegador por JavaScript del cliente
Frecuencia:
Dificultad de respuesta:
Las solicitudes HTTP simples (requests, urllib) se detectan de inmediato. Incluso al usar navegadores sin cabeza, el entorno de automatización se identifica a través de objetos como navigator.webdriver, window.chrome, etc. Aunque existen soluciones como Puppeteer Stealth, undetected-chromedriver, se requiere una respuesta individual debido a las diferentes lógicas de detección de cada sitio.
5. Validación de User-Agent/Encabezados
Síntomas: 403 Forbidden o respuestas anormales
Causa: Los encabezados de solicitud no coinciden con los patrones reales del navegador
Frecuencia:
Dificultad de respuesta:
Es el bloqueo más simple y la respuesta más fácil. Solo necesita ajustar los encabezados User-Agent, Accept, Referer. Es un problema común al que se enfrentan los principiantes en el rastreo, pero solo con esto no se puede superar un bloqueo avanzado.
6. Bloqueo basado en la ubicación (Geo-blocking)
Síntomas: Bloqueo al acceder desde una IP extranjera o devolución de contenido diferente
Causa: Solo se permite el acceso desde IP específicas de ciertos países
Frecuencia:
Dificultad de respuesta:
Es común cuando se rastrean sitios coreanos desde servidores en el extranjero como AWS US-East. Debe usar proxies de IP coreanas o ejecutar desde servidores locales.
7. Estándar de exclusión de robots (robots.txt)
Síntomas: El rastreo es posible pero existe un riesgo legal
Causa: El sitio prohíbe el rastreo de rutas específicas a través de robots.txt
Frecuencia: (Presente en la mayoría de los sitios)
Dificultad de respuesta: (Técnica) / (Legal)
Técnicamente se puede ignorar, pero legalmente es otra historia. Si va a rastrear sitios de grandes empresas con fines comerciales, debe verificarlo obligatoriamente.
8. Firewall de Aplicaciones Web (WAF)
Síntomas: Bloqueo repentino, respuestas inconsistentes
Causa: Cloudflare, AWS WAF, etc., analizan patrones de tráfico de manera integral
Frecuencia:
Dificultad de respuesta:
Los WAF analizan de manera integral IP, frecuencia de solicitudes, huellas dactilares del navegador, patrones de handshake de TLS. Para evitar el desafío de "5 segundos" de Cloudflare, se requiere un entorno de ejecución de JavaScript. Desde 2025, los sitios que reemplazan reCAPTCHA con Cloudflare Turnstile han aumentado significativamente.
Categoría 2: Cambios en el sitio (6 tipos)
El rastreador que funcionaba perfectamente un día, de repente devuelve datos vacíos. Nadie te lo advierte.
9. Cambio en la estructura HTML
Síntomas: Devolución de datos vacíos o incorrectos
Causa: Actualización del frontend del sitio objetivo
Frecuencia: (La causa de falla más común)
Dificultad de respuesta:
Naver Shopping actualiza el frontend decenas de veces al año. Lo mismo ocurre con Coupang, 11th Street, Gmarket. Los nombres de clase cambian de product-price a prd_price_v2, la estructura div cambia, se agregan nuevos componentes.
Datos reales: Se necesita una respuesta a los cambios en la estructura de 6 a 12 veces al año en promedio por cada rastreador. Si tiene 10 rastreadores, se necesita una respuesta de 60 a 120 veces al año — cada 3 días algo se rompe en algún lugar.
Costo de resolución interna: 3 a 5 horas por incidente × 8 veces al año = 24 a 40 horas/año/rastreador
10. Transición a SPA/Renderización dinámica
Síntomas: La página que solía recuperar bien ahora devuelve solo HTML vacío
Causa: Renovación total a SPA como React/Vue/Angular
Frecuencia:
Dificultad de respuesta:
Cuando se cambia de SSR a SPA, los rastreadores basados en HTTP existentes se vuelven completamente inútiles. Se requiere una reescritura completa basada en un navegador sin cabeza, y el consumo de recursos aumenta en más de 10 veces.
11. Cambio en el punto final de la API
Síntomas: 404 al llamar a la API o cambio en el formato de respuesta
Causa: Cambio en la URL/esquema interno de la API
Frecuencia:
Dificultad de respuesta:
Al llamar directamente a la API REST/GraphQL interna de un sitio SPA, es más eficiente que el análisis HTML, pero si la versión de la API cambia de v2 a v3, se debe reescribir toda la lógica de análisis.
12. Cambio en el patrón de URL
Síntomas: La URL existente devuelve un 404
Causa: Renovación de la estructura de URL
Frecuencia:
Dificultad de respuesta:
Ejemplo: /product/12345 → /shop/items/12345. Se requiere modificar la lógica de generación de URL del rastreador.
13. Cambio en el método de paginación
Síntomas: Falla al cargar la siguiente página, solo se recopila la primera página
Causa: Número de página → desplazamiento infinito, u offset → cambio a cursor
Frecuencia:
Dificultad de respuesta:
14. Cambio en el método de carga de contenido
Síntomas: Solo se recopila parte de los datos y el resto se omite
Causa: Introducción de carga diferida, activación de desencadenadores de desplazamiento basados en Intersection Observer
Frecuencia:
Dificultad de respuesta:
Categoría 3: Infraestructura/Red (5 tipos)
El código del rastreador está bien, pero surgen problemas en el entorno de ejecución.
15. Escasez de recursos del servidor
Síntomas: Disminución de la velocidad, bloqueo por falta de memoria (OOM)
Causa: Escasez de memoria, CPU, capacidad de disco
Frecuencia:
Dificultad de respuesta:
El navegador sin cabeza (Chromium) consume de 200 a 500 MB de memoria por pestaña. Si está rastreando 10 páginas simultáneamente, se necesitan de 2 a 5 GB. Considerando las fugas de memoria, es esencial reiniciar periódicamente los procesos.
16. Falla del proxy
Síntomas: Tiempo de espera de conexión, fallas intermitentes
Causa: Servidor proxy caído, IP vencida, falla del proveedor
Frecuencia:
Dificultad de respuesta:
17. Fallo en la resolución de DNS
Síntomas: Error "No se puede encontrar el host"
Causa: Falla del servidor DNS, cambio de dominio
Frecuencia:
Dificultad de respuesta:
18. Problemas con el certificado de autenticación SSL/TLS
Síntomas: Falla en el handshake de SSL
Causa: Retraso en la renovación del certificado de autenticación del sitio objetivo
Frecuencia:
Dificultad de respuesta:
19. Tiempo de inactividad del servidor objetivo
Síntomas: 503 Service Unavailable, 504 Gateway Timeout
Causa: Mantenimiento o falla del sitio objetivo
Frecuencia:
Dificultad de respuesta: (Implementación de reintento + notificaciones)
Categoría 4: Autenticación/Sesión (4 tipos)
Es especialmente problemático rastrear sitios que requieren inicio de sesión.
20. Expiración de sesión de inicio de sesión
Síntomas: Redirección repentina a la página de inicio de sesión
Causa: Expiración de la cookie de sesión, superación del TTL del token
Frecuencia:
Dificultad de respuesta:
21. Requerimiento de autenticación 2FA/MFA
Síntomas: Requerimiento de autenticación por SMS/correo electrónico
Causa: Disparo de autenticación de seguridad al conectarse desde un nuevo dispositivo/IP
Frecuencia:
Dificultad de respuesta:
Automatizar el 2FA es técnicamente muy complicado y en su mayoría está prohibido por los términos de servicio de la mayoría de los servicios. Es casi imposible de resolver sin intervención manual.
22. Falla en la renovación del token de OAuth
Síntomas: 401 Unauthorized al llamar a la API
Causa: Expiración del token de actualización, cambio de permisos de la aplicación OAuth
Frecuencia:
Dificultad de respuesta:
23. Cambio en la política de cookies
Síntomas: Interrupción repentina del flujo de autenticación existente
Causa: Refuerzo de la política SameSite, cambio de nombre/dominio/ruta de la cookie
Frecuencia:
Dificultad de respuesta:
Categoría 5: Calidad de datos (4 tipos)
Aunque el rastreador funcione, no se puede confiar en los datos recopilados. Cuanto más tarde se descubra, mayores serán los daños.
24. Datos de Honeypot
Síntomas: Inclusión de información falsa en los datos recopilados
Causa: El sitio proporciona intencionalmente datos incorrectos a los bots
Frecuencia:
Dificultad de respuesta:
Es el método de defensa más astuto. Muestra precios diferentes, productos inexistentes solo a los bots. Es difícil detectar la contaminación de datos hasta que se comparen manualmente.
25. Contenido personalizado
Síntomas: Datos diferentes cada vez que se recopilan en la misma URL
Causa: Algoritmos de personalización, pruebas A/B, diferencias de precios por región
Frecuencia:
Dificultad de respuesta:
26. Problemas de codificación
Síntomas: Caracteres coreanos incorrectos, errores de caracteres especiales
Causa: Uso mixto de UTF-8 y EUC-KR, incompatibilidad de conjuntos de caracteres
Frecuencia: (Particularmente común en sitios coreanos)
Dificultad de respuesta:
Es común en antiguas tiendas en línea coreanas o sitios gubernamentales. Aún hay casos en los que la declaración de codificación en la cabecera de la página es UTF-8 pero el cuerpo real está en EUC-KR.
27. Desincronización de precios/inventarios dinámicos
Síntomas: Diferencia entre el precio recopilado y el precio mostrado
Causa: Cambios de precios en tiempo real, diferencias de precios por región/membresía
Frecuencia: (Esencial consideración para el comercio electrónico)
Dificultad de respuesta:
Costos reales de responder a fallas
¿Cuánto costaría responder a las 27 fallas?
Personal
| Rol | Nivel requerido | Salario (a partir de 2025) |
|---|---|---|
| Desarrollador senior de rastreadores | 5 años+ de experiencia, experiencia práctica en eludir bloqueos | 80,000,000 a 120,000,000 de wones |
| Ingeniero de infraestructura | Operación de servidores/proxies/monitoreo | 60,000,000 a 90,000,000 de wones |
Si tiene más de 5 rastreadores, al menos 1 debe ser dedicado exclusivamente al rastreo. Si se combina con otras funciones, la respuesta a las fallas se retrasará y se producirán lagunas en los datos.
Infraestructura
| Elemento | Costo mensual |
|---|---|
| Servidor (ejecución de rastreadores) | 500,000 a 2,000,000 de wones |
| Servicio de |




