¿Es ilegal el web scraping?

No, según la guía del gobierno, el web scraping no es ilegal y puede estar bajo el uso justo.

¿Qué es el uso justo en el contexto del aprendizaje de IA?

El uso justo es una disposición legal que permite el uso de obras con fines comerciales o educativos sin infringir derechos de autor.

¿Qué criterios se deben considerar para el uso justo?

Los cuatro criterios principales del uso justo incluyen el propósito del uso, la naturaleza de la obra, la cantidad utilizada y el efecto en el mercado.

¿Qué deben saber los operadores de crawling sobre el uso justo?

Deben conocer los criterios del uso justo y realizar una autoevaluación para determinar la legalidad de su actividad.

¿Cuál es la postura del gobierno sobre el aprendizaje de IA?

El gobierno apoya el aprendizaje de IA y ha emitido directrices que aclaran que este puede estar bajo el uso justo.

¿Es realmente ilegal el web scraping y el aprendizaje de IA? - Resumen clave de la guía de uso justo del gobierno

"크롤링은 불법이다" — Todavía hay muchas personas que creen esto.
El gobierno ha dado una respuesta oficial. "No es así."

Si eres una empresa que utiliza web crawling en tus operaciones, es probable que hayas pospuesto proyectos de recopilación de datos debido a riesgos legales. Mientras tanto, la competencia ya está recopilando los mismos datos y parece que solo nosotros estamos dudando.

El 26 de febrero de 2026, el Ministerio de Cultura, Deportes y Turismo, el Ministerio de Ciencia y Tecnología de la Información y las Comunicaciones, la Comisión Nacional de Estrategia de Inteligencia Artificial y la Comisión de Derechos de Autor de Corea publicaron conjuntamente la guía titulada 「Guía sobre el "uso justo" de las obras de aprendizaje de inteligencia artificial generativa en términos de la ley de derechos de autor」.

El mensaje clave de esta guía es claro:

"Incluso el aprendizaje con fines comerciales o el método de recopilación automática en la web (crawling) no están excluidos del uso justo."

En este artículo, resumiremos el contenido clave de esta guía desde la perspectiva de los profesionales del web crawling.

Índice

Antecedentes de la guía
¿Qué es el uso justo?
Los 4 criterios principales del uso justo
Puntos clave que los operadores de crawling deben conocer
Casos en los que no se aplica el uso justo
Autoevaluación de 5 preguntas sobre el uso justo
Políticas gubernamentales en curso
Preguntas frecuentes

Antecedentes de la guía

Con la llegada de la era de la inteligencia artificial generativa, los debates legales sobre "el acto de aprendizaje de obras por parte de la IA" se han intensificado a nivel mundial. En Estados Unidos, The New York Times ha demandado a OpenAI, mientras que Japón mantiene una postura relativamente permisiva hacia el aprendizaje de IA.

En Corea, tanto las empresas de IA como los creadores de contenido y los operadores de recopilación de datos necesitaban criterios claros sobre "hasta dónde es aceptable".

Esta guía fue desarrollada por el Ministerio de Cultura, Deportes y Turismo y la Comisión de Derechos de Autor, con la revisión conjunta del Ministerio de Ciencia y Tecnología de la Información y las Comunicaciones y la Comisión de Estrategia de Inteligencia Artificial. Su alta confiabilidad se debe a la amplia recopilación de opiniones de profesionales del campo, agencias relacionadas y expertos antes de su publicación.

¿Qué es el uso justo?

El uso justo establecido en el artículo 35.5 de la ley de derechos de autor es una disposición legal de excepción que permite el uso de obras sin el permiso del titular de los derechos de autor. Fue introducido en diciembre de 2011.

En pocas palabras, significa que no todo uso de una obra constituye una infracción de derechos de autor.

Para que se reconozca el uso justo, se evalúan de manera integral los siguientes 4 elementos. No se puede llegar a una conclusión basándose en un solo elemento.

Los 4 criterios principales del uso justo

Criterio 1: Propósito y naturaleza del uso

Se considera si el uso es comercial o no comercial.

La guía incluye una cláusula importante aquí:

"Incluso si se trata de un uso con fines comerciales, esto no significa que el uso justo se excluya por sí solo."

No es ilegal hacer crawling para ganar dinero.

Lo más importante es si el propósito del uso es reemplazar la obra original o si es un uso transformador (transformative use) que crea nuevo valor.

Además, los detalles del uso, como las medidas de prevención de copias ilegales y el acceso ilegal, se consideran en este criterio.

Criterio 2: Tipo y propósito de la obra

Se distingue si la obra utilizada es información factual o expresión creativa.

Información factual (hechos de noticias, precios de productos, calificaciones de reseñas, etc.) → Mayor probabilidad de reconocimiento de uso justo
Expresión creativa intensa (novelas, películas, arte, música, etc.) → Se aplica un estándar más estricto para el reconocimiento de uso justo
Obras no publicadas → Se consideran de manera menos favorable que las obras publicadas

Si los datos recopilados a través del crawling son principalmente información factual como precios, reseñas, especificaciones de productos, están en una posición favorable según este criterio.

Criterio 3: Cantidad y proporción de la parte utilizada

Se evalúa cuánta parte de la obra original se utilizó.

Si se replica la obra completa, se considera desfavorable. Sin embargo, si se utiliza dentro del alcance necesario o inevitable para el propósito del uso, puede considerarse favorable.

Criterio 4: Impacto en el mercado

Este es el criterio más importante. Se evalúa si el uso afecta el valor de mercado de la obra original.

Utilizar los datos del crawling con fines de análisis no reemplaza el mercado de la obra original
Reutilizar el contenido del crawling tal cual → Reemplaza directamente el mercado de la obra original → Mayor probabilidad de no reconocimiento de uso justo

Se consideran pérdidas en ventas de obras, pérdidas económicas, pérdida de oportunidades de permiso de uso, entre otros aspectos detallados.

Puntos clave que los operadores de crawling deben conocer

El método de crawling en sí no es un factor negativo en la evaluación del uso justo

La guía especifica que "incluso el aprendizaje con el método de recopilación automática en la web no se excluye del uso justo"
Lo crucial no es el método de recopilación, sino cómo se utiliza la información recopilada

El propósito comercial en sí mismo no es un problema

Incluso al recopilar datos con fines comerciales, si se trata de un uso transformador que no reemplaza el mercado de la obra original, puede reconocerse como uso justo

robots.txt y los términos de uso también son consideraciones importantes

Ignorar medidas de protección técnica (como robots.txt) al recopilar datos puede afectar negativamente en el primer criterio (detalles del uso y método)
Respetar la política de acceso del sitio es un principio básico para reducir el riesgo legal

Casos en los que no se aplica el uso justo

Es importante conocer claramente los casos en los que es altamente probable que no se reconozca el uso justo.

Reutilizar los contenidos recopilados tal cual en su forma original
Crear servicios que reemplacen directamente el mercado de la obra original
Recopilar datos al evadir medidas de protección técnica
Replicar en masa obras creativas intensas

La clave está en que el éxito no radica en la "recopilación en sí misma", sino en "cómo se utiliza la información recopilada".

Autoevaluación de 5 preguntas sobre el uso justo

Si estás utilizando web crawling en tus operaciones, cuenta cuántos de los siguientes ítems se aplican.

Estás utilizando los datos recopilados con fines de análisis y procesamiento
No estás republicando directamente el contenido original
Estás verificando la política de robots.txt del sitio objetivo
Los datos recopilados son principalmente información factual (precios, especificaciones, estadísticas)
Tu actividad de recopilación no interfiere con el funcionamiento normal del sitio objetivo

4-5 ítems aplicables: Es probable que estés dentro del alcance del uso justo según esta guía.
2-3 ítems aplicables: Se recomienda revisar tu forma de utilizar los datos.
0-1 ítems aplicables: Se recomienda consultar a un experto legal.

Políticas gubernamentales en curso

Esta guía no se publicó de forma independiente. También es importante prestar atención a las políticas de apoyo práctico que las agencias relacionadas están implementando conjuntamente.

Establecimiento de un nuevo tipo de uso 'AI Learning' de contenido público (28 de enero de 2026) — Se han establecido criterios claros para el uso de aprendizaje de IA en obras públicas
Deducción fiscal para costos de compra de datos de aprendizaje de IA — Se reduce la carga de los costos de adquisición de datos de aprendizaje
Establecimiento de un centro de resolución de disputas especializado en AI por la Comisión de Derechos de Autor — Se ofrece asesoramiento, consultoría y resolución de disputas especializados en derechos de autor relacionados con el aprendizaje de IA
Establecimiento de un sistema de suministro integrado de datos de aprendizaje — Se reduce el costo de transacciones para verificar información de derechos

Es significativo que el gobierno esté promoviendo no solo la guía, sino también ajustes prácticos en los sistemas para equilibrar la industria de la IA y los derechos de autor.

Preguntas frecuentes

P. ¿Esta guía tiene fuerza legal?

No. Esta guía es de carácter informativo y no reemplaza las decisiones judiciales. La decisión final se basa en hechos específicos y es determinada individualmente por los tribunales. Sin embargo, dado que fue publicada conjuntamente por 4 instituciones (Ministerio de Cultura, Ministerio de Ciencia y Tecnología de la Información y las Comunicaciones, Comisión de Estrategia de IA, Comisión de Derechos de Autor), es un punto de referencia importante en caso de disputas futuras.

P. ¿Es legal utilizar datos recopilados mediante crawling para el aprendizaje de IA?

No se puede afirmar de manera definitiva si es "legal o ilegal". Debes revisar los 4 criterios principales de manera integral, especialmente considerando la naturaleza y el uso de los datos recopilados.

P. ¿Se aplica a los datos recopilados a través de HashScraper?

HashScraper es un servicio que estructura y proporciona datos web públicos especificados por el cliente. La responsabilidad final del uso de los datos recopilados recae en el cliente, y la mayoría de los clientes los utilizan para análisis de mercado, monitoreo de precios, identificación de tendencias, entre otros. Este tipo de uso es probablemente compatible con los criterios de uso justo de esta guía.

P. ¿Dónde puedo encontrar el texto original de la guía?

Puedes consultar el documento completo en el sitio oficial de la Comisión de Derechos de Autor de Corea (www.copyright.or.kr). El título oficial de la guía es "Guía sobre el 'uso justo' de las obras de aprendizaje de inteligencia artificial generativa en términos de la ley de derechos de autor".

La percepción vaga de que "el crawling es ilegal" está siendo corregida oficialmente a nivel gubernamental.

Lo importante es la forma en que se utiliza la información, no el método de recopilación.

Si recopilas datos web públicos con fines de análisis y los utilizas de una manera que no reemplace el mercado de la obra original, es probable que estés dentro del alcance del uso justo.

Si tienes dudas legales relacionadas con la recopilación de datos, no dudes en contactar al equipo de HashScraper en cualquier momento.