网络爬虫和人工智能学习真的违法吗?- 政府公平使用指南核心总结

文化体育观光部等4个机构共同发行的生成型AI著作物学习公平使用指南的核心内容已从网络爬虫实务者的角度整理。

217
网络爬虫和人工智能学习真的违法吗?- 政府公平使用指南核心总结

"爬虫是非法的" — 仍然有许多人相信这一点。
政府已经给出了官方答复。 "不是."

网络爬虫在业务中使用的公司,因为法律风险而不得不搁置数据收集项目的经历,想必大家都有过。竞争对手已经在收集相同的数据,而我们却犹豫不决。

2026年2月26日,文化体育观光部·科学技术信息通信部·国家人工智能战略委员会·韩国著作权委员会共同发布了 「生成型人工智能的作品学习的著作权法上"公平使用"指南」

这份指南的核心信息很明确:

"即使是商业目的或者网页自动收集(爬虫)方式的学习,也不被排除在公平使用之外。"

本文将从 网页爬虫实务人员的视角 对这份指南的核心内容进行整理。


目录

  • 指南发布背景
  • 什么是公平使用
  • 公平使用的4大判断标准
  • 爬虫业者需要了解的关键要点
  • 不符合公平使用的情况
  • 公平使用自我诊断5问题
  • 政府共同推动的政策
  • 常见问题解答

指南发布背景

进入生成型AI时代,全球范围内关于"AI学习作品"的法律争议日益激烈。在美国,纽约时报对OpenAI提起诉讼,而日本则相对宽容地看待AI学习。在韩国,AI公司、内容创作者、数据收集业者都需要明确"何时是合法"的明确标准。

这份指南由文化体育部和著作权委员会主导,科技通信部·AI战略委员会共同审查制定。经过现场相关人员、相关部门、专家广泛意见征集后发行,因此具有很高的可信度。

什么是公平使用

著作权法 第35条的5 规定的公平使用(Fair Use)是一项法律例外规定,允许在未经版权所有者许可的情况下使用作品。该规定于2011年12月引入。

简而言之,并非所有作品使用都构成侵权

要获得公平使用认可,需要 综合性地 考虑以下4个要素。单一要素本身并不能做出结论。

公平使用4大判断标准

标准1: 使用目的和性质

考虑使用是否 商业性非盈利性

指南在这里给出了重要线索:

"即使是商业目的的使用,也并非公平使用被否定。"

"为了赚钱而爬取数据 = 非法"并不正确。

使用的目的是替代原作品,还是创造新价值的 转换性使用 更为重要。

此外,非法复制防范措施,非法访问等 使用方式和方法 也将在此标准中一并考虑。

标准2: 作品类型和用途

区分使用的作品是 事实信息 还是 创作表达

  • 事实信息 (新闻文章事实,商品价格,评论评分等) → 公平使用可能性较高
  • 高度创造性表达 (小说,电影,艺术,音乐等) → 公平使用更为严格
  • 未公开作品 → 比公开作品更不利考虑

如果通过爬虫收集的数据主要是价格信息,评论,产品规格等 事实信息,则在这一标准下处于有利位置。

标准3: 使用部分的数量和比重

考虑使用了原作品的 多少部分

如果整体复制则会被视为不利考虑。但在 使用目的上不可避免或必要范围内 使用的情况下,可能会被有利考虑。

标准4: 对市场的影响

这是最重要的标准。判断该使用是否 替代或损害原作品的市场价值

  • 利用爬取的数据进行 分析目的 → 不替代原作品市场
  • 直接再发布爬取的内容 → 直接替代原作品市场 → 公平使用不被认可的可能性较高

考虑到作品销售损失,经济损失,使用许可机会丧失等具体细节。

爬虫业者需要了解的关键要点

爬取方式本身不是公平使用判断的负面因素

  • 指南明确指出"即使是网页自动收集(爬虫)方式的学习也不被排除在公平使用之外"
  • 关键在于 如何利用收集到的数据

商业目的本身也不是问题

  • 即使为了业务目的收集数据,只要不替代原作品市场的 转换性使用,就可以被认可为公平使用

robots.txt和使用条款也是考虑对象

  • 忽视技术保护措施(robots.txt等)进行收集的行为可能在第1要素(使用方式·方法)判断中不利
  • 尊重网站的访问限制政策是减少法律风险的基本原则

不符合公平使用的情况

需要明确了解 可能不被认可公平使用 的情况。

  • 直接重新分发收集的内容
  • 制作 直接替代原作品市场 的服务
  • 绕过技术保护措施 收集数据
  • 大量复制 高度创造性作品 进行使用

关键在于 "收集本身"而不是"收集后的使用方式"

公平使用自我诊断5问题

如果您正在将网络爬虫用于业务,请数一数以下项目是否适用。

  1. 正在使用收集的数据进行 分析·加工目的
  2. 不直接再发布原始内容
  3. 检查目标网站的 robots.txt策略
  4. 收集对象主要是 事实信息 (价格,规格,统计)
  5. 收集活动不会 干扰目标网站的正常运作

符合4~5个:根据本次指南,很可能在公平使用范围内。
符合2~3个:建议检查数据使用方式。
符合0~1个:建议咨询法律专家。

政府共同推动的政策

这份指南并非独立发布。相关部门共同推动的实质性支持政策也值得关注。

  • 公共利益 'AI学习用' 类型设立 (2026.1.28) — 公共作品的AI学习使用标准已明确
  • AI学习用数据购买成本R&D税收抵免 — 减轻学习数据获取成本
  • 著作权委员会AI专门争议解决窗口设立 — 在AI学习相关著作权争议时可以获得专业咨询、建议和调解
  • 学习用数据统一提供体系建设 — 减少权利信息确认的交易成本

政府不仅发布了指南,同时也在推动 AI产业和版权平衡的实质性制度完善,这一点非常重要。

FAQ

Q. 这份指南具有法律约束力吗?

不是。这份指南是 指导性 的,不取代法院的判决。最终判断将根据具体事实由法院单独作出。但由文化体育部·科技通信部·AI战略委员会·著作权委员会四个机构共同发布的官方标准,在未来争议时作为参考资料具有重要意义。

Q. 使用爬虫收集的数据用于AI学习是否合法?

不能简单地判断为"合法/非法"。需要 综合性地 考虑4大判断标准,特别是数据的性质和使用方式是关键。

Q. 通过哈希爬虫收集的数据是否适用?

哈希爬虫是一种服务,通过结构化提供客户指定的公开网络数据。收集的数据最终如何使用是客户的责任,大多数客户用于 市场分析,价格监控,趋势分析 等分析目的。这种使用方式很可能符合本次指南的公平使用标准。

Q. 如何查看指南原文?

您可以在韩国著作权委员会官方网站(www.copyright.or.kr)上查看全文。指南的正式名称是 「生成型人工智能的作品学习的著作权法上"公平使用"指南」


"爬虫是非法"这种模糊的认识,现在已经在政府层面得到正式纠正。

重要的是 收集方式而不是使用方式

如果您收集公开网络数据用于分析目的,并且使用方式不替代原作品市场,那么很可能在公平使用范围内。

如果您对数据收集相关的法律疑问,请随时与哈希爬虫团队联系。

Comments

Add Comment

Your email won't be published and will only be used for reply notifications.

继续阅读

Get notified of new posts

We'll email you when 해시스크래퍼 기술 블로그 publishes new content.

Your email will only be used for new post notifications.