"爬虫是非法的" — 仍然有许多人相信这一点。
政府已经给出了官方答复。 "不是."
网络爬虫在业务中使用的公司,因为法律风险而不得不搁置数据收集项目的经历,想必大家都有过。竞争对手已经在收集相同的数据,而我们却犹豫不决。
2026年2月26日,文化体育观光部·科学技术信息通信部·国家人工智能战略委员会·韩国著作权委员会共同发布了 「生成型人工智能的作品学习的著作权法上"公平使用"指南」。
这份指南的核心信息很明确:
"即使是商业目的或者网页自动收集(爬虫)方式的学习,也不被排除在公平使用之外。"
本文将从 网页爬虫实务人员的视角 对这份指南的核心内容进行整理。
目录
- 指南发布背景
- 什么是公平使用
- 公平使用的4大判断标准
- 爬虫业者需要了解的关键要点
- 不符合公平使用的情况
- 公平使用自我诊断5问题
- 政府共同推动的政策
- 常见问题解答
指南发布背景
进入生成型AI时代,全球范围内关于"AI学习作品"的法律争议日益激烈。在美国,纽约时报对OpenAI提起诉讼,而日本则相对宽容地看待AI学习。在韩国,AI公司、内容创作者、数据收集业者都需要明确"何时是合法"的明确标准。
这份指南由文化体育部和著作权委员会主导,科技通信部·AI战略委员会共同审查制定。经过现场相关人员、相关部门、专家广泛意见征集后发行,因此具有很高的可信度。
什么是公平使用
著作权法 第35条的5 规定的公平使用(Fair Use)是一项法律例外规定,允许在未经版权所有者许可的情况下使用作品。该规定于2011年12月引入。
简而言之,并非所有作品使用都构成侵权。
要获得公平使用认可,需要 综合性地 考虑以下4个要素。单一要素本身并不能做出结论。
公平使用4大判断标准
标准1: 使用目的和性质
考虑使用是否 商业性 或 非盈利性。
指南在这里给出了重要线索:
"即使是商业目的的使用,也并非公平使用被否定。"
"为了赚钱而爬取数据 = 非法"并不正确。
使用的目的是替代原作品,还是创造新价值的 转换性使用 更为重要。
此外,非法复制防范措施,非法访问等 使用方式和方法 也将在此标准中一并考虑。
标准2: 作品类型和用途
区分使用的作品是 事实信息 还是 创作表达。
- 事实信息 (新闻文章事实,商品价格,评论评分等) → 公平使用可能性较高
- 高度创造性表达 (小说,电影,艺术,音乐等) → 公平使用更为严格
- 未公开作品 → 比公开作品更不利考虑
如果通过爬虫收集的数据主要是价格信息,评论,产品规格等 事实信息,则在这一标准下处于有利位置。
标准3: 使用部分的数量和比重
考虑使用了原作品的 多少部分。
如果整体复制则会被视为不利考虑。但在 使用目的上不可避免或必要范围内 使用的情况下,可能会被有利考虑。
标准4: 对市场的影响
这是最重要的标准。判断该使用是否 替代或损害原作品的市场价值。
- 利用爬取的数据进行 分析目的 → 不替代原作品市场
- 直接再发布爬取的内容 → 直接替代原作品市场 → 公平使用不被认可的可能性较高
考虑到作品销售损失,经济损失,使用许可机会丧失等具体细节。
爬虫业者需要了解的关键要点
爬取方式本身不是公平使用判断的负面因素
- 指南明确指出"即使是网页自动收集(爬虫)方式的学习也不被排除在公平使用之外"
- 关键在于 如何利用收集到的数据
商业目的本身也不是问题
- 即使为了业务目的收集数据,只要不替代原作品市场的 转换性使用,就可以被认可为公平使用
robots.txt和使用条款也是考虑对象
- 忽视技术保护措施(robots.txt等)进行收集的行为可能在第1要素(使用方式·方法)判断中不利
- 尊重网站的访问限制政策是减少法律风险的基本原则
不符合公平使用的情况
需要明确了解 可能不被认可公平使用 的情况。
- 直接重新分发收集的内容
- 制作 直接替代原作品市场 的服务
- 绕过技术保护措施 收集数据
- 大量复制 高度创造性作品 进行使用
关键在于 "收集本身"而不是"收集后的使用方式"。
公平使用自我诊断5问题
如果您正在将网络爬虫用于业务,请数一数以下项目是否适用。
- 正在使用收集的数据进行 分析·加工目的
- 不直接再发布原始内容
- 检查目标网站的 robots.txt策略
- 收集对象主要是 事实信息 (价格,规格,统计)
- 收集活动不会 干扰目标网站的正常运作
符合4~5个:根据本次指南,很可能在公平使用范围内。
符合2~3个:建议检查数据使用方式。
符合0~1个:建议咨询法律专家。
政府共同推动的政策
这份指南并非独立发布。相关部门共同推动的实质性支持政策也值得关注。
- 公共利益 'AI学习用' 类型设立 (2026.1.28) — 公共作品的AI学习使用标准已明确
- AI学习用数据购买成本R&D税收抵免 — 减轻学习数据获取成本
- 著作权委员会AI专门争议解决窗口设立 — 在AI学习相关著作权争议时可以获得专业咨询、建议和调解
- 学习用数据统一提供体系建设 — 减少权利信息确认的交易成本
政府不仅发布了指南,同时也在推动 AI产业和版权平衡的实质性制度完善,这一点非常重要。
FAQ
Q. 这份指南具有法律约束力吗?
不是。这份指南是 指导性 的,不取代法院的判决。最终判断将根据具体事实由法院单独作出。但由文化体育部·科技通信部·AI战略委员会·著作权委员会四个机构共同发布的官方标准,在未来争议时作为参考资料具有重要意义。
Q. 使用爬虫收集的数据用于AI学习是否合法?
不能简单地判断为"合法/非法"。需要 综合性地 考虑4大判断标准,特别是数据的性质和使用方式是关键。
Q. 通过哈希爬虫收集的数据是否适用?
哈希爬虫是一种服务,通过结构化提供客户指定的公开网络数据。收集的数据最终如何使用是客户的责任,大多数客户用于 市场分析,价格监控,趋势分析 等分析目的。这种使用方式很可能符合本次指南的公平使用标准。
Q. 如何查看指南原文?
您可以在韩国著作权委员会官方网站(www.copyright.or.kr)上查看全文。指南的正式名称是 「生成型人工智能的作品学习的著作权法上"公平使用"指南」。
"爬虫是非法"这种模糊的认识,现在已经在政府层面得到正式纠正。
重要的是 收集方式而不是使用方式。
如果您收集公开网络数据用于分析目的,并且使用方式不替代原作品市场,那么很可能在公平使用范围内。
如果您对数据收集相关的法律疑问,请随时与哈希爬虫团队联系。




