"クローリングは違法だ" — まだこのように信じている方が多いです。
政府が公式回答を出しました。 "違います."
ウェブクローリングを業務に活用する企業であれば、法的リスクのためにデータ収集プロジェクトを保留した経験が一度はあるでしょう。競合他社は既に同じデータを収集しているのに、私たちだけがためらっているという感じです。
2026年2月26日、文化体育観光部・科学技術情報通信部・国家人工知能戦略委員会・韓国著作権委員会が共同で 「生成型人工知能の著作物学習に関する著作権法上の"公正利用"ガイドライン」 を発行しました。
このガイドラインの核心メッセージは明確です:
"商業的な目的やウェブ自動収集(クローリング)方式の学習であっても、公正利用から除外されるものではありません."
今回の記事では、このガイドラインの核心内容を ウェブクローリング実務者の視点 からまとめて提供いたします。
目次
- ガイドラインが出た背景
- 公正利用とは何か
- 公正利用4大判断基準
- クローリング事業者が知っておくべき核心ポイント
- 公正利用に該当しない場合
- 公正利用自己診断5項目
- 共同推進される政府政策
- FAQ
ガイドラインが出た背景
生成型AI時代に入ると、世界中で "AIが著作物を学習する行為" に関する法的論議が激しくなっています。アメリカではニューヨークタイムズがOpenAIを相手に訴訟を起こし、日本はAI学習に対して比較的寛容な立場を維持しています。
韓国でもAI企業、コンテンツクリエイター、データ収集事業者全てが "どこまでが適法か" について明確な基準を必要としました。
今回のガイドラインは文化体育部と著作権委員会が主導し、科学技術情報通信部・AI戦略委員会が共同で検討を経て作成された資料です。現場関係者、関係部署、専門家の幅広い意見を収集して発刊された点から信頼性が高いです。
公正利用とは何か
著作権法 第35条の5 に規定された公正利用(Fair Use)は、著作権者の許可なしにも著作物を利用できる法的例外規定です。2011年12月に導入されました。
簡単に言うと、 "すべての著作物利用が即座に著作権侵害ではない" という意味です。
公正利用が認められるためには以下の4つの要素を 総合的に 判断します。1つの要素だけでは結論が出ません。
公正利用4大判断基準
基準1: 利用の目的と性質
利用が 商業的 か 非営利的 かを見ます。
ガイドラインはここで重要な手掛かりを示しました:
"商業的な目的の利用であろうとも、それ自体が公正利用を否定するものではない."
"お金を稼ぐためにクローリングした = 違法" ではありません。
利用の目的が原著作物を置き換えるか、新しい価値を創出する 変容的利用(transformative use) かがより重要です。
また違法複製防止措置の有無、違法的アクセスの有無など 利用経緯と方法 もこの基準で一緒に考慮されます。
基準2: 著作物の種類と用途
利用される著作物が 事実情報 か 創作的表現 かを区別します。
- 事実情報 (ニュース記事のファクト、商品価格、レビュー評価など) → 公正利用認められやすい
- 高度の創作的表現 (小説、映画、美術、音楽など) → 公正利用認められにくい
- 未公表著作物 → 公表された著作物より不利に考慮
クローリングで収集するデータが主に価格情報、レビュー、商品仕様など 事実情報 に該当する場合、この基準では有利な位置にあります。
基準3: 利用された部分の量と比重
原著作物から どれだけの部分 を利用したかを見ます。
全体をそのまま複製すると不利に考慮されます。ただし、 利用目的上避けられないか必要な範囲内 で利用された場合は有利に考慮される余地があります。
基準4: 市場に及ぼす影響
最も重要な基準です。該当利用が 原著作物の市場価値を置き換えたり損なう かを判断します。
- クローリングしたデータを 分析目的 で活用 → 原著作物の市場を置き換えない
- クローリングしたコンテンツを そのまま再掲 → 原著作物の市場を直接置き換え → 公正利用否認可能性高い
著作物の販売損害、経済的損害、利用許可機会の喪失などが詳細に考慮されます。
クローリング事業者が知っておくべき核心ポイント
クローリング方式自体は公正利用判断に否定的要素ではありません
- ガイドラインは "ウェブ自動収集(クローリング)方式の学習であっても公正利用から除外されるものはない" と明記しました
- 収集方式ではなく、 収集したデータをどのように活用するか が重要です
商業的目的もそれ自体では問題ではありません
- ビジネス目的でデータを収集しても、原著作物の市場を置き換えない 変容的利用 であれば公正利用が認められる可能性があります
robots.txtと利用規約も考慮対象です
- 技術的保護措置(robots.txtなど)を無視して収集する行為は第1要素(利用経緯・方法)判断で不利に作用する可能性があります
- サイトのアクセス制限ポリシーを尊重することが法的リスクを減らす基本原則です
公正利用に該当しない場合
公正利用が 認められない可能性が高い 場合も明確に把握しておく必要があります。
- 収集したコンテンツを 原本そのまま再配布 する場合
- 原著作物の市場を直接置き換え するサービスを作る場合
- 技術的保護措置を回避してデータを収集する場合
- 高度の創作的著作物を大量に複製 して利用する場合
核心は "収集そのもの" がではなく "収集後の活用方法" にかかっている点です。
公正利用自己診断5項目
ウェブクローリングを業務に活用している場合は、以下の項目に該当する数を数えてみてください。
1. 収集したデータを 分析・加工目的 で活用している
2. 原本コンテンツを そのまま再掲しない
3. 対象サイトの robots.txtポリシー を確認している
4. 収集対象が主に 事実情報(価格、仕様、統計)である
5. 収集活動が対象サイトの 正常な運営を妨げない
4~5個該当: 今回のガイドライン基準で公正利用範囲内にある可能性が高いです。
2~3個該当: データ活用方法を点検してみることをお勧めします。
0~1個該当: 法律専門家に相談することをお勧めします。
共同推進される政府政策
今回のガイドラインは単独で発刊されたものではありません。関係部署が共同で推進する具体的支援政策も注目に値します。
- 公共ヌリ 'AI学習用'タイプ新設 (2026.1.28) — 公共著作物のAI学習活用基準が明確になりました
- AI学習用データ購入費R&D税額控除 — 学習データ確保費用負担が軽減されます
- 著作権委員会AI特化紛争調整窓口新設 — AI学習関連著作権紛争時専門相談・助言・調整を受けられます
- 学習用データ統合提供システム構築 — 権利情報確認にかかる取引費用が軽減されます
政府がガイドラインだけを出したのではなく、 AI産業と著作権のバランスを図る具体的制度整備 を同時に推進している点から意義が大きいです。
FAQ
Q. このガイドラインに法的拘束力がありますか?
A. いいえ。このガイドラインは ガイドライン 的性質で、裁判所の判決を代替しません。最終判断は具体的事実関係に基づいて裁判所が個別に判断します。ただし4つの機関(文化体育部・科学技術情報通信部・AI戦略委員会・著作権委員会)が共同発行した公式基準である点から、将来の紛争時参考資料として意義が大きいです。
Q. クローリングで収集したデータをAI学習に使えば適法ですか?
A. "適法だ/違法だ" と一概に断定できません。4大判断基準を 総合的に 審査する必要があり、特に収集したデータの性質と活用方法が重要です。
Q. ハッシュスクレイパーを通じて収集したデータも該当しますか?
A. ハッシュスクレイパーは 顧客が指定した公開ウェブデータを構造化して提供 するサービスです。収集されたデータの最終活用は顧客の責任であり、ほとんどの顧客は 市場分析、価格モニタリング、トレンド把握 など分析目的で活用しています。このような活用方法は今回のガイドラインの公正利用基準に適合する可能性が高いです。
Q. ガイドライン原文はどこで見られますか?
A. 韓国著作権委員会公式サイト(www.copyright.or.kr)で専門を確認できます。ガイドラインの正式名称は 「生成型人工知能の著作物学習に関する著作権法上の"公正利用"ガイドライン」 です。
"クローリングは違法" という漠然とした認識は、今や政府レベルで公式に修正されつつあります。
重要なのは 収集方式ではなく活用方法 です。
公開されたウェブデータを分析目的で収集し、原著作物の市場を置き換えない方法で活用すれば、公正利用の範囲内にある可能性が高いです。
データ収集に関連する法的疑問があれば、ハッシスクレイパーチームにいつでもお問い合わせ




