2σ Guide

AI学習データと
著作権侵害の論点

企業法務・知財法務・AIガバナンス担当者向けに、学習データの取得、RAG、生成物の利用、契約、技術的統制、海外規制まで実務上の確認軸を整理します。

30条の4情報解析の中心規定
47条の5RAGで確認する軽微利用
7項目企業が採る基本方針
本ページは株式会社Dプロフェッションズ(医師/医療機関/弁護士/弁護士法人ではありません)が運営しています。
一般的な情報提供を目的としており医療上の助言や法律相談等を行うものではありません。
広告(PR)を掲載しています。広告は編集内容や推奨を意味しません。
Video

AI学習データと 著作権侵害の論点

生成AIを開発、導入、調達、運用する企業が、最初に押さえたい判断軸を整理します。

動画を読み込み中…
2σ GUIDE ・ VIDEO
AI学習データと 著作権侵害の論点
生成AIを開発、導入、調達、運用する企業が、最初に押さえたい判断軸を整理します。
動画の文字起こし(全文テキスト)

2σ GUIDE ・ VIDEO

  • AI学習データと 著作権侵害の論点
  • 生成AIを開発、導入、調達、運用する企業が、最初に押さえたい判断軸を整理します。

POINT 1

  • AI学習データと著作権侵害の論点の全体像
  • 生成AIを開発、導入、調達、運用する企業が、最初に押さえたい判断軸を整理します。
  • AI学習データは、学習と出力を分けて検討します
  • 取得元を説明できる状態にします
  • 学習と出力を分けて見ます

POINT 2

  • AI学習データと著作権侵害の論点で使う基本概念
  • 学習データ、著作物、複製、情報解析、RAG、類似性・依拠性を同じ地図の上で確認します。
  • 著作物と保護される表現
  • 複製、翻案、公衆送信として問題になる行為
  • 情報解析と非享受目的

POINT 3

  • AI学習データと著作権侵害の論点を日本法で整理する
  • 1. 利用目的を特定します:情報解析、モデル学習、検索、要約、顧客提供などを区別します。
  • 2. 表現の享受が併存するかを確認します:元文書の創作的表現をユーザーへ提供する設計かを見ます。
  • 3. ライセンスや表示量の見直しが必要です:RAG、要約、引用、再配信、アクセス制御を個別に確認します。
  • 4. 必要限度と市場影響を確認します:保存期間、取得元、海賊版混入、権利者市場への影響を見ます。

POINT 4

  • AI学習データと著作権侵害の論点は出力段階でも変わります
  • 創作的表現の類似
  • 文章、台詞、構図、キャラクター設定、画像の具体的構成が実質的に似ている場合、リスクが高まります。
  • 既存作品への依拠
  • 元作品を入力した場合、作品名や著作者名を指定した場合、モデルが当該表現を記憶していた場合に問題になります。

POINT 5

  • AI学習データと著作権侵害の論点で企業が見落としやすいリスク類型
  • 公開ウェブのクローリング
  • 著作権、利用規約、robots.txt、技術的アクセス制限、個人情報、営業秘密、海賊版混入を確認します。
  • 有料データベースや出版物
  • 新聞記事、学術論文、法律情報、電子書籍、写真素材、教育教材は、商用ライセンス市場を意識します。

POINT 6

  • AI学習データと著作権侵害の論点を米国・EUでも確認する
  • 米国フェアユース、EUのTDM例外、EU AI Actは、日本企業にも影響します。
  • フェアユース
  • 生成AI関連訴訟
  • TDM例外と権利留保

POINT 7

  • AI学習データと著作権侵害の論点を管理するガバナンス体制
  • 横断審査体制とデータプロヴェナンス台帳が、説明可能性の土台になります。
  • 企業は、AI学習データの利用を個別プロジェクト任せにせず、組織的なガバナンス体制として管理します。
  • 読者にとって重要なのは、法務だけで完結せず、技術、情報管理、事業、経営判断が一体で動く体制を読み取ることです。

POINT 8

  • AI学習データと著作権侵害の論点を契約で確認する
  • データ提供契約とAIベンダー契約では、機械学習特有の条項を確認します。
  • データ提供契約で確認したい事項
  • AIベンダー契約で確認したい事項
  • 読者にとって重要なのは、データを使える範囲と、モデル・出力・顧客提供に使える範囲を分けて読むことです。

まとめ

  • AI学習データと 著作権侵害の論点
  • AI学習データと著作権侵害の論点の全体像:生成AIを開発、導入、調達、運用する企業が、最初に押さえたい判断軸を整理します。
  • AI学習データと著作権侵害の論点で使う基本概念:学習データ、著作物、複製、情報解析、RAG、類似性・依拠性を同じ地図の上で確認します。
  • AI学習データと著作権侵害の論点を日本法で整理する:著作権法30条の4、47条の5、海賊版データ、必要限度、著作権者利益への影響を確認します。
  • 本動画は一般的な情報提供であり、法律上の助言ではありません。記載の数値・金額・期間は目安です。個別事情で結論は変わります。
Overview

AI学習データと著作権侵害の論点の全体像

生成AIを開発、導入、調達、運用する企業が、最初に押さえたい判断軸を整理します。

AI学習データと著作権侵害の論点は、企業法務、知財法務、コンプライアンス、AI・データガバナンス、内部監査、経営管理が共同で扱う実務課題です。日本法を中心に、米国・EUの制度や裁判例も踏まえ、生成AI・機械学習システムを開発、導入、調達、運用する場面で確認したい法的、契約的、技術的な観点を整理します。

このページは一般的な法情報を提供するものです。個別案件では、データの種類、入手経路、契約条件、学習方法、出力設計、提供地域、事業規模、権利者との関係、社内統制の有無によって結論が変わります。具体的な対応方針は、資料を整理したうえで弁護士、弁理士、企業内法務、知財担当、プライバシー担当、情報セキュリティ担当、データサイエンス部門、経営陣が連携して検討する必要があります。

以下の重要ポイントは、AI学習データと著作権侵害の論点を、学習段階、出力段階、契約・技術・統制の関係として示すものです。読者にとって重要なのは、単純な適法・違法の二分ではなく、どの段階で何を確認するかを読み取ることです。

AI学習データは、学習と出力を分けて検討します

日本法では情報解析目的の利用として著作権法30条の4が中心になりますが、RAG、類似出力、海賊版データ、契約違反、海外規制は別に確認します。

次の一覧は、企業実務で特に確認頻度が高い5つの論点を並べたものです。各項目は互いに独立せず、取得元の説明、出力管理、技術構成、契約統制、海外法対応が連動する点を読み取ることが重要です。

Point 01

取得元を説明できる状態にします

公開ウェブ上のデータでも、著作権、利用規約、海賊版混入、第三者権利の有無を確認します。

Point 02

学習と出力を分けて見ます

学習段階の権利制限規定と、出力段階の類似性・依拠性・利用行為は別の判断枠組みです。

Point 03

技術構成ごとにリスクを見ます

RAG、ファインチューニング、埋め込み検索、モデル蒸留、合成データでは、表現の保存や提示の態様が異なります。

Point 04

契約と統制を一体化します

著作権法だけでなく、ライセンス、API規約、秘密保持、個人情報、営業秘密、内部統制を合わせて設計します。

Point 05

海外展開の前提を確認します

米国フェアユース、EUのTDM例外、EU AI Actの汎用AIモデル規制は、国内開発でも問題になります。

Section 01

AI学習データと著作権侵害の論点で使う基本概念

学習データ、著作物、複製、情報解析、RAG、類似性・依拠性を同じ地図の上で確認します。

AI学習データとは、機械学習モデルの訓練、評価、調整、検証、検索拡張、プロンプト最適化などに利用されるデータの総称です。テキスト、画像、動画、音声、ソースコード、ウェブページ、論文、新聞記事、書籍、契約書、FAQ、社内文書、顧客対応履歴、ログデータ、センサーデータなどが含まれます。

次の表は、AI学習データを用途別に分類し、主な法務論点を対応させたものです。分類が曖昧なままでは契約確認や削除対応が難しくなるため、読者は自社データがどの行に近いかを読み取ることが重要です。

分類主な法務論点
事前学習データ大規模ウェブデータ、書籍、コード、画像著作権、利用規約、海賊版、越境法規制
追加学習データ顧客業界向け文書、専門データセットライセンス、秘密情報、個人情報、用途制限
ファインチューニングデータ社内FAQ、過去回答、契約書レビュー例契約上の再利用可否、第三者権利、品質管理
RAG用データ社内ナレッジ、規程、マニュアル、判例DB複製、公衆送信、引用、ライセンス、アクセス制御
評価データベンチマーク、テスト問題、正解データ問題文・解説の著作権、利用規約、漏えい
合成データAI生成テキスト、変換画像元データへの依拠、権利侵害の再生産、品質保証

著作物と保護される表現

著作物とは、思想又は感情を創作的に表現したものです。著作権法が保護するのは、アイデア、作風、事実、単なるデータ、技法、画風、文体、機能それ自体ではなく、創作的な表現です。特定作品の文章、構図、台詞、キャラクター造形、画像表現などの具体的表現を再現する場合、侵害問題が生じる可能性があります。

複製、翻案、公衆送信として問題になる行為

ウェブページやファイルの収集・保存、データのクレンジング、トークン化、ベクトル化、学習用データセットの保存、学習済みモデルや検索インデックスの生成、RAGによる文書断片の提示、生成AI出力の社外提供は、事案により複製、翻案、公衆送信、譲渡、貸与、翻訳等との関係が問題になります。ただし、形式的に複製に当たる場合でも、権利制限規定、ライセンス、黙示の許諾、契約上の許可によって適法と整理される場合があります。

情報解析と非享受目的

情報解析とは、大量の情報から傾向、相関、パターン、特徴量、統計的関係を抽出する行為を広く指します。AI学習では、文章や画像を人が鑑賞するためではなく、モデルが統計的特徴を学ぶために利用する場合があります。このような利用は、日本法では著作権法30条の4との関係で検討されます。

享受目的とは、著作物に表現された思想又は感情を、人が読んだり見たり聞いたりして味わう目的です。非享受目的とは、鑑賞ではなく、情報解析、検索、検証、技術的処理などの目的で利用することです。AI学習は非享受目的として整理されやすい一方、RAGシステムが既存著作物の表現をユーザーへ提供するために構築されている場合には、享受目的が併存していると評価される可能性があります。

RAG、ファインチューニング、埋め込みデータベース

RAGは、生成AIが回答を作る際に外部データベースから関連文書を検索し、その内容を参照する仕組みです。ファインチューニングは、既存モデルに特定用途や特定分野の追加データを用いて調整する仕組みです。埋め込みデータベースは、文書や画像を数値ベクトルに変換し、意味的に近い情報を検索できるようにしたデータベースです。表現がそのまま保存されるか、断片として復元できるか、検索結果として提示されるかによって法的評価が変わります。

類似性と依拠性

生成AIの出力が既存著作物に似ている場合、著作権侵害の判断では類似性と依拠性が重要です。類似性は、既存著作物の創作的表現とAI出力の創作的表現が実質的に似ていることです。依拠性は、AI出力が既存著作物に基づいて作成されたと評価できることです。ユーザーが既存作品を入力した場合、特定作家や作品を指定した場合、学習データに含まれていた作品をモデルが記憶していた場合などが問題になります。

Section 02

AI学習データと著作権侵害の論点を日本法で整理する

著作権法30条の4、47条の5、海賊版データ、必要限度、著作権者利益への影響を確認します。

日本のAI学習データをめぐる議論では、著作権法30条の4が中心的な検討対象になります。同条は、著作物に表現された思想又は感情の享受を目的としない利用について、一定範囲で著作物の利用を認める規定です。文化庁・文化審議会の整理でも、AI開発・学習段階における情報解析は、同条の対象となり得る典型的な場面として扱われています。

次の表は、30条の4を企業実務で確認しやすい4つの検討要素に分けたものです。読者にとって重要なのは、AI学習という名目だけで判断せず、目的、範囲、市場影響を順に確認することです。

検討要素実務上の問い
非享受目的データ利用の目的は、著作物の表現を人が鑑賞・利用することではなく、情報解析・モデル学習ですか。
享受目的の併存RAGやデータベースが、実質的に既存著作物の表現提供を目的としていませんか。
必要と認められる限度学習・検証に必要な範囲を超えて、不要な保存、複製、共有、再配布をしていませんか。
著作権者の利益ライセンス市場、データベース販売市場、海賊版流通、出力代替に不当な影響を与えていませんか。

30条の4は、AI学習なら何でも自由という規定ではありません。AI学習という技術目的があっても、同時に既存著作物の表現をユーザーに提示する目的がある場合や、権利者の正当な市場を実質的に侵害する場合には、同条の適用が否定される可能性があります。

次の判断の流れは、AI学習データの利用目的と出力設計を段階的に確認するものです。読者にとって重要なのは、最初に目的を見て、次に表現提供や市場代替の有無を確認する順番を読み取ることです。

AI学習データ利用の確認順序

利用目的を特定します

情報解析、モデル学習、検索、要約、顧客提供などを区別します。

表現の享受が併存するかを確認します

元文書の創作的表現をユーザーへ提供する設計かを見ます。

併存あり
ライセンスや表示量の見直しが必要です

RAG、要約、引用、再配信、アクセス制御を個別に確認します。

併存なし
必要限度と市場影響を確認します

保存期間、取得元、海賊版混入、権利者市場への影響を見ます。

非享受目的の境界

大量の文章や画像から統計的特徴を学習する場合、通常はその文章や画像を人が鑑賞するためではありません。しかし、有料記事や書籍を要約・再構成してユーザーに提供するRAG、特定作家の新作のような文章を生成するサービス、漫画・イラスト・写真集・楽譜・問題集の表現を再現する調整、元文書の大部分を検索結果として表示する設計、既存データベースの商品価値を代替するサービスでは、享受目的の併存が問題になります。

RAGと著作権法47条の5

RAGでは、AIが外部文書を検索し、その内容を回答生成に利用します。検索対象の文書が著作物であり、その一部がユーザーに表示される場合、著作権法47条の5の適用可能性が問題になります。同条は電子計算機による情報処理・検索等に関連して軽微利用を認める規定ですが、著作物の表現を提供すること自体を主目的とするサービスまで広く許容するものではありません。

RAGを設計する際には、社内利用、商用利用、AI利用、再配信、要約、引用、派生物作成が契約上許されているかを確認します。文書断片が代替提供になっていないか、引用量や要約の粒度が必要最小限か、文書全体を復元できないか、有料データベースや新聞記事などの市場を代替しないか、アクセス制御とログがあるかも重要です。

海賊版・無断転載データ

次の表は、海賊版や無断転載データの混入を防ぐための統制領域と具体策を示すものです。企業にとって重要なのは、外部データセットを買った場合でも説明責任が残るため、取得前、契約時、運用時、事故時の管理をつなげて読むことです。

統制領域具体策
取得元管理公式サイト、正規ライセンス、信頼できるデータプロバイダーを優先します。
除外管理海賊版サイト、シャドーライブラリ、無断転載サイト、権利侵害が疑われるドメインを除外します。
ベンダー管理データ提供者に取得元、権利処理、利用範囲、再許諾可否、補償条項を確認します。
証跡保存取得日時、URL、ライセンス文言、利用規約、同意記録、削除要請対応履歴を保存します。
技術的検査重複除去、既知海賊版データセットとの照合、フィンガープリント、出力再現性テストを行います。
事故対応権利者から申立てがあった場合の停止、削除、再学習、出力抑制、説明手順を整備します。

必要限度と著作権者の利益

AI学習では、大量データを用いること自体が技術的に必要となる場合があります。そのため、大量に複製した事実だけで直ちに必要限度を超えるとは限りません。一方で、学習目的に照らしたデータカテゴリーの必要性、特定著作者や特定媒体への過度な依存、保存期間、生データの削除・アクセス制限、開発環境と本番環境での不要な複製、外部委託先や海外拠点への移転根拠、個人情報・営業秘密の混在を説明できる状態が必要です。

30条の4のただし書では、著作権者の利益を不当に害するかが問題になります。AI学習用データベース市場を回避する大量利用、海賊版サイト由来データの利用、特定作品群の表現を再現できるほどの過度な学習、出力の市場代替、新聞・出版・写真・教育教材・法令判例データベース等の既存市場への影響は、慎重に確認する必要があります。

Section 03

AI学習データと著作権侵害の論点は出力段階でも変わります

学習段階で許容され得る場合でも、生成物の利用が別途問題になる可能性があります。

AI学習データに関する議論では、学習段階と出力段階が混同されやすいです。学習段階では、著作物を複製・変換・保存して情報解析に利用することの適法性が問題になります。出力段階では、AIが生成した文章、画像、音声、動画、コード等が既存著作物の創作的表現と実質的に類似し、既存著作物に依拠しているかが問題になります。

次の一覧は、出力段階で注意したい判断要素を示しています。企業にとって重要なのは、学習段階の整理だけで終わらせず、公開・販売・納品・広告利用の前に、似ている対象、共通部分、利用態様を読み分けることです。

創作的表現の類似

文章、台詞、構図、キャラクター設定、画像の具体的構成が実質的に似ている場合、リスクが高まります。

既存作品への依拠

元作品を入力した場合、作品名や著作者名を指定した場合、モデルが当該表現を記憶していた場合に問題になります。

市場代替としての利用

出力が既存作品やデータベースの代替物として流通する場合、権利者利益への影響が大きくなります。

利用主体の責任

出力を生成、選択、編集、公表、販売する企業は、AI利用者として責任を問われる場面があります。

類似性の判断

類似性判断では、既存著作物の保護される創作的表現がAI出力に再現されているかを検討します。テーマ、アイデア、事実関係、一般的な言い回し、ジャンル、作風、雰囲気、画風、色調、文体、レイアウトの抽象的特徴が似ているだけでは、通常は十分ではありません。一方、文章、台詞、構図、キャラクター設定、画像の具体的構成が実質的に似ている場合、既存作品の特徴的な創作的表現が連続して再現されている場合、元作品を変換・要約・翻訳・続編作成・画像化している場合には、リスクが高まります。

依拠性の判断

文化庁の整理では、AI利用者が既存著作物を認識したうえで生成AIを利用し、当該著作物に類似した出力を得た場合、依拠性が問題になり得ます。また、利用者が既存著作物を認識していなくても、当該著作物が学習データに含まれ、これに類似した出力が生成された場合には、依拠性が推認される余地があります。

企業実務では、著名作品、特定作家、商業キャラクター、第三者ブランドを模倣するプロンプトを禁止し、社外公開コンテンツでは人間による著作権レビューを行います。類似画像検索、テキスト類似度チェック、コード類似性検査、プロンプト・参照文書・出力・編集履歴の保存、権利者申立て時の削除・差替え・調査手順も有効です。

AI利用者とAI提供者の責任分担

通常、出力を生成し、選択し、編集し、公表し、販売する主体はAI利用者です。そのため、企業が生成AIを業務利用する場合、その企業自身が出力利用の責任を負う場面が多くなります。一方で、AIサービス提供者、モデル開発者、プラットフォーム運営者が、侵害出力を高頻度で生じさせる設計を認識しながら抑制措置を講じない場合や、侵害用途を誘導する場合には、提供者側の責任も問題になる可能性があります。

AIを調達する企業は、ベンダー契約で出力の権利保証、補償、禁止用途、ログ提供、フィルタリング、削除対応、学習データの説明、EU AI Act対応、第三者請求時の協力義務を確認します。

Section 04

AI学習データと著作権侵害の論点で企業が見落としやすいリスク類型

公開ウェブ、有料データベース、社内・顧客文書、ソースコード、特定作品群を分けて確認します。

AI学習データのリスクは、データの種類と取得元によって大きく変わります。次の一覧は、典型的なリスク類型を並べたものです。読者にとって重要なのは、同じAI利用でも、公開ウェブ、有料契約、社内文書、顧客文書、OSS、クリエイティブ領域で必要な確認が異なる点です。

公開ウェブのクローリング

著作権、利用規約、robots.txt、技術的アクセス制限、個人情報、営業秘密、海賊版混入を確認します。

有料データベースや出版物

新聞記事、学術論文、法律情報、電子書籍、写真素材、教育教材は、商用ライセンス市場を意識します。

社内文書や顧客文書

秘密情報、個人情報、営業秘密、目的外利用、再委託、クラウド利用、越境移転を確認します。

ソースコードとOSS

著作権、OSSライセンス、コピーレフト、帰属表示、ソース開示義務、特許ライセンスを確認します。

特定クリエイターや作品群

少数作品への過度な依存、作家名指定、特徴的表現の再現、ブランド表現の模倣に注意します。

ウェブクローリング型学習

公開ウェブをクローリングして学習データを収集する場合、著作権法上の情報解析目的が問題になるだけでなく、利用規約、技術的アクセス制限、不正アクセス、サーバー負荷、個人情報、営業秘密、外国法の問題も残ります。クローリング対象を限定し、禁止ドメインを除外し、ライセンス表示や利用規約を保存し、権利者からの除外申請窓口を設け、取得済みデータの削除・再学習・出力抑制を行える設計が重要です。

有料データベース・出版物・ニュース記事

新聞記事、学術論文、法律情報データベース、業界レポート、電子書籍、写真素材、教育教材、問題集などは、商用ライセンス市場が明確に存在することが多いです。契約が人間による閲覧・検索・業務利用を想定しており、機械学習、RAG、スクレイピング、API経由の大量取得、二次利用、顧客向けサービスへの組込みを禁止している場合があります。アクセスできることとAIに使えることは区別します。

社内文書・顧客文書

社内文書をAI学習やRAGに利用する場合、著作権だけでなく、秘密情報、個人情報、営業秘密、契約上の目的外利用、労務情報、インサイダー情報、輸出管理情報、医療・金融・通信等の秘密保持義務が問題になります。顧客から受領した文書、取引先提案書、委託成果物、共同研究データ、M&A資料、訴訟資料などは、社内に存在していても自由にAI学習へ使えるとは限りません。

ソースコード・OSS

ソースコードをAI学習データに含める場合、オープンソースライセンス、コピーレフト、帰属表示、ソース開示義務、特許ライセンス、セキュリティ脆弱性、秘密情報混入が問題になります。AIが生成したコードが既存OSSコードと類似する場合、ライセンス義務や著作権侵害、脆弱なコードの再生産を確認します。企業はOSSスキャン、類似コード検出、ライセンス遵守、開発者向け利用ルールを整備します。

特定クリエイター・特定作品群への過度な依存

特定作家、漫画家、イラストレーター、写真家、作曲家、企業のブランド表現などに過度に依存した学習は、出力段階の類似性・依拠性リスクを高めます。作風や画風が似ているだけで直ちに著作権侵害になるわけではありませんが、少数作品だけを集中的に学習し、その創作的表現を再現する場合には、享受目的や類似性の評価が厳しくなる可能性があります。

Section 05

AI学習データと著作権侵害の論点を米国・EUでも確認する

米国フェアユース、EUのTDM例外、EU AI Actは、日本企業にも影響します。

AI学習データの法的評価は国によって異なります。次の比較一覧は、米国とEUで企業が確認したい制度・訴訟の位置づけを示すものです。国際展開では、国内開発であっても提供先市場や利用データの出所によって外国法リスクが生じる点を読み取ることが重要です。

United States

フェアユース

利用目的・性質、著作物の性質、利用量・重要性、市場への影響という四要素を総合考慮します。

Cases

生成AI関連訴訟

Thomson Reuters v. Ross、Bartz v. Anthropic、Kadrey v. Metaでは、データ出所や市場影響が重要な争点になっています。

European Union

TDM例外と権利留保

DSM指令はテキスト・データマイニング例外を定めますが、一般TDMでは権利者の機械可読な留保が問題になります。

EU AI Act

汎用AIモデル提供者規制

著作権遵守方針、権利留保対応、学習コンテンツ概要の公表などが求められる可能性があります。

米国のフェアユースと主要訴訟

米国では、AI学習データの適法性をめぐってフェアユースが中心的な争点になります。Thomson Reuters v. Ross Intelligenceでは、法律情報サービスに関する著作物・データを競合サービス開発に利用したことが問題になり、変容性や潜在的なAI学習データ市場への影響が重視されました。Bartz v. Anthropicでは、購入した書籍等のデジタル化と海賊版サイト由来コピーの保持が分けて評価されました。Kadrey v. Metaでは、記録に基づいてMeta側のフェアユースが認められましたが、市場代替・市場希釈の証拠次第で異なる結論になり得ることが示唆されています。

EUのTDM例外とEU AI Act

EUでは、DSM指令によりテキスト・データマイニングに関する例外が定められています。研究機関等の科学研究目的TDMには一定の例外があり、一般のTDMについても適法にアクセス可能な著作物に対して例外が認められます。ただし、権利者が機械可読な方法など適切な方法で権利を留保した場合、一般TDM例外は適用されません。

EU AI Actは、汎用AIモデル提供者に対して、EU著作権法を遵守する方針、権利留保を識別・遵守する措置、学習に用いられたコンテンツの概要の公表を求めています。EU市場でモデルを提供する場合、学習がEU域外で行われたとしても、これらの義務が問題になる可能性があります。

Section 06

AI学習データと著作権侵害の論点を管理するガバナンス体制

横断審査体制とデータプロヴェナンス台帳が、説明可能性の土台になります。

企業は、AI学習データの利用を個別プロジェクト任せにせず、組織的なガバナンス体制として管理します。次の表は、関係部門と主な責任を整理したものです。読者にとって重要なのは、法務だけで完結せず、技術、情報管理、事業、経営判断が一体で動く体制を読み取ることです。

役割主な責任
企業内弁護士・法務担当法的リスク評価、契約審査、紛争対応、経営判断資料の作成
外部専門家高リスク案件、海外法、訴訟リスク、意見書作成
知財法務担当・弁理士著作権、商標、特許、ライセンス、権利処理
個人情報保護担当個人情報、越境移転、プライバシー影響評価
情報セキュリティ担当アクセス制御、ログ、暗号化、クラウド、秘密情報管理
コンプライアンス・内部監査社内規程、教育、違反対応、統制状況と証跡の検証
データサイエンス部門技術的必要性、データ処理、モデル評価、出力抑制
事業部門・経営陣利用目的、収益モデル、リスク許容度、社会的説明責任

次の表は、データプロヴェナンス台帳に記録したい項目を示すものです。台帳は形式書類ではなく、権利者照会、顧客質問、M&Aや資金調達でのデューデリジェンス、訴訟や行政対応における説明能力を支えるために重要です。

項目内容
データセット名社内で一意に識別できる名称
取得元・取得日URL、提供者、契約先、社内システム、取得・更新・削除の日時
データ種別テキスト、画像、音声、コード、ログ、個人情報等
権利情報著作権者、ライセンス、利用規約、権利留保、禁止事項
利用目的・範囲事前学習、評価、RAG、ファインチューニング、社内利用、商用提供等
保存場所・権限クラウド、オンプレミス、海外拠点、委託先、閲覧・編集・出力権限
削除可否・リスク評価削除、除外、再学習、出力抑制の可否、低・中・高の評価理由
証跡規約、契約、許諾、スクリーンショット、ログ
Section 07

AI学習データと著作権侵害の論点を契約で確認する

データ提供契約とAIベンダー契約では、機械学習特有の条項を確認します。

AI学習データの契約審査では、従来の利用許諾だけでなく、学習、RAG、ファインチューニング、評価、出力物、削除、補償、監査を確認します。次の一覧は、契約類型ごとの重点確認事項を示すものです。読者にとって重要なのは、データを使える範囲と、モデル・出力・顧客提供に使える範囲を分けて読むことです。

データ提供契約

権利者又は正当な権限者、AI学習・RAG・評価利用、商用利用、再配信、モデル組込み、派生物と出力物の権利関係を確認します。

権利処理補償

削除・利用停止条項

データ削除要求、オプトアウト、利用停止、更新停止、再学習、出力抑制に対応できるかを確認します。

運用証跡
AI

AIベンダー契約

入力データがベンダー学習に使われるか、保存期間、削除方法、出力補償、学習データ方針、EU AI Act対応を確認します。

調達責任分担

秘密情報・個人情報

個人情報、秘密情報、営業秘密が含まれる場合、処理条件、監査権、ログ提供、インシデント通知、再委託、越境移転を確認します。

情報管理委託先

データ提供契約で確認したい事項

  • データの著作権者又は正当な権限者が誰かを確認します。
  • AI学習、ファインチューニング、RAG、評価、ベンチマーク利用が明示的に許されているかを確認します。
  • 商用利用、顧客向けサービス、再配信、API提供、モデル組込みが許されているかを確認します。
  • 派生物、学習済みモデル、埋め込み、重み、特徴量、出力物の権利関係を確認します。
  • 第三者権利侵害に関する保証、補償、責任上限が十分かを確認します。

AIベンダー契約で確認したい事項

  • 入力データがベンダーのモデル学習に使われるかを確認します。
  • 入力・出力データの保存期間、削除方法、アクセス権限を確認します。
  • 出力物について第三者権利侵害の保証又は補償があるかを確認します。
  • 学習データの種類、取得方針、権利処理方針をどの程度開示できるかを確認します。
  • 禁止用途、プロンプト制限、コンテンツフィルタ、著作権フィルタがあるかを確認します。
Section 08

AI学習データと著作権侵害の論点を技術・運用で下げる

法務判断だけでなく、データ処理、ログ、類似性検査、アクセス制御を設計します。

AI学習データの著作権リスクは、法律意見だけでは低下しません。次の表は、主要リスクと技術的・運用的対応を対応させたものです。読者にとって重要なのは、どのデータを、どの範囲で使い、どの出力を抑制し、どのログを残すかを実務として読み取ることです。

リスク技術的・運用的対応
海賊版混入ドメイン除外、ハッシュ照合、既知侵害データセット照合、データ提供者監査
過学習・記憶重複除去、近似重複排除、memorizationテスト、長文再現テスト
類似出力類似度検索、画像逆検索、コードスキャン、出力レビュー
RAGによる過剰表示チャンクサイズ制限、連続取得制限、引用量制限、アクセス制御
権利者申立て削除手順、出力抑制、データセット除外、再学習計画
社内不正利用プロンプトポリシー、利用ログ、教育、承認の流れ
ベンダー依存契約監査、SLA、補償、代替手段、データエクスポート

次の表は、企業内承認で使いやすいリスク評価の例を示すものです。データ種別、取得元、利用目的を組み合わせると、低・中・高の判断理由が説明しやすくなります。

データ種別取得元利用目的リスク評価推奨対応
自社作成マニュアル社内社内RAG低から中機密区分とアクセス制御を確認します。
顧客提供資料顧客ファインチューニング契約上の目的外利用可否を確認し、原則として個別同意を検討します。
公開ウェブ記事ウェブ事前学習中から高規約、海賊版、権利留保、除外対応を確認します。
新聞記事DB有料契約RAG・要約AI利用許諾の明示確認が必要です。
OSSコードGitHub等コード生成モデル中から高ライセンス遵守と類似コード検出を行います。
写真素材素材サイト画像生成・評価中から高素材ライセンスのAI利用条項を確認します。
海賊版疑い書籍不明サイト事前学習極めて高利用を避け、隔離・削除・調査を行います。
Section 09

AI学習データと著作権侵害の論点で申立てを受けた場合

初動対応を整備しておくと、事実関係の保全と関係者説明がしやすくなります。

権利者から申立てを受けた場合、初動対応を誤ると、法的リスクだけでなく、顧客信頼、メディア対応、株主対応、規制当局対応に波及します。次の時系列は、申立て後に確認する順番を示すものです。読者にとって重要なのは、対象特定、ログ保全、一時停止、法的評価、関係者連携、再発防止を順番に進めることです。

Step 01

対象を特定します

申立て内容、対象著作物、対象出力、対象データセット、対象サービスを特定します。

Step 02

証跡を保全します

関連ログ、プロンプト、出力、モデルバージョン、RAG参照文書、取得元記録を保全します。

Step 03

一時停止を検討します

当該出力又は機能の一時停止、非表示、アクセス制限を検討します。

Step 04

法的・契約的根拠を評価します

類似性、依拠性、利用行為、抗弁、契約上の根拠、補償条項を確認します。

Step 05

是正策と説明を準備します

データ削除、出力抑制、再学習、フィルタ強化、交渉、ライセンス取得、顧客・取締役会への説明要否を検討します。

この対応では、訴訟・紛争担当、外部専門家、知財法務、広報、情報セキュリティ、データサイエンス、経営陣が連携します。ログやデータプロヴェナンスがないと、事実関係の説明が困難になり、交渉上も不利になります。

Section 10

AI学習データと著作権侵害の論点をAIガバナンスに組み込む

AI事業者ガイドラインと専門職ごとの視点を、社内規程・監査・経営判断へ接続します。

日本では、総務省・経済産業省によるAI事業者ガイドラインが整備されており、AIの開発者、提供者、利用者が安全性、公平性、透明性、アカウンタビリティ、人間中心、プライバシー、セキュリティ等の観点から行動することが求められています。著作権問題は、AIガバナンスの一部として位置づけます。

次の一覧は、AIガバナンス規程に含めたい項目をまとめたものです。読者にとって重要なのは、著作権だけを単独の注意事項にせず、入力、学習、出力、承認、ログ、教育、違反対応まで一体で読むことです。

Rule

目的と禁止用途

AI利用目的、禁止用途、高リスク用途の承認基準を明確にします。

Data

データ分類

学習データ、入力データ、出力データを分類し、著作権、商標、肖像、個人情報、営業秘密を確認します。

Review

出力物レビュー

外部公開、広告、製品、納品物、コード生成などのレビュー基準を定めます。

Audit

ログ保存と監査

利用ログ、承認記録、権利者申立て対応、社内教育、違反時対応を管理します。

専門職ごとの視点

弁護士・企業内弁護士・外部専門家は、著作権法上の侵害成否、権利制限規定、契約責任、不法行為、差止・損害賠償、訴訟リスク、海外法を総合的に評価します。弁理士・知財法務担当は、著作権だけでなく、商標、意匠、特許、ノウハウ、ライセンスの観点からAI利用を評価します。

コンプライアンス担当は社内規程、研修、通報制度、違反対応、業界ルールとの整合性を担います。内部監査担当は、AI利用台帳、データプロヴェナンス、承認証跡、契約遵守、アクセス権限、削除対応が実際に運用されているかを検証します。個人情報保護・情報セキュリティ担当は、匿名化、仮名化、アクセス制御、越境移転、委託先管理、漏えい対応を設計します。

経営陣・取締役会・監査役は、生成AIによる効率化や収益機会と、著作権侵害訴訟、サービス停止、顧客離反、レピュテーション毀損、規制対応コストを合わせて評価します。AI学習データリスクは、現場の法務問題にとどまらず、経営判断の問題です。

Section 11

AI学習データと著作権侵害の論点を確認するチェックリスト

利用前、RAG、出力、ベンダー選定の各場面で、確認漏れを減らします。

AI学習データ利用前チェック

  • 利用するデータの種類、取得元、権利者、契約条件を特定します。
  • 公開データ、有料データ、社内データ、顧客データを区別します。
  • 著作権法30条の4、47条の5、その他の権利制限規定の適用可能性を検討します。
  • 享受目的の併存、著作権者の利益への不当な影響、海賊版混入を確認します。
  • 利用規約、API規約、データ提供契約でAI学習が制限されていないかを確認します。
  • 個人情報、営業秘密、顧客秘密、未公開情報の混在を確認します。
  • 利用目的、保存期間、アクセス権限、削除方法を定め、台帳へ記録します。

RAG・社内検索AIチェック

  • 接続文書をAI検索・要約・回答生成に使う権限があるかを確認します。
  • ユーザーごとのアクセス権限が元システムと同等以上に制御されているかを確認します。
  • 出力が元文書の大部分を再現しない設計かを確認します。
  • 引用元表示、根拠表示、ログ保存、削除要求や文書更新の反映を確認します。
  • 有料データベースや第三者コンテンツを無断で接続していないかを確認します。

生成AI出力チェック

  • 既存著作物、著名キャラクター、ブランド、作家名を模倣する指示をしていないかを確認します。
  • 出力物が広告、出版、製品、納品物など外部利用されるかを確認します。
  • 類似性検索、レビュー、法務確認の対象にすべき高リスク出力かを確認します。
  • 出力の編集履歴、プロンプト、参照資料を保存します。
  • コード生成ではOSSライセンスチェックを行います。
  • 画像・音声・動画では肖像権、パブリシティ権、商標、意匠も確認します。

AIベンダー選定チェック

  • 入力データがベンダー学習に使われるかを確認します。
  • 学習データの取得方針、著作権方針、権利者対応方針が開示されているかを確認します。
  • 出力に関する補償、免責、責任上限が適切かを確認します。
  • 企業秘密や個人情報を入力できる契約・技術環境かを確認します。
  • ログ、監査、削除、アクセス制御、暗号化、サブプロセッサー管理が十分かを確認します。
  • EU AI Actその他の海外規制対応が必要かを確認します。
Section 12

AI学習データと著作権侵害の論点に関するよくある質問

企業で相談が多い論点を、一般的な制度説明として整理します。

Q1. インターネットで公開されているデータなら、AI学習に自由に使えますか。

一般的には、公開されていることと、著作権法上・契約上・倫理上自由に利用できることは同じではないとされています。公開ウェブには、権利者が公開したもの、第三者が無断転載したもの、利用規約で機械利用を制限しているもの、個人情報や秘密情報が含まれるものが混在します。具体的な利用可否は、取得元、規約、権利関係、利用目的、出力設計によって変わるため、資料を整理したうえで弁護士等の専門家へ相談する必要があります。

Q2. 日本ではAI学習が広く認められているため、権利処理は不要ですか。

一般的には、著作権法30条の4は重要な規定ですが、非享受目的、必要限度、ただし書などの制約があるとされています。契約、利用規約、個人情報、営業秘密、外国法、レピュテーションリスクは別に問題になります。企業実務では、法的に最低限可能かだけでなく、説明可能性と統制可能性を確認する必要があります。

Q3. 作風や画風を学習することは著作権侵害ですか。

一般的には、作風や画風という抽象的特徴は、それ自体が著作権法で保護されるわけではないとされています。ただし、特定作品の創作的表現が出力に再現される場合には、侵害問題が生じる可能性があります。少数の特定作品だけを集中的に学習し、その表現を再現するような場合には、享受目的、依拠性、類似性の評価でリスクが高まる可能性があります。

Q4. 出典を表示すればRAGで第三者記事を要約できますか。

一般的には、出典表示は透明性や引用判断で重要ですが、それだけで常に適法になるわけではないとされています。引用として認められるか、47条の5の軽微利用に当たるか、契約上許されているか、有料記事やデータベースの市場を代替していないかを確認する必要があります。

Q5. AIベンダーが著作権問題はないと説明していれば十分ですか。

一般的には、ベンダーの説明は重要な資料ですが、それだけで十分とは限らないとされています。契約上の保証、補償、責任上限、ログ提供、削除対応、学習データ方針、入力データの扱い、出力の利用条件を確認する必要があります。企業が出力を顧客向けサービスや広告・製品に利用する場合、自社にも責任が及ぶ可能性があります。

Q6. 学習済みモデルから問題データだけを削除できますか。

一般的には、データ削除、再学習、出力抑制、フィルタリング、モデル編集など複数の方法が考えられます。ただし、学習済みモデルから特定データの影響だけを完全に除去することは容易ではないとされています。事後対応だけに依存せず、取得段階でのデータ管理と権利処理を整える必要があります。

Q7. 研究開発目的なら商用企業でも安全ですか。

一般的には、研究開発目的であることはリスク評価上重要ですが、それだけで常に安全になるわけではないとされています。研究段階の内部利用か、商用サービス化を前提とする開発か、顧客データを使うか、第三者著作物を大量利用するか、外国市場で提供するかによって判断は変わります。

Section 13

AI学習データと著作権侵害の論点に対応する基本方針

AIの利活用と著作権保護を両立させるため、会社としての姿勢を明確にします。

AI学習データを、技術部門の素材ではなく、法務・知財・データガバナンス上の管理資産として位置づけます。データの由来、権利、契約、利用目的、保存場所、削除可能性を台帳化し、著作権法30条の4を理解しつつ、それだけに依存せず、契約・技術・運用を組み合わせます。

次の判断の流れは、企業が基本方針を社内運用へ落とし込む順番を示すものです。読者にとって重要なのは、権利者との対立だけを前提にせず、透明性、ライセンス、除外申請、共同開発、収益分配などの選択肢も含めて読むことです。

基本方針を運用へ落とし込む順序

管理資産として台帳化します

由来、契約、権利、目的、保存場所、削除可否を記録します。

高リスク用途を事前承認にします

RAG、ファインチューニング、出力公開、商用提供を重点確認します。

持続可能な関係構築を検討します

ライセンス、除外申請、共同開発、収益分配、透明性確保を検討します。

海外展開では、米国フェアユースやEUのTDM例外・EU AI Actを含めた多法域対応を行います。取締役会・経営陣は、AI利用のリスク許容度を明確にし、法務部門に過度な属人的判断を押し付けない体制を整えます。

AI学習データと著作権侵害の論点は、生成AI時代の企業法務における中核課題です。企業が目指すのは、リスクを無視した利用でも、リスクを理由にした全面停止でもありません。重要なのは、データの出所を説明できること、利用目的を限定できること、権利者の利益を不当に害しないこと、出力を管理できること、契約と技術でリスクを低減できること、問題発生時に迅速に対応できることです。

Reference

参考資料

AI学習データと著作権侵害の論点を整理する際に参照した、公的資料・法令・海外資料です。

日本法・公的資料

  • 文化庁「AIと著作権について」
  • 著作権法
  • 文化審議会著作権分科会法制度小委員会「AIと著作権に関する考え方について」
  • 総務省・経済産業省「AI事業者ガイドライン」関連資料
  • AI時代の知的財産権検討会「中間とりまとめ」

海外制度・裁判例

  • Directive (EU) 2019/790 on copyright and related rights in the Digital Single Market
  • Regulation (EU) 2024/1689, Artificial Intelligence Act
  • European Commission, template for General-Purpose AI model providers to summarise their training data
  • Thomson Reuters Enterprise Centre GmbH v. Ross Intelligence Inc.
  • Bartz v. Anthropic PBC
  • Kadrey v. Meta Platforms, Inc.
  • U.S. Copyright Office, Copyright and Artificial Intelligence, Part 3: Generative AI Training