企業法務・知財法務・AIガバナンス担当者向けに、学習データの取得、RAG、生成物の利用、契約、技術的統制、海外規制まで実務上の確認軸を整理します。
生成AIを開発、導入、調達、運用する企業が、最初に押さえたい判断軸を整理します。
生成AIを開発、導入、調達、運用する企業が、最初に押さえたい判断軸を整理します。
AI学習データと著作権侵害の論点は、企業法務、知財法務、コンプライアンス、AI・データガバナンス、内部監査、経営管理が共同で扱う実務課題です。日本法を中心に、米国・EUの制度や裁判例も踏まえ、生成AI・機械学習システムを開発、導入、調達、運用する場面で確認したい法的、契約的、技術的な観点を整理します。
このページは一般的な法情報を提供するものです。個別案件では、データの種類、入手経路、契約条件、学習方法、出力設計、提供地域、事業規模、権利者との関係、社内統制の有無によって結論が変わります。具体的な対応方針は、資料を整理したうえで弁護士、弁理士、企業内法務、知財担当、プライバシー担当、情報セキュリティ担当、データサイエンス部門、経営陣が連携して検討する必要があります。
以下の重要ポイントは、AI学習データと著作権侵害の論点を、学習段階、出力段階、契約・技術・統制の関係として示すものです。読者にとって重要なのは、単純な適法・違法の二分ではなく、どの段階で何を確認するかを読み取ることです。
日本法では情報解析目的の利用として著作権法30条の4が中心になりますが、RAG、類似出力、海賊版データ、契約違反、海外規制は別に確認します。
次の一覧は、企業実務で特に確認頻度が高い5つの論点を並べたものです。各項目は互いに独立せず、取得元の説明、出力管理、技術構成、契約統制、海外法対応が連動する点を読み取ることが重要です。
学習段階の権利制限規定と、出力段階の類似性・依拠性・利用行為は別の判断枠組みです。
RAG、ファインチューニング、埋め込み検索、モデル蒸留、合成データでは、表現の保存や提示の態様が異なります。
著作権法だけでなく、ライセンス、API規約、秘密保持、個人情報、営業秘密、内部統制を合わせて設計します。
米国フェアユース、EUのTDM例外、EU AI Actの汎用AIモデル規制は、国内開発でも問題になります。
学習データ、著作物、複製、情報解析、RAG、類似性・依拠性を同じ地図の上で確認します。
AI学習データとは、機械学習モデルの訓練、評価、調整、検証、検索拡張、プロンプト最適化などに利用されるデータの総称です。テキスト、画像、動画、音声、ソースコード、ウェブページ、論文、新聞記事、書籍、契約書、FAQ、社内文書、顧客対応履歴、ログデータ、センサーデータなどが含まれます。
次の表は、AI学習データを用途別に分類し、主な法務論点を対応させたものです。分類が曖昧なままでは契約確認や削除対応が難しくなるため、読者は自社データがどの行に近いかを読み取ることが重要です。
| 分類 | 例 | 主な法務論点 |
|---|---|---|
| 事前学習データ | 大規模ウェブデータ、書籍、コード、画像 | 著作権、利用規約、海賊版、越境法規制 |
| 追加学習データ | 顧客業界向け文書、専門データセット | ライセンス、秘密情報、個人情報、用途制限 |
| ファインチューニングデータ | 社内FAQ、過去回答、契約書レビュー例 | 契約上の再利用可否、第三者権利、品質管理 |
| RAG用データ | 社内ナレッジ、規程、マニュアル、判例DB | 複製、公衆送信、引用、ライセンス、アクセス制御 |
| 評価データ | ベンチマーク、テスト問題、正解データ | 問題文・解説の著作権、利用規約、漏えい |
| 合成データ | AI生成テキスト、変換画像 | 元データへの依拠、権利侵害の再生産、品質保証 |
著作物とは、思想又は感情を創作的に表現したものです。著作権法が保護するのは、アイデア、作風、事実、単なるデータ、技法、画風、文体、機能それ自体ではなく、創作的な表現です。特定作品の文章、構図、台詞、キャラクター造形、画像表現などの具体的表現を再現する場合、侵害問題が生じる可能性があります。
ウェブページやファイルの収集・保存、データのクレンジング、トークン化、ベクトル化、学習用データセットの保存、学習済みモデルや検索インデックスの生成、RAGによる文書断片の提示、生成AI出力の社外提供は、事案により複製、翻案、公衆送信、譲渡、貸与、翻訳等との関係が問題になります。ただし、形式的に複製に当たる場合でも、権利制限規定、ライセンス、黙示の許諾、契約上の許可によって適法と整理される場合があります。
情報解析とは、大量の情報から傾向、相関、パターン、特徴量、統計的関係を抽出する行為を広く指します。AI学習では、文章や画像を人が鑑賞するためではなく、モデルが統計的特徴を学ぶために利用する場合があります。このような利用は、日本法では著作権法30条の4との関係で検討されます。
享受目的とは、著作物に表現された思想又は感情を、人が読んだり見たり聞いたりして味わう目的です。非享受目的とは、鑑賞ではなく、情報解析、検索、検証、技術的処理などの目的で利用することです。AI学習は非享受目的として整理されやすい一方、RAGシステムが既存著作物の表現をユーザーへ提供するために構築されている場合には、享受目的が併存していると評価される可能性があります。
RAGは、生成AIが回答を作る際に外部データベースから関連文書を検索し、その内容を参照する仕組みです。ファインチューニングは、既存モデルに特定用途や特定分野の追加データを用いて調整する仕組みです。埋め込みデータベースは、文書や画像を数値ベクトルに変換し、意味的に近い情報を検索できるようにしたデータベースです。表現がそのまま保存されるか、断片として復元できるか、検索結果として提示されるかによって法的評価が変わります。
生成AIの出力が既存著作物に似ている場合、著作権侵害の判断では類似性と依拠性が重要です。類似性は、既存著作物の創作的表現とAI出力の創作的表現が実質的に似ていることです。依拠性は、AI出力が既存著作物に基づいて作成されたと評価できることです。ユーザーが既存作品を入力した場合、特定作家や作品を指定した場合、学習データに含まれていた作品をモデルが記憶していた場合などが問題になります。
著作権法30条の4、47条の5、海賊版データ、必要限度、著作権者利益への影響を確認します。
日本のAI学習データをめぐる議論では、著作権法30条の4が中心的な検討対象になります。同条は、著作物に表現された思想又は感情の享受を目的としない利用について、一定範囲で著作物の利用を認める規定です。文化庁・文化審議会の整理でも、AI開発・学習段階における情報解析は、同条の対象となり得る典型的な場面として扱われています。
次の表は、30条の4を企業実務で確認しやすい4つの検討要素に分けたものです。読者にとって重要なのは、AI学習という名目だけで判断せず、目的、範囲、市場影響を順に確認することです。
| 検討要素 | 実務上の問い |
|---|---|
| 非享受目的 | データ利用の目的は、著作物の表現を人が鑑賞・利用することではなく、情報解析・モデル学習ですか。 |
| 享受目的の併存 | RAGやデータベースが、実質的に既存著作物の表現提供を目的としていませんか。 |
| 必要と認められる限度 | 学習・検証に必要な範囲を超えて、不要な保存、複製、共有、再配布をしていませんか。 |
| 著作権者の利益 | ライセンス市場、データベース販売市場、海賊版流通、出力代替に不当な影響を与えていませんか。 |
30条の4は、AI学習なら何でも自由という規定ではありません。AI学習という技術目的があっても、同時に既存著作物の表現をユーザーに提示する目的がある場合や、権利者の正当な市場を実質的に侵害する場合には、同条の適用が否定される可能性があります。
次の判断の流れは、AI学習データの利用目的と出力設計を段階的に確認するものです。読者にとって重要なのは、最初に目的を見て、次に表現提供や市場代替の有無を確認する順番を読み取ることです。
情報解析、モデル学習、検索、要約、顧客提供などを区別します。
元文書の創作的表現をユーザーへ提供する設計かを見ます。
RAG、要約、引用、再配信、アクセス制御を個別に確認します。
保存期間、取得元、海賊版混入、権利者市場への影響を見ます。
大量の文章や画像から統計的特徴を学習する場合、通常はその文章や画像を人が鑑賞するためではありません。しかし、有料記事や書籍を要約・再構成してユーザーに提供するRAG、特定作家の新作のような文章を生成するサービス、漫画・イラスト・写真集・楽譜・問題集の表現を再現する調整、元文書の大部分を検索結果として表示する設計、既存データベースの商品価値を代替するサービスでは、享受目的の併存が問題になります。
RAGでは、AIが外部文書を検索し、その内容を回答生成に利用します。検索対象の文書が著作物であり、その一部がユーザーに表示される場合、著作権法47条の5の適用可能性が問題になります。同条は電子計算機による情報処理・検索等に関連して軽微利用を認める規定ですが、著作物の表現を提供すること自体を主目的とするサービスまで広く許容するものではありません。
RAGを設計する際には、社内利用、商用利用、AI利用、再配信、要約、引用、派生物作成が契約上許されているかを確認します。文書断片が代替提供になっていないか、引用量や要約の粒度が必要最小限か、文書全体を復元できないか、有料データベースや新聞記事などの市場を代替しないか、アクセス制御とログがあるかも重要です。
次の表は、海賊版や無断転載データの混入を防ぐための統制領域と具体策を示すものです。企業にとって重要なのは、外部データセットを買った場合でも説明責任が残るため、取得前、契約時、運用時、事故時の管理をつなげて読むことです。
| 統制領域 | 具体策 |
|---|---|
| 取得元管理 | 公式サイト、正規ライセンス、信頼できるデータプロバイダーを優先します。 |
| 除外管理 | 海賊版サイト、シャドーライブラリ、無断転載サイト、権利侵害が疑われるドメインを除外します。 |
| ベンダー管理 | データ提供者に取得元、権利処理、利用範囲、再許諾可否、補償条項を確認します。 |
| 証跡保存 | 取得日時、URL、ライセンス文言、利用規約、同意記録、削除要請対応履歴を保存します。 |
| 技術的検査 | 重複除去、既知海賊版データセットとの照合、フィンガープリント、出力再現性テストを行います。 |
| 事故対応 | 権利者から申立てがあった場合の停止、削除、再学習、出力抑制、説明手順を整備します。 |
AI学習では、大量データを用いること自体が技術的に必要となる場合があります。そのため、大量に複製した事実だけで直ちに必要限度を超えるとは限りません。一方で、学習目的に照らしたデータカテゴリーの必要性、特定著作者や特定媒体への過度な依存、保存期間、生データの削除・アクセス制限、開発環境と本番環境での不要な複製、外部委託先や海外拠点への移転根拠、個人情報・営業秘密の混在を説明できる状態が必要です。
30条の4のただし書では、著作権者の利益を不当に害するかが問題になります。AI学習用データベース市場を回避する大量利用、海賊版サイト由来データの利用、特定作品群の表現を再現できるほどの過度な学習、出力の市場代替、新聞・出版・写真・教育教材・法令判例データベース等の既存市場への影響は、慎重に確認する必要があります。
学習段階で許容され得る場合でも、生成物の利用が別途問題になる可能性があります。
AI学習データに関する議論では、学習段階と出力段階が混同されやすいです。学習段階では、著作物を複製・変換・保存して情報解析に利用することの適法性が問題になります。出力段階では、AIが生成した文章、画像、音声、動画、コード等が既存著作物の創作的表現と実質的に類似し、既存著作物に依拠しているかが問題になります。
次の一覧は、出力段階で注意したい判断要素を示しています。企業にとって重要なのは、学習段階の整理だけで終わらせず、公開・販売・納品・広告利用の前に、似ている対象、共通部分、利用態様を読み分けることです。
文章、台詞、構図、キャラクター設定、画像の具体的構成が実質的に似ている場合、リスクが高まります。
元作品を入力した場合、作品名や著作者名を指定した場合、モデルが当該表現を記憶していた場合に問題になります。
出力が既存作品やデータベースの代替物として流通する場合、権利者利益への影響が大きくなります。
出力を生成、選択、編集、公表、販売する企業は、AI利用者として責任を問われる場面があります。
類似性判断では、既存著作物の保護される創作的表現がAI出力に再現されているかを検討します。テーマ、アイデア、事実関係、一般的な言い回し、ジャンル、作風、雰囲気、画風、色調、文体、レイアウトの抽象的特徴が似ているだけでは、通常は十分ではありません。一方、文章、台詞、構図、キャラクター設定、画像の具体的構成が実質的に似ている場合、既存作品の特徴的な創作的表現が連続して再現されている場合、元作品を変換・要約・翻訳・続編作成・画像化している場合には、リスクが高まります。
文化庁の整理では、AI利用者が既存著作物を認識したうえで生成AIを利用し、当該著作物に類似した出力を得た場合、依拠性が問題になり得ます。また、利用者が既存著作物を認識していなくても、当該著作物が学習データに含まれ、これに類似した出力が生成された場合には、依拠性が推認される余地があります。
企業実務では、著名作品、特定作家、商業キャラクター、第三者ブランドを模倣するプロンプトを禁止し、社外公開コンテンツでは人間による著作権レビューを行います。類似画像検索、テキスト類似度チェック、コード類似性検査、プロンプト・参照文書・出力・編集履歴の保存、権利者申立て時の削除・差替え・調査手順も有効です。
通常、出力を生成し、選択し、編集し、公表し、販売する主体はAI利用者です。そのため、企業が生成AIを業務利用する場合、その企業自身が出力利用の責任を負う場面が多くなります。一方で、AIサービス提供者、モデル開発者、プラットフォーム運営者が、侵害出力を高頻度で生じさせる設計を認識しながら抑制措置を講じない場合や、侵害用途を誘導する場合には、提供者側の責任も問題になる可能性があります。
AIを調達する企業は、ベンダー契約で出力の権利保証、補償、禁止用途、ログ提供、フィルタリング、削除対応、学習データの説明、EU AI Act対応、第三者請求時の協力義務を確認します。
公開ウェブ、有料データベース、社内・顧客文書、ソースコード、特定作品群を分けて確認します。
AI学習データのリスクは、データの種類と取得元によって大きく変わります。次の一覧は、典型的なリスク類型を並べたものです。読者にとって重要なのは、同じAI利用でも、公開ウェブ、有料契約、社内文書、顧客文書、OSS、クリエイティブ領域で必要な確認が異なる点です。
著作権、利用規約、robots.txt、技術的アクセス制限、個人情報、営業秘密、海賊版混入を確認します。
新聞記事、学術論文、法律情報、電子書籍、写真素材、教育教材は、商用ライセンス市場を意識します。
秘密情報、個人情報、営業秘密、目的外利用、再委託、クラウド利用、越境移転を確認します。
著作権、OSSライセンス、コピーレフト、帰属表示、ソース開示義務、特許ライセンスを確認します。
少数作品への過度な依存、作家名指定、特徴的表現の再現、ブランド表現の模倣に注意します。
公開ウェブをクローリングして学習データを収集する場合、著作権法上の情報解析目的が問題になるだけでなく、利用規約、技術的アクセス制限、不正アクセス、サーバー負荷、個人情報、営業秘密、外国法の問題も残ります。クローリング対象を限定し、禁止ドメインを除外し、ライセンス表示や利用規約を保存し、権利者からの除外申請窓口を設け、取得済みデータの削除・再学習・出力抑制を行える設計が重要です。
新聞記事、学術論文、法律情報データベース、業界レポート、電子書籍、写真素材、教育教材、問題集などは、商用ライセンス市場が明確に存在することが多いです。契約が人間による閲覧・検索・業務利用を想定しており、機械学習、RAG、スクレイピング、API経由の大量取得、二次利用、顧客向けサービスへの組込みを禁止している場合があります。アクセスできることとAIに使えることは区別します。
社内文書をAI学習やRAGに利用する場合、著作権だけでなく、秘密情報、個人情報、営業秘密、契約上の目的外利用、労務情報、インサイダー情報、輸出管理情報、医療・金融・通信等の秘密保持義務が問題になります。顧客から受領した文書、取引先提案書、委託成果物、共同研究データ、M&A資料、訴訟資料などは、社内に存在していても自由にAI学習へ使えるとは限りません。
ソースコードをAI学習データに含める場合、オープンソースライセンス、コピーレフト、帰属表示、ソース開示義務、特許ライセンス、セキュリティ脆弱性、秘密情報混入が問題になります。AIが生成したコードが既存OSSコードと類似する場合、ライセンス義務や著作権侵害、脆弱なコードの再生産を確認します。企業はOSSスキャン、類似コード検出、ライセンス遵守、開発者向け利用ルールを整備します。
特定作家、漫画家、イラストレーター、写真家、作曲家、企業のブランド表現などに過度に依存した学習は、出力段階の類似性・依拠性リスクを高めます。作風や画風が似ているだけで直ちに著作権侵害になるわけではありませんが、少数作品だけを集中的に学習し、その創作的表現を再現する場合には、享受目的や類似性の評価が厳しくなる可能性があります。
米国フェアユース、EUのTDM例外、EU AI Actは、日本企業にも影響します。
AI学習データの法的評価は国によって異なります。次の比較一覧は、米国とEUで企業が確認したい制度・訴訟の位置づけを示すものです。国際展開では、国内開発であっても提供先市場や利用データの出所によって外国法リスクが生じる点を読み取ることが重要です。
利用目的・性質、著作物の性質、利用量・重要性、市場への影響という四要素を総合考慮します。
Thomson Reuters v. Ross、Bartz v. Anthropic、Kadrey v. Metaでは、データ出所や市場影響が重要な争点になっています。
DSM指令はテキスト・データマイニング例外を定めますが、一般TDMでは権利者の機械可読な留保が問題になります。
著作権遵守方針、権利留保対応、学習コンテンツ概要の公表などが求められる可能性があります。
米国では、AI学習データの適法性をめぐってフェアユースが中心的な争点になります。Thomson Reuters v. Ross Intelligenceでは、法律情報サービスに関する著作物・データを競合サービス開発に利用したことが問題になり、変容性や潜在的なAI学習データ市場への影響が重視されました。Bartz v. Anthropicでは、購入した書籍等のデジタル化と海賊版サイト由来コピーの保持が分けて評価されました。Kadrey v. Metaでは、記録に基づいてMeta側のフェアユースが認められましたが、市場代替・市場希釈の証拠次第で異なる結論になり得ることが示唆されています。
EUでは、DSM指令によりテキスト・データマイニングに関する例外が定められています。研究機関等の科学研究目的TDMには一定の例外があり、一般のTDMについても適法にアクセス可能な著作物に対して例外が認められます。ただし、権利者が機械可読な方法など適切な方法で権利を留保した場合、一般TDM例外は適用されません。
EU AI Actは、汎用AIモデル提供者に対して、EU著作権法を遵守する方針、権利留保を識別・遵守する措置、学習に用いられたコンテンツの概要の公表を求めています。EU市場でモデルを提供する場合、学習がEU域外で行われたとしても、これらの義務が問題になる可能性があります。
横断審査体制とデータプロヴェナンス台帳が、説明可能性の土台になります。
企業は、AI学習データの利用を個別プロジェクト任せにせず、組織的なガバナンス体制として管理します。次の表は、関係部門と主な責任を整理したものです。読者にとって重要なのは、法務だけで完結せず、技術、情報管理、事業、経営判断が一体で動く体制を読み取ることです。
| 役割 | 主な責任 |
|---|---|
| 企業内弁護士・法務担当 | 法的リスク評価、契約審査、紛争対応、経営判断資料の作成 |
| 外部専門家 | 高リスク案件、海外法、訴訟リスク、意見書作成 |
| 知財法務担当・弁理士 | 著作権、商標、特許、ライセンス、権利処理 |
| 個人情報保護担当 | 個人情報、越境移転、プライバシー影響評価 |
| 情報セキュリティ担当 | アクセス制御、ログ、暗号化、クラウド、秘密情報管理 |
| コンプライアンス・内部監査 | 社内規程、教育、違反対応、統制状況と証跡の検証 |
| データサイエンス部門 | 技術的必要性、データ処理、モデル評価、出力抑制 |
| 事業部門・経営陣 | 利用目的、収益モデル、リスク許容度、社会的説明責任 |
次の表は、データプロヴェナンス台帳に記録したい項目を示すものです。台帳は形式書類ではなく、権利者照会、顧客質問、M&Aや資金調達でのデューデリジェンス、訴訟や行政対応における説明能力を支えるために重要です。
| 項目 | 内容 |
|---|---|
| データセット名 | 社内で一意に識別できる名称 |
| 取得元・取得日 | URL、提供者、契約先、社内システム、取得・更新・削除の日時 |
| データ種別 | テキスト、画像、音声、コード、ログ、個人情報等 |
| 権利情報 | 著作権者、ライセンス、利用規約、権利留保、禁止事項 |
| 利用目的・範囲 | 事前学習、評価、RAG、ファインチューニング、社内利用、商用提供等 |
| 保存場所・権限 | クラウド、オンプレミス、海外拠点、委託先、閲覧・編集・出力権限 |
| 削除可否・リスク評価 | 削除、除外、再学習、出力抑制の可否、低・中・高の評価理由 |
| 証跡 | 規約、契約、許諾、スクリーンショット、ログ |
データ提供契約とAIベンダー契約では、機械学習特有の条項を確認します。
AI学習データの契約審査では、従来の利用許諾だけでなく、学習、RAG、ファインチューニング、評価、出力物、削除、補償、監査を確認します。次の一覧は、契約類型ごとの重点確認事項を示すものです。読者にとって重要なのは、データを使える範囲と、モデル・出力・顧客提供に使える範囲を分けて読むことです。
権利者又は正当な権限者、AI学習・RAG・評価利用、商用利用、再配信、モデル組込み、派生物と出力物の権利関係を確認します。
権利処理補償データ削除要求、オプトアウト、利用停止、更新停止、再学習、出力抑制に対応できるかを確認します。
運用証跡入力データがベンダー学習に使われるか、保存期間、削除方法、出力補償、学習データ方針、EU AI Act対応を確認します。
調達責任分担個人情報、秘密情報、営業秘密が含まれる場合、処理条件、監査権、ログ提供、インシデント通知、再委託、越境移転を確認します。
情報管理委託先法務判断だけでなく、データ処理、ログ、類似性検査、アクセス制御を設計します。
AI学習データの著作権リスクは、法律意見だけでは低下しません。次の表は、主要リスクと技術的・運用的対応を対応させたものです。読者にとって重要なのは、どのデータを、どの範囲で使い、どの出力を抑制し、どのログを残すかを実務として読み取ることです。
| リスク | 技術的・運用的対応 |
|---|---|
| 海賊版混入 | ドメイン除外、ハッシュ照合、既知侵害データセット照合、データ提供者監査 |
| 過学習・記憶 | 重複除去、近似重複排除、memorizationテスト、長文再現テスト |
| 類似出力 | 類似度検索、画像逆検索、コードスキャン、出力レビュー |
| RAGによる過剰表示 | チャンクサイズ制限、連続取得制限、引用量制限、アクセス制御 |
| 権利者申立て | 削除手順、出力抑制、データセット除外、再学習計画 |
| 社内不正利用 | プロンプトポリシー、利用ログ、教育、承認の流れ |
| ベンダー依存 | 契約監査、SLA、補償、代替手段、データエクスポート |
次の表は、企業内承認で使いやすいリスク評価の例を示すものです。データ種別、取得元、利用目的を組み合わせると、低・中・高の判断理由が説明しやすくなります。
| データ種別 | 取得元 | 利用目的 | リスク評価 | 推奨対応 |
|---|---|---|---|---|
| 自社作成マニュアル | 社内 | 社内RAG | 低から中 | 機密区分とアクセス制御を確認します。 |
| 顧客提供資料 | 顧客 | ファインチューニング | 高 | 契約上の目的外利用可否を確認し、原則として個別同意を検討します。 |
| 公開ウェブ記事 | ウェブ | 事前学習 | 中から高 | 規約、海賊版、権利留保、除外対応を確認します。 |
| 新聞記事DB | 有料契約 | RAG・要約 | 高 | AI利用許諾の明示確認が必要です。 |
| OSSコード | GitHub等 | コード生成モデル | 中から高 | ライセンス遵守と類似コード検出を行います。 |
| 写真素材 | 素材サイト | 画像生成・評価 | 中から高 | 素材ライセンスのAI利用条項を確認します。 |
| 海賊版疑い書籍 | 不明サイト | 事前学習 | 極めて高 | 利用を避け、隔離・削除・調査を行います。 |
初動対応を整備しておくと、事実関係の保全と関係者説明がしやすくなります。
権利者から申立てを受けた場合、初動対応を誤ると、法的リスクだけでなく、顧客信頼、メディア対応、株主対応、規制当局対応に波及します。次の時系列は、申立て後に確認する順番を示すものです。読者にとって重要なのは、対象特定、ログ保全、一時停止、法的評価、関係者連携、再発防止を順番に進めることです。
申立て内容、対象著作物、対象出力、対象データセット、対象サービスを特定します。
関連ログ、プロンプト、出力、モデルバージョン、RAG参照文書、取得元記録を保全します。
当該出力又は機能の一時停止、非表示、アクセス制限を検討します。
データ削除、出力抑制、再学習、フィルタ強化、交渉、ライセンス取得、顧客・取締役会への説明要否を検討します。
この対応では、訴訟・紛争担当、外部専門家、知財法務、広報、情報セキュリティ、データサイエンス、経営陣が連携します。ログやデータプロヴェナンスがないと、事実関係の説明が困難になり、交渉上も不利になります。
AI事業者ガイドラインと専門職ごとの視点を、社内規程・監査・経営判断へ接続します。
日本では、総務省・経済産業省によるAI事業者ガイドラインが整備されており、AIの開発者、提供者、利用者が安全性、公平性、透明性、アカウンタビリティ、人間中心、プライバシー、セキュリティ等の観点から行動することが求められています。著作権問題は、AIガバナンスの一部として位置づけます。
次の一覧は、AIガバナンス規程に含めたい項目をまとめたものです。読者にとって重要なのは、著作権だけを単独の注意事項にせず、入力、学習、出力、承認、ログ、教育、違反対応まで一体で読むことです。
AI利用目的、禁止用途、高リスク用途の承認基準を明確にします。
学習データ、入力データ、出力データを分類し、著作権、商標、肖像、個人情報、営業秘密を確認します。
外部公開、広告、製品、納品物、コード生成などのレビュー基準を定めます。
利用ログ、承認記録、権利者申立て対応、社内教育、違反時対応を管理します。
弁護士・企業内弁護士・外部専門家は、著作権法上の侵害成否、権利制限規定、契約責任、不法行為、差止・損害賠償、訴訟リスク、海外法を総合的に評価します。弁理士・知財法務担当は、著作権だけでなく、商標、意匠、特許、ノウハウ、ライセンスの観点からAI利用を評価します。
コンプライアンス担当は社内規程、研修、通報制度、違反対応、業界ルールとの整合性を担います。内部監査担当は、AI利用台帳、データプロヴェナンス、承認証跡、契約遵守、アクセス権限、削除対応が実際に運用されているかを検証します。個人情報保護・情報セキュリティ担当は、匿名化、仮名化、アクセス制御、越境移転、委託先管理、漏えい対応を設計します。
経営陣・取締役会・監査役は、生成AIによる効率化や収益機会と、著作権侵害訴訟、サービス停止、顧客離反、レピュテーション毀損、規制対応コストを合わせて評価します。AI学習データリスクは、現場の法務問題にとどまらず、経営判断の問題です。
利用前、RAG、出力、ベンダー選定の各場面で、確認漏れを減らします。
企業で相談が多い論点を、一般的な制度説明として整理します。
一般的には、公開されていることと、著作権法上・契約上・倫理上自由に利用できることは同じではないとされています。公開ウェブには、権利者が公開したもの、第三者が無断転載したもの、利用規約で機械利用を制限しているもの、個人情報や秘密情報が含まれるものが混在します。具体的な利用可否は、取得元、規約、権利関係、利用目的、出力設計によって変わるため、資料を整理したうえで弁護士等の専門家へ相談する必要があります。
一般的には、著作権法30条の4は重要な規定ですが、非享受目的、必要限度、ただし書などの制約があるとされています。契約、利用規約、個人情報、営業秘密、外国法、レピュテーションリスクは別に問題になります。企業実務では、法的に最低限可能かだけでなく、説明可能性と統制可能性を確認する必要があります。
一般的には、作風や画風という抽象的特徴は、それ自体が著作権法で保護されるわけではないとされています。ただし、特定作品の創作的表現が出力に再現される場合には、侵害問題が生じる可能性があります。少数の特定作品だけを集中的に学習し、その表現を再現するような場合には、享受目的、依拠性、類似性の評価でリスクが高まる可能性があります。
一般的には、出典表示は透明性や引用判断で重要ですが、それだけで常に適法になるわけではないとされています。引用として認められるか、47条の5の軽微利用に当たるか、契約上許されているか、有料記事やデータベースの市場を代替していないかを確認する必要があります。
一般的には、ベンダーの説明は重要な資料ですが、それだけで十分とは限らないとされています。契約上の保証、補償、責任上限、ログ提供、削除対応、学習データ方針、入力データの扱い、出力の利用条件を確認する必要があります。企業が出力を顧客向けサービスや広告・製品に利用する場合、自社にも責任が及ぶ可能性があります。
一般的には、データ削除、再学習、出力抑制、フィルタリング、モデル編集など複数の方法が考えられます。ただし、学習済みモデルから特定データの影響だけを完全に除去することは容易ではないとされています。事後対応だけに依存せず、取得段階でのデータ管理と権利処理を整える必要があります。
一般的には、研究開発目的であることはリスク評価上重要ですが、それだけで常に安全になるわけではないとされています。研究段階の内部利用か、商用サービス化を前提とする開発か、顧客データを使うか、第三者著作物を大量利用するか、外国市場で提供するかによって判断は変わります。
AIの利活用と著作権保護を両立させるため、会社としての姿勢を明確にします。
AI学習データを、技術部門の素材ではなく、法務・知財・データガバナンス上の管理資産として位置づけます。データの由来、権利、契約、利用目的、保存場所、削除可能性を台帳化し、著作権法30条の4を理解しつつ、それだけに依存せず、契約・技術・運用を組み合わせます。
次の判断の流れは、企業が基本方針を社内運用へ落とし込む順番を示すものです。読者にとって重要なのは、権利者との対立だけを前提にせず、透明性、ライセンス、除外申請、共同開発、収益分配などの選択肢も含めて読むことです。
由来、契約、権利、目的、保存場所、削除可否を記録します。
RAG、ファインチューニング、出力公開、商用提供を重点確認します。
ライセンス、除外申請、共同開発、収益分配、透明性確保を検討します。
海外展開では、米国フェアユースやEUのTDM例外・EU AI Actを含めた多法域対応を行います。取締役会・経営陣は、AI利用のリスク許容度を明確にし、法務部門に過度な属人的判断を押し付けない体制を整えます。
AI学習データと著作権侵害の論点は、生成AI時代の企業法務における中核課題です。企業が目指すのは、リスクを無視した利用でも、リスクを理由にした全面停止でもありません。重要なのは、データの出所を説明できること、利用目的を限定できること、権利者の利益を不当に害しないこと、出力を管理できること、契約と技術でリスクを低減できること、問題発生時に迅速に対応できることです。
AI学習データと著作権侵害の論点を整理する際に参照した、公的資料・法令・海外資料です。