AI書房
本でAIを読む
金京鎮弁護士のAI・法律・産業・歴史・政治・文化をテーマにしたオンライン書籍を収録しています。各書きは目次・序文・章・エピローグで構成され、連続読書が可能です。
[AI書房] 第1章 生成型AIの学習データと著作権紛争
人工知能AI、法廷に立つ
第1章 生成型AIの学習データと著作権紛争
金京鎮
a. メディア企業とAI企業の全面戦争
2023年12月27日の夜、ニューヨーク・タイムズ本社の法務部の弁護士たちは数ヶ月間かけて準備した訴状をマンハッタン南部地区連邦裁判所に提出しました。69ページの文書でした。そこには奇妙な証拠が含まれていました。ピューリッツァー賞を受賞したニューヨーク・タイムズの調査報道記事が左側に、ChatGPTが生成したテキストが右側に並べられていたのです。二つの記事は驚くほど似ていました。文の呼吸、単語の選択、コンマの位置まで。
(1) New York Times v. OpenAI/Microsoft: ニュースコンテンツの無断学習と市場代替論争
ニューヨーク・タイムズの弁護士たちはこの現象を「リグルジテーション(regurgitation)」と呼びました。AIが学習したデータを消化せずにそのまま吐き出すという意味です。訴状に含まれた証拠は、ChatGPTが有料購読が必要な記事のほぼ完璧な抜粋を提供した事例でした。ニューヨーク・タイムズの主張はシンプルでした。あなたたちは私たちの記事をコピーした。何百万件も。
フェア・ユース(Fair Use)という概念があります。簡単に言えば、こういうことです。図書館で本を読むのは問題ありませんが、本全体をコピーして販売するのは許されません。学生がレポートに本を引用するのは許可されていますが、出版社を立ち上げて同じ本を印刷するのは犯罪です。著作権法はこの境界線を四つの基準で判断します。利用目的が商業的であるか。原著作物の性質はどのようなものか。どのくらい使用したのか。原著作物の市場を代替するか。
ニューヨーク・タイムズは四番目の基準を強調しました。市場の代替です。
人々はニューヨーク・タイムズのウェブサイトに行く代わりにChatGPTに問い合わせます。ChatGPTはニューヨーク・タイムズの記事に基づいて答えます。その回答を聞いた人はもはやニューヨーク・タイムズを購読する必要がありません。まるで私の店の前に同じ店ができて、客が移っていく状況のようなものです。
OpenAIの反論もありました。私たちがコピーしたのではなく「学習」したのだと。人間の作家が何千冊もの本を読んで独自の文体を確立するのと、AIの学習は何ら変わらない。リグルジテーションの証拠はモデルを意図的に操作して得た異常な結果に過ぎない。2025年4月、ニューヨーク南部地区連邦裁判所のシドニー・スタイン判事はOpenAIの主張の大部分を却下しました。著作権侵害の主要な主張について裁判を進めることを決定します。しかし本当の戦争は情報開示段階で起こりました。ニューヨーク・タイムズは当初、14億件のChatGPT会話ログを要求していました。OpenAIは激しく反発しました。ユーザーのプライバシーを侵害するという理由でした。
2025年11月、判事オナ・ワング(Ona T. Wang)はOpenAIに2,000万件の匿名化された会話ログを提出するよう命じました。12月にOpenAIが再審議を要求しましたが、却下されました。2026年1月、判事はこの命令を最終的に確定しました。裁判所の論理は明確でした。
違法な盗聴とは異なります。プライバシーへの懸念は匿名化と保護命令で十分に保護されます。
この訴訟は現在、16件の著作権訴訟が統合された複数地区訴訟(MDL)として進行中です。ニューヨーク・タイムズ、シカゴ・トリビューン、デイリー・ニューズなどの主要メディア企業が原告として参加しています。
ちなみに複数地区訴訟(MDL)は、簡単に言えば「訴訟の統合管理システム」です。
同じ被告を相手に似たような理由で全国各地で訴訟が殺到すると問題が生じます。十の裁判所で各々裁判を行えば異なる結論が出ることもあり、時間と費用が無駄になります。
1968年、アメリカ議会は解決策を作成しました。複数地区訴訟裁判官委員会(JPML)が類似訴訟を一つの裁判所にまとめます。情報開示と共通争点の審理を一度に処理します。OpenAIの著作権訴訟がその例です。ニューヨーク・タイムズ、シカゴ・トリビューンなど16件の訴訟がニューヨーク南部地区裁判所に統合されました。一人の判事が「AI学習は公正利用か」という核心的な質問を判断します。
MDLの実際の効果は交渉力です。原告たちが団結すれば力が強くなります。被告は全国を回って戦うより、一度に和解する方が賢明です。そのため大多数のMDL事件は裁判前に和解で終わります。現在、アメリカ連邦民事訴訟の約60%がMDLで進行しています。アスベスト、オピオイド、データ流出訴訟がこの道を辿りました。今、AI著作権紛争もその列に加わりました。
判決はまだ出ていませんが、すでに市場は動いています。一部のメディア企業はOpenAIと訴訟の代わりにライセンス契約を結び始めました。法廷での不確実な勝利より当面の現金を選んだのです。
(2) Thomson Reuters v. ROSS Intelligence: 法律データベースの無断複製と公正利用主張の棄却
デラウェア地区連邦裁判所の判決文の最初のページがAI業界に警告音を鳴らしました。
2025年2月11日、ステファノス・ビバス判事はAIスタートアップのロス・インテリジェンス(ROSS Intelligence)がトムソン・ロイターの有料法律データベース「ウェストロー(Westlaw)」から判例要約(ヘッドノート)を無断で複製し、AI学習に使用した行為が公正利用に該当しないと判決しました。
ヘッドノートは判決文そのものではなく、編集者が判決の要点をまとめた「要約カード」に近いものです。トムソン・ロイターは数十年間にわたってこの要約を蓄積してきました。ロス・インテリジェンスはこれを利用して「ロボット弁護士」を作ろうとしていました。
ビバス判事の判断根拠は二つでした。
第一に、ロスのAI学習目的はトムソン・ロイターと直接競争する商業的製品を作成するためのものでした。
第二に、ロスのAIモデルが原著作物を新しい目的や意味に変形させたと見なすことは困難です。競争相手のデータを無断で取得して類似した機能を持つ競争製品を作成することは、公正利用の保護を受けることはできません。
この判決が重要な理由があります。「AI学習は無条件に公正利用」というシリコンバレーの図式を打ち破ったからです。裁判所は単に「機械が読んだ」という事実より、その結果物が原告の市場を直接標的にする競争製品であるかどうかをより重く見ました。AI企業にとって冷たい警告でした。
(3) Perplexity AI事件: RAG技術とリアルタイムコンテンツ侵害
2024年末、新しいタイプの人工知能が登場しました。パープレクシティ(Perplexity AI)です。
Google出身のエンジニアたちが開発したこのサービスは、検索結果をリンクで示す代わりに、内容を要約して直接回答を提供します。「回答エンジン(Answer Engine)」を標榜していました。
ユーザーの観点からは便利です。広告がいっぱい付いたメディアサイトに入る必要がありません。
RAG(検索増強生成、Retrieval-Augmented Generation)という技術があります。
料理人がレシピを暗記して作るのではなく、客が注文するたびに隣の本棚からレシピを取り出して即座に要約を出すやり方に似ています。問題は、その本棚が他人の有料書棚かもしれないということです。
2024年10月、ウォール・ストリート・ジャーナルとニューヨーク・ポストの発行元であるダウ・ジョーンズはパープレクシティを相手に訴訟を起こしました。2025年12月にはニューヨーク・タイムズも参加しました。
原告の主張は三つでした。
パープレクシティが有料購読(ペイウォール)を迂回した。
ウェブサイトのクローリング禁止規則(robots.txt)を無視した。
記事の内容をほぼそのまま抜粋して提供することで、ユーザーが元の記事リンクをクリックする必要をなくした。
シカゴ・トリビューンの訴訟はさらに一つを追加しました。
パープレクシティが「幻覚(ハルシネーション)」を通じて、メディア企業が作成していないコンテンツをあたかもそのメディアの報道であるかのように誤った引用をしたということです。商標権の希釈と名誉毀損まで問題にしたのです。この事件は学習(トレーニング)と実時間配信(ディスプレイ)の境界線をテストしています。
かつてのAIが過去のデータを学習したとすれば、今のAIはリアルタイムで他人のコンテンツを読んで要約します。これを「参照」と見なすのか、「リアルタイムコンテンツ窃盗」と見なすのか。この問いへの答えが、検索型AIのビジネスモデル全体を決定することになります。
メディア企業とAI企業間の全面戦争は、結局のところお金の流れを再編成しようとする試みです。情報を生産する人が持つ取り分と、その情報を加工・配信する技術企業が持つ取り分の間の綱引きです。そしてこの戦いの次の戦線は作家たちの法廷で繰り広げられています。
2026年1月現在、Perplexity AIを巡る訴訟がより激しくなっています。
最も前進した戦線はダウ・ジョーンズです。
ウォール・ストリート・ジャーナルとニューヨーク・ポストの親会社が2024年10月に提起したこの訴訟は、今や本格的な証拠戦に突入しました。
2025年8月21日、キャサリン・ポールク・フェイラ判事はパープレクシティの訴訟却下申立てとカリフォルニア移送申立てをいずれも却下しました。ニューヨークに事務所を持ち、従業員を雇用し、タイムズスクエアに広告看板を立てた会社が、ニューヨーク裁判所の管轄を逃れることはできませんでした。
実は事実審(ファクト・ディスカバリー)の締め切りは2026年6月4日に設定されました。
現在、両側の弁護士たちは文書を要求し、証人を召喚し、相手方の弱点を探しています。ダウ・ジョーンズ側はパープレクシティのソースコード開示を要求しています。パープレクシティは拒否しています。このコード内には、RAGシステムが実際にコンテンツをどのように処理するかが含まれているからです。
2025年12月5日、2つの新しい訴訟がほぼ同時に提出されました。ニューヨーク・タイムズとシカゴ・トリビューン。ニューヨーク・タイムズの訴状はもう1つのことを強調していました。著作権だけでなく商標権です。
ランハム法(Lanham Act)違反です。論理はこうです。Perplexityが虚偽情報を生成しながら、その隣にニューヨーク・タイムズのロゴを付けました。あたかもニューヨーク・タイムズがそのように報道したかのように。これはブランド価値の毀損です。170年の歴史を持つ新聞社の信頼がAIの幻覚によって損傷されているという主張です。
興味深い手続的決定がありました。ダウ・ジョーンズ事件の担当判事はニューヨーク・タイムズ事件を『関連事件』として統合することを拒否しました。ニューヨーク・タイムズ事件はバーノン・ブロデリック判事に配定されました。Perplexityの立場からすると悪夢です。類似の争点を2つの異なる法廷で、2人の異なる判事の前で、2度戦わなければなりません。
シカゴ・トリビューンの訴訟も幻覚問題を集中的に論じました。トリビューンが書かなかった内容があたかもトリビューンの報道のように表示されたということです。商標権の希釈化と名誉毀損までも問題にしました。
2025年10月には、Redditが全く異なる角度から攻撃を開始しました。
著作権ではなく、DMCA第1201条、アクセス制御回避禁止規定です。Redditはperplexityだけでなく、データスクレイピング仲介業者3社(SerpApi、Oxylabs、AWMProxy)を一緒に提訴しました。「データ・ロンダリング」という表現を使いました。
Perplexityが直接Redditをスクレイプできないため、Google検索結果を通じて迂回したということです。Redditはトラップを仕掛けました。Googleだけが見ることができるテスト投稿をアップロードしたところ、数時間でPerplexityの回答に登場しました。
原告の一覧は増え続けています。ブリタニカ百科事典、US News & World Report、日本とイタリアの報道機関まで。現在Perplexityを相手に進行中の訴訟は最低でも6件以上です。
Perplexityの主張は一貫しています。コミュニケーション責任者ジェシー・ドワイアーの発言です。「報道機関は100年間、新しい技術企業を訴えてきました。ラジオ、テレビ、インターネット、ソーシャルメディア、そして今AI。幸いなことに、1度も成功していません。もし成功していれば、私たちは今でも電報で対話していることでしょう。」
しかし法廷外では別の動きもあります。Perplexityはタイムやフォーチュンやデア・シュピーゲルと収益共有契約を締結しました。Getty Imagesともパートナーシップを結びました。
訴訟と交渉が同時に進行しています。法廷で負ければ交渉テーブルでより多く支払わなければなりません。交渉テーブルで合意すれば、法廷での戦いは終わります。双方ともこの計算をしています。
ダウ・ジョーンズ事件の証拠開示期限は2026年6月です。その時までにPerplexityのソースコードが公開されるか、あるいはその前に和解が成立するか。この質問への答えが検索型AIの未来を決することになります。
B. 作家集団訴訟と創作の定義
ジョージ・R・R・マーティンは『ゲーム・オブ・スローンズ』原作小説を書くのに数十年を費やしました。文体は独特で、世界観は広大で、キャラクターは複雑です。ある日、ファンが彼に奇妙な情報提供をしてきました。ChatGPTに「ジョージ・R・R・マーティンのスタイルでゲーム・オブ・スローンズ第6部を書いて」と入力したところ、かなり説得力のある小説を書いたということです。マーティンはショックを受けました。
(1) Authors Guild及び作家連合訴訟:スタイルの模倣と二次的著作物成立要件
2023年9月、アメリカ作家組合(Authors Guild)とジョージ・R・R・マーティン、ジョン・グリシャム、ジョディ・ピコールなど著名な作家たちがOpenAIを提訴しました。彼らの主張は明確でした。
「同意していない、クレジットも得ていない、補償も受けていない(No Consent, No Credit, No Compensation)。」
二次的著作物(derivative work)という概念があります。原曲をそのまま流さずに、原曲に基づいてリミックスや映画などを作成することです。
作家たちはAIが自分たちの本全体を学習して、彼らの文体とスタイルを模倣したテキストを生成でき、これが原作の派生的著作物に該当すると主張しました。
しかし法院は慎重でした。著作権法は具体的な『表現』を保護するが、作家の『作風』や『スタイル』自体を保護することはありません。文体は筆跡に似ています。筆跡はその人を思い出させますが、それ自体が著作権の対象ではありません。
2025年4月3日、OpenAIに対する複数の作家の集団訴訟を多地区訴訟(MDL)に統合しました。同年10月27日、スタイン判事はOpenAIの却下請求を却下しました。法院は原告らが著作権侵害に関する一応の主張(prima facie claim)を十分に提示したと判断しました。ChatGPTの出力物と作家の著作物の間に実際の複製と実質的類似性が十分に主張されたということです。
争点は2つに整理されます。
1つは学習段階での無断複製です。
もう1つは出力における実質的類似性です。
作家側は『モデルが確率的に文を生成する』という説明が大規模複製に基づいた経済的利得構造を隠すためのスモークスクリーンになりうると主張します。被告側は『個別出力はユーザー入力と確率的過程の結果である』という点をあげて、因果関係と実質的類似性の立証負担を強調します。
2025年4月3日、多地区訴訟司法委員会(JPML)はOpenAIに対する複数の作家の集団訴訟をMDL No. 3143に統合しました。ニューヨーク南部地方裁判所シドニー・スタイン判事に配定されました。12件の訴訟が1つにまとめられました。Authors Guild訴訟、ニューヨーク・タイムズ訴訟、サラ・シルバーマン訴訟、マイケル・シェイボン訴訟まで。
同年10月27日、スタイン判事はOpenAIの却下請求を却下しました。原告らが著作権侵害に関する一応の主張(prima facie claim)を十分に提示したと判断したのです。「ChatGPTの要約が原作のプロット、キャラクター、テーマをオウムのように模倣(parroting)した」という主張が受け入れられました。
法理論争は終わりました。これからは証拠戦です。
2026年1月現在、双方は証拠開示(Discovery)の全面戦に突入しました。
法院は1月15日と2月11日に連続した証拠開示状態会議を召集しました。核心争点はOpenAIが学習に使用したデータセットの正体です。『Books1』と『Books2』。この2つのデータセットがすべてのカギです。話は2018年にさかのぼります。
OpenAI職員がLibrary Genesis(LibGen)という違法複製サイトから数百万冊の書籍をダウンロードしました。このデータでBooks1とBooks2を作成しました。2020年5月、OpenAIは研究論文でこのデータセットをGPT-3学習に使用したと公開的に明らかにしました。そして2022年、ChatGPT公開直前に削除しました。
なぜ削除したのか。この質問が数十億ドルの損害賠償を決めることになります。
2024年3月、OpenAIの外部弁護士ジョセフ・グラッツは作家側弁護士に書簡を送りました。「Books1とBooks2は2021年末に学習から除外され、2022年半ばに『不使用(non-use)』を理由に削除されました。」
ところが作家側がこの『不使用』の意味を掘り下げると、OpenAIは言葉を変えました。2025年6月13日、OpenAIはグラッツ書簡の該当部分を撤回しようとしました。削除理由は弁護士との対話から生じたものであるため、弁護士・依頼人特権(attorney-client privilege)で保護されていると主張しました。
オナ・ワン判事はこれを受け入れませんでした。2025年11月24日、彼女は命令を下しました。「OpenAIは『理由』を述べた(特権ではないことを意味する)その後、その『理由』が特権であると主張することはできない。OpenAIは特権主張を『動くターゲット』のように変えてきた。」
法院はOpenAI内部Slackチャネルのメッセージを公開するよう命令しました。「project-clear」と「excise-libgen」という名前のチャネル。従業員たちがデータセット削除を議論した場所です。2022年の社内弁護士とのすべての書面通信も公開対象です。LibGenに関するすべての内部言及も。期限は2025年12月8日でした。OpenAI社内弁護士の証言録取は12月19日までに完了するよう指示しました。
OpenAIは控訴すると表明しました。しかし2025年12月3日、ワン判事は再考請求も却下しました。12月5日、スタイン判事はOpenAIに追加意見書を提出するよう命令しました。これらの証拠がなぜ重要なのか。『故意的侵害(willful infringement)』が立証されればゲームが変わります。著作権法上、故意的侵害は作品当たり最大15万ドルの法定損害賠償が可能です。数百万冊の書籍が関係しています。
理論的責任は数百億ドルに達する可能性があります。OpenAIが違法複製物であることを知りながら使用した場合、そしてその事実を隠すために削除した場合、損害賠償は天文学的に跳ね上がります。
作家側弁護士ジャスティン・ネルソンはすでに別の戦線で勝利した経験があります。彼はOpenAIが開発中のモデルにも著作権侵害データが使用されているか、削除されたデータセットが名前だけ変えて依然使用されているかを追跡しています。
2026年1月の状況はこのように要約されます。OpenAIが学習データをどの程度透明に公開するか、そしてそのデータに含まれる違法複製物の痕跡を作家たちがどの程度見つけ出すかが勝敗を分けることになるでしょう。
OpenAIへの圧力は訴訟外でも高まっています。競争相手Anthropicの先例があるからです。2025年9月、Anthropicは15億ドルを支払うことに合意しました。米国史上最大規模の著作権和解金です。Anthropicの15億ドル合意は今や基準点になっています。
OpenAIが法廷で負ければ、それよりはるかに多く支払わなければならないでしょう。勝ったとしても、すでに数年間の法律費用と評判損害を被らなければなりません。そして次の戦線はすでに開かれています。MetaもLibGenと同じデータセットを使用したという内部文書が公開されました。マーク・ザッカーバーグが「中程度~高度のレベルの法的リスク」を知りながら承認したという証拠です。
作家たちの法廷での戦いはこれからが始まりです。
(2) Anthropic集団訴訟及び和解動向
2025年9月5日、サンフランシスコ法院で1つの数字が読み上げられました。15億ドル。傍聴席は静かになりました。Anthropicが作家との訴訟において米国著作権法史上最大規模の和解に達したのです。
この事件の始まりは2024年でした。作家アンドレア・バルツ(Andrea Bartz)、チャールズ・グラエバー(Charles Graeber)、カーク・ウォレス・ジョンソン(Kirk Wallace Johnson)がアンスロピックを訴えました。
アンスロピックが自社のAIモデル『Claude』を学習させるプロセスにおいて、『LibGen』や『PiLiMi』のような海賊版図書サイトのデータを使用したという疑いでした。
2025年6月、カリフォルニア北部地区連邦裁判所のウィリアム・アルサップ(William Alsup)判事は決定的な判決を下しました。合法的に購入した本を学習に使用することは「我々の人生で見る最も変形的なもののひとつ」であり、フェアユースに該当するというものです。しかし、海賊版著作物を使用することは「本質的に、取り返しのつかない侵害的」であり、フェアユースとは見なしえないとしました。
アルサップ判事は海賊版複製物については略式判決を拒否し、裁判を命じました。米国著作権法によれば、故意的な侵害は著作物当たり最大15万ドルの法定損害賠償を生じさせることができます。アンスロピックが海賊版からダウンロードした書籍は約50万冊でした。計算してみると、潜在的な責任は70億ドルを超える可能性がありました。会社全体を消滅させることができる金額でした。
アンスロピックは交渉テーブルに着きました。和解条件は以下の通りでした。最低15億ドルを支払う。1冊当たり約3,000ドルが配分される。海賊版サイトから取得した著作物の複製を破棄する。しかし、この和解は過去の行為に対してのみ免責を付与します。将来の訓練やAI出力物に対する侵害請求は含まれません。
2025年9月25日、アルサップ判事はこの和解を仮承認しました。最終承認公聴会は2026年4月に予定されています。作家協会CEO メアリー・ラーセンバーガー(Mary Rasenberger)はこう述べました。「この歴史的な和解は、AI企業が単に高品質の大規模言語モデルを開発する必要があるという理由だけで作家の創作物を奪うことはできないということを認める重要なステップです。」
この和解が残した教訓は三つあります。第一に、データ取得経路が訴訟リスクの中心へと上昇しました。第二に、「削除と整理」が単なる倫理問題ではなく、救済と損害額の算定の重要な変数となりました。第三に、ライセンス市場が「選択肢」ではなく「防衛線」として機能し始めました。
(3) Silverman, Kadrey, Chabon v. Meta MDL 統合訴訟
2023年7月7日、コメディアンのサラ・シルバーマンは、自分の回想録『The Bedwetter』がメタのAIに吸収されたという事実に気づきました。彼女は作家リチャード・カドレイ、クリストファー・ゴールデンとともにメタを訴えました。
訴訟はすぐにマイケル・チェイボン、ジュノ・ディアス、アンドリュー・ショーン・グリアなど13名の作家に拡大されました。ピューリッツァー賞受賞作2編が含まれていました。
彼らが指摘したのは『Books3』というデータセットでした。約19万冊の書籍。大多数がBibliotikというシャドーライブラリから違法複製されたものでした。メタはこのデータセットでLLaMAを学習させました。
2025年初頭に公開されたメタの内部文書はさらに衝撃的でした。マーク・ザッカーバーグがLibGenデータセットの使用を直接承認しており、それが海賊版であることを完全に認識していたという内容でした。
2025年6月25日、カリフォルニア北部地区連邦裁判所のビンス・チャブリア判事はメタの味方をしました。AI学習のために著作権のある書籍を無断で複製する行為がフェアユースに該当すると判決したのです。「高度に変形的(highly transformative)」という表現を使いました。
2日前、別の法廷では正反対の判決が下されました。ウィリアム・アルサップ判事がAnthropicの事件で下した判断でした。アルサップ判事は、合法的に購入した本をスキャンしてAIを学習させることはフェアユースだと認めました。「我々の人生で最も変形的な用途の一つ」とまで述べました。しかし、海賊版サイトからダウンロードした本を使用したことはフェアユースではないと線を引きました。Anthropicは15億ドルを支払って和解しました。
同じ州から出た二つの判決。同じ争点に見えますが、結果は異なりました。なぜでしょうか。
二人の判事が見た争点が異なっていました。アルサップ判事は「どのようにしてデータを取得したのか」と問いました。違法複製サイトからダウンロードする行為そのものがフェアユースの保護を受けることができないと判断したのです。
チャブリア判事は「データをどのように使用したのか」と問いました。AI学習という目的が原作とは全く異なる変形的用途であるため、フェアユースだと考えたのです。
決定的な違いはまた別にありました。
原告側の立証失敗です。チャブリア判事は判決文でこう書きました。
「メタは複製が市場の損害をもたらさなかったという証拠を提示しました。原告らは反対の経験的証拠をまったく提示できませんでした。」LLaMAが原作と実質的に類似したテキストを生成するという証拠はありませんでした。損害がなければ勝訴もありません。
しかし、チャブリア判事は重要な限定を付けました。「この判決はこの事件の具体的状況にのみ適用されます。」そして付け加えました。「原告らがLLaMAが自分たちの作品と直接競合する著作物を生成することを許容するという証拠を提示していたならば、結果は異なっていた可能性があります。」
この文は原告らに新たな道を開きました。
2025年10月27日、メタは原告側に通知を送付しました。過去のシャドーライブラリからトレントプロトコルを通じてファイルをダウンロードしたことについての「新たな証拠」を発見したという内容でした。11月5日、双方は日程延期を要請しました。略式判決公聴会が2026年4月2日から4月30日に延期されました。
新たな戦略が明らかになりました。
学習段階のフェアユースを争うのではなく、トレント行為そのものを攻撃することです。アルサップ判事がAnthropicの事件で確立した法理をチャブリア判事にも適用しようとする試みです。メタがBitTorrentプロトコルでLibGenから数百万冊の書籍をダウンロードしたことは、Anthropicが同じサイトからデータを取得したこととほぼ同じです。取得行為の違法性は、その後の変形的使用によって治癒されません。
2026年1月現在、訴訟は継続しています。チャブリア判事のフェアユース判決は確定しましたが、それは話の半分にすぎません。残りの半分であるトレント争点が4月30日の公聴会を待っています。もし原告らがこの争点で勝利すれば、学習段階のフェアユース判決は事実上無効化されます。いかに変形的な学習であっても、違法に取得したデータであれば保護されないからです。
Anthropicは15億ドルで問題を解決しました。メタは法廷で最後まで戦うことにしました。その選択が賢明だったかどうかは4月30日以降に分かるでしょう。
C. コード生成AIとオープンソースライセンス
マシュー・バターリック(Matthew Butterick)は弁護士でプログラマーです。珍しい経歴を持つ彼は、2022年GitHubのAIツール『Copilot』を使用してみたとき、奇妙なデジャヴを感じました。Copilotが提案したコードスニペットが、彼が過去に書いたコード、またはオープンソースコミュニティで見たコードとまったく同じでした。
(1) GitHub Copilot訴訟: オープンソースライセンス違反論争
オープンソースソフトウェアは「共有」の精神の上に立つ巨大な塔です。開発者たちは自分のコードを誰もが見られるように公開します。他の人たちはそのコードを取ってきて使用します。ここに重要な規則があります。
それが『ライセンス』です。通りで配られる無料レシピに似ていますが、条件が書かれた紙です。「持ってってもいいけど出所を残す」、「同じ条件でもう一度公開する」といった文が、その条件です。これは開発者たちの間の神聖な約束です。
2022年11月3日、バターリックと匿名の開発者たちがマイクロソフト、GitHub、OpenAIを相手に、カリフォルニア北部地区連邦裁判所に集団訴訟を提起しました。
Copilotは数十億行のオープンソースコードを学習しました。そしてユーザーがコードを書くとき、その学習した内容に基づいて自動補完を提供します。問題は、Copilotがコードを出力するときに、原著者の名前やライセンス表示をすべて消去してしまう点です。
バターリックはこれを「ソフトウェア史上最大の著作権マネロン」と呼びました。原告側の核心的主張はDMCA(デジタル・ミレニアム著作権法)第1202条違反でした。この条項は「著作権管理情報(CMI)」を無断で削除または改ざんする行為を防ぐメカニズムです。簡単に言えば、「本の表紙の著者名を引き剥がしてコピーを配布する行為」を禁止するものです。2024年7月、ジョン・タイガー(Jon S. Tigar)判事は原告たちに大打撃を与えました。
DMCA第1202条(b)請求を棄却したのです。判事の論理はこのようでした。Copilotが生成するコードは元のバージョンと「同一」ではない。したがって、DMCAは適用されない。これが「同一性要件(identicality requirement)」です。
原告らはあきらめませんでした。2024年9月27日、タイガー判事は原告らの要請を受け入れ、この争点を第9巡回控訴裁判所に中間控訴(interlocutory appeal)として送付することを認可しました。
核心的な質問はこれです。DMCA第1202条(b)は、AI出力物が元のバージョンと「同一」である場合にのみ適用されるのか、それとも「類似」していても適用されるのか? 17 U.S.C. § 1202(b)
(b) 著作権管理情報の削除または改ざん(REMOVAL OR ALTERATION OF COPYRIGHT MANAGEMENT INFORMATION)。——著作権所有者または法律の権限なしに、いかなる者も以下を行わないものとする:
(1) 著作権管理情報を意図的に削除または改ざんすること
(2) 著作権管理情報が著作権所有者または法律の権限なしに削除または改ざんされたことを知りながら、その著作権管理情報を配布または配布のために輸入すること、または(3) 著作権管理情報が著作権所有者または法律の権限なしに削除または改ざんされたことを知りながら、著作物、著作物の複製、または録音物を配布し、配布のために輸入し、または公に実演すること。第1203条の民事救済に関しては、本編の著作権の保護対象となる権利の侵害を誘発し、可能にし、促進し、または隠蔽することになることを知りながら、または当該の知ることについて合理的な根拠を有しながら。
そして第1202条(c)では「著作権管理情報(copyright management information)」の定義が規定されています。
(c) 定義(DEFINITION)。本条で使用される「著作権管理情報」という用語は、著作物の複製もしくは録音物、または著作物の実演もしくは表示に関連して伝達される、デジタル形式を含むいかなる情報を意味する:
(1) 著作権表示に記載されている情報を含む、著作物を特定する他の情報およびタイトル
(2) 著作物の著者の名前、および著者に関する他の識別情報
(3) The name of, and other identifying information about, the copyright owner of the work, including the information set forth in a notice of copyright. この質問に対する答えが、AI産業全体のルールを変える可能性があります。
もし控訴法院が「同一性要件」を確認するなら、AI企業はコードをわずかに変更してもDMCA責任を回避できます。反対に、「類似性」だけで十分だと判決するなら、コーディングAIツールは学習データに含まれたすべてのオープンソースコードのライセンスを追跡し準拠する必要がある膨大な負担を負うことになります。
一方、Tiger判事はオープンソースライセンス違反および契約違反請求を棄却しませんでした。オープンソースライセンスを実際に拘束力のある契約として扱ったのです。これらの請求は現在進行中であり、原告たちはCopilotが自分たちのコードを「メモリ化(memorization)」して出力するという証拠を補強しています。
現在の状態:第9巡回控訴法院で口頭弁論予定または判決を待機中。1審訴訟は控訴審判決まで中止(stayed)状態です。この判決はAI著作権紛争全般に先例的影響を及ぼすと予想されます。
(2) コーディングAIの学習データ適法性問題
コーディングAIに関する紛争は、「フェアユース」論理と「契約違反」論理が正面から衝突する地点です。学習データの適法性は「材料をどこで買ったか」という問題です。
マイクロソフトとOpenAIの主張は断定的です。GitHubの公開されたコードを学習することはフェアユースに該当する。AIが生成したコードは元のコードの変形に過ぎず、複製ではない。ごく短いコード断片(Snippet)は著作権による保護を受けない。「for (int i=0; i<10; i++)」のようなシンプルなループ文が誰のものでもあり得ない。
反対に、開発者陣営はこのように主張します。オープンソースコードは「誰でも見ることができる」ということであり、「誰でも自由に商業的に利用できる」という意味ではない。GPLライセンスは派生物公開(copyleft)義務を課す。MITライセンスも著作者表示を要求する。Copilotが有料購読モデルで提供される一方で、他人の努力で作られたコードを利用してプラットフォーム企業だけが利益を独占する。
技術的には3つの争点が繰り返されます。
第1に、学習段階での複製が一時的複製であるか、永続的複製であるかということです。
第2に、出力が特定のリポジトリコードの「実質的部分」を再現するかということです。
第3に、システムが出典とライセンスを追跡することができるのに、設計上除外したかということです。
この軸で企業が掲げる盾は「確率的生成」です。原告たちが振るう剣は「重複出力とパターン再現の統計」です。GitHubのFAQでさえ、「約1%の場合、提案が学習セットと一致する150字以上のコード断片を含める可能性がある」と認めています。独立的な分析によると、「Copilotが有効化されたファイルで、Pythonのような人気プログラミング言語コードのほぼ40%をCopilotが占める」としています。
原告たちはDMCA違反に対する法定損害賠償だけでも90億ドルを超える可能性があると推定しています。この訴訟はプログラマーという職業の未来とも結びついています。皮肉なことに、プログラマーたちは自分たちのコードを共有することで、自分たちを代替するAIを訓練してしまったことになります。
オープンソースコミュニティ内では、AI訓練に対する明示的条項を含む新しいライセンス開発に対する議論が進行中です。一部のプロジェクトは「AI訓練除外」条項をライセンスに追加しています。コードはテキストや画像より構造が明確で、著作権ライセンス規則が比較的よく確立されています。したがって、この訴訟の結果はテキストや画像分野の判決より先に出る可能性が高く、今後AI著作権戦争の重要な指標になるでしょう。
法院は今決定しなければなりません。共有の精神で作られたオープンソース生態系が、逆説的にその生態系を蝕むAIの燃料になることを許容するかどうかということです。そしてこの決定は、メディア企業の記事、著述家の著作物、開発者のコード全てに適用される原則を形成していくでしょう。