AI 서재
책으로 읽는 AI서재
한 권을 고르고, 목차에서 차례대로 읽을 수 있게 정리했습니다.
PDF 다운로드 책
다국어로 읽는 대학생 교양 인공지능
한국어 원문과 외국어 번역을 함께 실은 유학생용 교재입니다. 각 책 소개 페이지에서 PDF를 받을 수 있습니다.
[AI서재] 1장 생성형 AI 학습 데이터와 저작권 분쟁
인공지능 AI, 법정에 서다
제1부 AI와 지식재산권의 충돌
1장 생성형 AI 학습 데이터와 저작권 분쟁
김경진 변호사
가. 언론사와 AI 기업의 전면전
2023년 12월 27일 저녁, 뉴욕타임스 본사 법무팀의 변호사들은 수개월간 준비해온 소장을 맨해튼 남부연방법원에 제출했습니다. 69페이지짜리 문서였습니다. 거기에는 이상한 증거가 들어 있었습니다. 퓰리처상을 수상한 뉴욕타임스 탐사보도 기사가 왼쪽에, ChatGPT가 생성한 텍스트가 오른쪽에 나란히 놓여 있었습니다. 두 글은 놀라울 정도로 닮아 있었습니다. 문장의 호흡, 단어의 선택, 쉼표의 위치까지.
(1) New York Times v. OpenAI/Microsoft: 뉴스 콘텐츠 무단 학습과 시장 대체 논란
뉴욕타임스의 변호사들은 이 현상을 '역류(regurgitation)'라고 불렀습니다. AI가 학습한 데이터를 소화하지 못하고 그대로 토해낸다는 뜻입니다. 소장에 담긴 증거들은 ChatGPT가 유료 구독이 필요한 기사의 거의 완벽한 발췌문을 제공한 사례들이었습니다. 뉴욕타임스의 주장은 단순했습니다. 당신들은 우리 기사를 복사했다. 수백만 건을.
공정이용(Fair Use)이라는 개념이 있습니다. 쉽게 말하면 이렇습니다. 도서관에서 책을 읽는 것은 괜찮지만, 책을 통째로 복사해서 파는 것은 안 됩니다. 학생이 리포트에 책을 인용하는 것은 허용되지만, 출판사를 차려서 똑같은 책을 찍어내는 것은 범죄입니다. 저작권법은 이 경계선을 네 가지 기준으로 판단합니다. 사용 목적이 상업적인가. 원저작물의 성격이 어떤가. 얼마나 많이 썼는가. 원저작물의 시장을 대체하는가.
뉴욕타임스는 네 번째 기준을 강조했습니다. 시장 대체.
사람들이 뉴욕타임스 웹사이트에 가는 대신 ChatGPT에게 물어봅니다. ChatGPT는 뉴욕타임스 기사를 바탕으로 대답합니다. 그 대답을 들은 사람은 더 이상 뉴욕타임스를 구독할 필요가 없습니다. 마치 내 가게 앞에 똑같은 가게가 생겨 손님이 옮겨가는 상황입니다.
OpenAI의 반박도 있었습니다. 우리는 복사한 게 아니라 '학습'한 것이다. 인간 작가가 수천 권의 책을 읽고 자신만의 문체를 만드는 것과 AI의 학습이 다르지 않다. 역류 증거는 모델을 의도적으로 조작하여 얻어낸 비정상적인 결과일 뿐이다. 2025년 4월, 뉴욕 남부연방법원의 시드니 스타인(Sidney Stein) 판사는 OpenAI의 주장을 대부분 기각했습니다. 핵심 저작권 침해 주장에 대해 재판을 진행하기로 결정합니다. 그러나 진짜 전쟁은 증거개시(Discovery) 단계에서 벌어졌습니다. 뉴욕타임스는 처음에 14억 건의 ChatGPT 대화 로그를 요구했습니다. OpenAI는 격렬히 반발했습니다. 사용자 프라이버시를 침해한다는 이유였습니다.
2025년 11월, 판사 오나 왕(Ona T. Wang)은 OpenAI에게 2,000만 건의 익명화된 대화 로그를 제출하라고 명령했습니다. 12월에 OpenAI가 재고를 요청했지만 기각되었습니다. 2026년 1월, 판사는 이 명령을 최종 확정했습니다. 법원의 논리는 명확했습니다.
불법 도청과는 다르다. 프라이버시 우려는 익명화와 보호 명령으로 충분히 보호된다.
이 소송은 현재 16건의 저작권 소송이 통합된 다지구소송(MDL)으로 진행 중입니다. 뉴욕타임스, 시카고 트리뷴, 데일리 뉴스 등 주요 언론사들이 원고로 참여하고 있습니다.
참고로 다지구 소송(MDL)은 간단히 말해 '소송의 통합 관리 시스템'입니다.
같은 피고를 상대로 비슷한 이유로 전국 각지에서 소송이 쏟아질 때 문제가 생깁니다. 열 개 법원에서 각각 재판을 하면 다른 결론이 나올 수도 있고, 시간과 비용이 낭비됩니다.
1968년 미국 의회는 해결책을 만들었습니다. 다지구 소송 사법위원회(JPML)가 유사 소송들을 한 법원으로 모읍니다. 증거개시와 공통 쟁점 심리를 한 번에 처리합니다. OpenAI 저작권 소송이 그 사례입니다. 뉴욕타임스, 시카고 트리뷴 등 16건의 소송이 뉴욕 남부지방법원으로 통합되었습니다. 한 판사가 "AI 학습은 공정이용인가"라는 핵심 질문을 판단합니다.
MDL의 실제 효과는 협상력입니다. 원고들이 뭉치면 힘이 세집니다. 피고는 전국을 돌며 싸우는 것보다 한꺼번에 합의하는 편이 낫습니다. 그래서 대부분의 MDL 사건은 재판 전에 합의로 끝납니다. 현재 미국 연방민사소송의 약 60%가 MDL로 진행됩니다. 석면, 오피오이드, 데이터 유출 소송이 이 경로를 거쳤습니다. 이제 AI 저작권 분쟁도 그 대열에 합류했습니다.
판결은 아직 나오지 않았지만, 이미 시장은 움직이고 있습니다. 일부 언론사들은 소송 대신 OpenAI와 라이선스 계약을 맺기 시작했습니다. 법정에서의 불확실한 승리보다 당장의 현금을 선택한 것입니다.
(2) Thomson Reuters v. ROSS Intelligence: 법률 데이터베이스 무단 복제와 공정이용 항변 기각
델라웨어 연방법원의 판결문 첫 페이지가 AI 업계에 경고음을 울렸습니다.
2025년 2월 11일, 스테파노스 비바스(Stephanos Bibas) 판사는 AI 스타트업 로스 인텔리전스(ROSS Intelligence)가 톰슨 로이터의 유료 법률 데이터베이스 ' 웨스트로(Westlaw)'에서 헤드노트(판례 요약)를 무단으로 복제하여 AI 학습에 사용한 행위가 공정이용에 해당하지 않는다고 판결했습니다.
헤드노트는 판결문 자체가 아니라, 편집자가 판결의 요지를 정리한 '요약 카드'에 가깝습니다. 톰슨 로이터는 수십 년간 이 요약을 축적해 왔습니다. 로스 인텔리전스는 이것을 가져다가 '로봇 변호사'를 만들려 했습니다.
비바스 판사의 판단 근거는 두 가지였습니다.
첫째, 로스의 AI 학습 목적은 톰슨 로이터와 직접 경쟁하는 상업적 제품을 만들기 위한 것이었습니다.
둘째, 로스의 AI 모델이 원저작물을 새로운 목적이나 의미로 변형시켰다고 보기 어렵습니다. 경쟁사의 데이터를 무단으로 가져와 유사한 기능을 하는 경쟁 상품을 만드는 것은 공정이용의 보호를 받을 수 없습니다.
이 판결이 중요한 이유가 있습니다. "AI 학습은 무조건 공정이용"이라는 실리콘밸리의 도식을 깨뜨렸기 때문입니다. 법원은 단순히 '기계가 읽었다'는 사실보다, 결과물이 원고의 시장을 직접 겨냥하는 경쟁 제품인지 여부를 더 무겁게 보았습니다. AI 기업들에게 서늘한 경고였습니다.
(3) Perplexity AI 사건: RAG 기술과 실시간 콘텐츠 침해
2024년 말, 새로운 유형의 인공지능이 등장했습니다. 퍼플렉시티(Perplexity AI)입니다.
구글 출신 엔지니어들이 만든 이 서비스는 검색 결과를 링크로 보여주는 대신, 내용을 요약해서 직접 답을 줍니다. "답변 엔진(Answer Engine)"을 표방했습니다.
사용자 입장에서는 편리합니다. 광고가 덕지덕지 붙은 언론사 사이트에 들어갈 필요가 없습니다.
RAG(Retrieval-Augmented Generation, 검색 증강 생성)라는 기술이 있습니다.
요리사가 레시피를 외워서 만드는 것이 아니라, 손님이 주문할 때마다 옆 책장에서 레시피를 꺼내 즉석에서 요약해 내는 방식과 닮아 있습니다. 문제는 그 책장이 남의 유료 서가일 수 있다는 점입니다.
2024년 10월, 월스트리트저널과 뉴욕포스트의 발행사인 다우존스가 퍼플렉시티를 상대로 소송을 제기했습니다. 2025년 12월에는 뉴욕타임스도 합류했습니다.
원고들의 주장은 세 가지였습니다.
퍼플렉시티가 유료 구독(Paywall)을 우회했다.
웹사이트의 크롤링 방지 규약(robots.txt)을 무시했다.
기사 내용을 거의 그대로 발췌하여 제공함으로써 사용자가 원본 기사 링크를 클릭할 필요를 없게 만들었다.
시카고 트리뷴의 소송은 한 가지를 더 추가했습니다.
퍼플렉시티가 '환각(Hallucination)'을 통해 언론사가 작성하지 않은 내용을 마치 해당 언론사의 보도인 것처럼 허위 인용했다는 것입니다. 상표권 희석과 명예훼손까지 문제 삼은 것입니다. 이 사건은 학습(training)과 실시간 제공(display)의 경계를 시험하고 있습니다.
과거의 AI가 과거의 데이터를 학습했다면, 지금의 AI는 실시간으로 남의 콘텐츠를 읽고 요약합니다. 이것을 '참조'라고 볼 것인지, '실시간 콘텐츠 절도'라고 볼 것인지. 이 질문에 대한 답이 검색형 AI의 비즈니스 모델 전체를 결정하게 됩니다.
언론사들과 AI 기업 간의 전면전은 결국 돈의 흐름을 재편하려는 시도입니다. 정보를 생산하는 사람이 가질 몫과, 그 정보를 가공하고 전달하는 기술 기업이 가질 몫 사이의 줄다리기입니다. 그리고 이 싸움의 다음 전선은 작가들의 법정에서 펼쳐지고 있습니다.
2026년 1월 현재, Perplexity AI를 둘러싼 소송이 더 강렬해 지고 있습니다.
가장 앞선 전선은 다우존스입니다.
월스트리트저널과 뉴욕포스트의 모회사가 2024년 10월에 제기한 이 소송은 이제 본격적인 증거 싸움에 돌입했습니다.
2025년 8월 21일, 캐서린 폴크 파일라 판사는 Perplexity의 소송 기각 신청과 캘리포니아 이송 신청을 모두 기각했습니다. 뉴욕에 사무실을 두고, 직원을 고용하고, 타임스퀘어에 광고판을 세운 회사가 뉴욕 법원의 관할을 피할 수는 없었습니다.
사실 심리(Fact Discovery) 마감일은 2026년 6월 4일로 잡혔습니다.
지금 양측 변호사들은 문서를 요구하고, 증인을 소환하고, 상대방의 약점을 찾는 중입니다. 다우존스 측은 Perplexity의 소스 코드 공개를 요구하고 있습니다. Perplexity는 거부하고 있습니다. 이 코드 안에 RAG 시스템이 실제로 어떻게 콘텐츠를 처리하는지가 담겨 있기 때문입니다.
2025년 12월 5일, 두 개의 새로운 소송이 거의 동시에 접수되었습니다. 뉴욕타임스와 시카고 트리뷴. 뉴욕타임스의 소장은 한 가지를 더 강조했습니다. 저작권만이 아니라 상표권입니다.
랜엄법(Lanham Act) 위반. 논리는 이렇습니다. Perplexity가 허위 정보를 생성하면서 그 옆에 뉴욕타임스 로고를 달았습니다. 마치 뉴욕타임스가 그렇게 보도한 것처럼. 이것은 브랜드 가치의 훼손입니다. 170년 된 신문사의 신뢰가 AI의 환각 때문에 손상되고 있다는 주장입니다.
흥미로운 절차적 결정이 있었습니다. 다우존스 사건 담당 판사는 뉴욕타임스 사건을 '관련 사건'으로 병합하는 것을 거부했습니다. 뉴욕타임스 사건은 버논 브로데릭 판사에게 배정되었습니다. Perplexity 입장에서는 악몽입니다. 비슷한 쟁점을 두 개의 다른 법정에서, 두 명의 다른 판사 앞에서, 두 번 싸워야 합니다.
시카고 트리뷴의 소송도 환각 문제를 집중적으로 거론했습니다. 트리뷴이 쓰지 않은 내용이 마치 트리뷴의 보도인 것처럼 표시되었다는 것입니다. 상표권 희석과 명예훼손까지 문제 삼았습니다.
2025년 10월에는 Reddit이 완전히 다른 각도에서 공격을 시작했습니다.
저작권이 아니라 DMCA 제1201조, 접근통제 우회 금지 조항입니다. Reddit은 Perplexity뿐 아니라 데이터 스크래핑 중개업체 세 곳(SerpApi, Oxylabs, AWMProxy)을 함께 제소했습니다. " 데이터 세탁"이라는 표현을 썼습니다.
Perplexity가 직접 Reddit을 긁지 못하자 구글 검색 결과를 통해 우회했다는 것입니다. Reddit은 함정을 팠습니다. 구글만 볼 수 있는 테스트 게시물을 올렸더니 몇 시간 만에 Perplexity 답변에 등장했습니다.
원고 목록은 계속 늘어나고 있습니다. 브리태니커 백과사전, US 뉴스 앤 월드 리포트, 일본과 이탈리아 언론사들까지. 현재 Perplexity를 상대로 진행 중인 소송은 최소 6건 이상입니다.
Perplexity의 주장은 일관됩니다. 커뮤니케이션 책임자 제시 드와이어의 말입니다. "언론사들은 100년 동안 새로운 기술 회사를 제소해 왔습니다. 라디오, TV, 인터넷, 소셜미디어, 이제 AI. 다행히도 한 번도 성공하지 못했습니다. 그랬다면 우리는 지금도 전보로 대화하고 있을 겁니다."
하지만 법정 밖에서는 다른 움직임도 있습니다. Perplexity는 타임, 포춘, 데어 슈피겔과 수익 공유 계약을 체결했습니다. Getty Images와도 파트너십을 맺었습니다.
소송과 협상이 동시에 진행되는 것입니다. 법정에서 지면 협상 테이블에서 더 많이 내야 합니다. 협상 테이블에서 합의하면 법정 싸움은 끝납니다. 양측 모두 이 계산을 하고 있습니다.
다우존스 사건의 증거개시 마감이 2026년 6월입니다. 그때까지 Perplexity의 소스 코드가 공개될지, 아니면 그 전에 합의가 이루어질지. 이 질문에 대한 답이 검색형 AI의 미래를 결정하게 됩니다.
나. 작가 집단소송과 창작의 정의
조지 R.R. 마틴은 《왕좌의 게임》 원작 소설을 쓰는 데 수십 년을 바쳤습니다. 문체는 독특하고, 세계관은 방대하며, 캐릭터는 복잡합니다. 어느 날 팬들이 그에게 이상한 제보를 해왔습니다. ChatGPT에게 "조지 R.R. 마틴 스타일로 왕좌의 게임 6부를 써줘"라고 입력했더니, 꽤 그럴듯한 소설을 써냈다는 것입니다. 마틴은 충격을 받았습니다.
(1) Authors Guild 및 작가 연합 소송: 스타일 모방과 2차적 저작물 성립 요건
2023년 9월, 미국 작가조합(Authors Guild)과 조지 R.R. 마틴, 존 그리샴, 조디 피코 등 유명 작가들이 OpenAI를 제소했습니다. 그들의 주장은 명료했습니다.
"동의하지 않았고, 신용을 얻지도 못했으며, 보상도 받지 못했다(No Consent, No Credit, No Compensation)."
2차적 저작물(derivative work)이라는 개념이 있습니다. 원곡을 그대로 틀지 않으면서도, 원곡을 바탕으로 리믹스나 영화등을 만드는 것입니다.
작가들은 AI가 자신들의 책을 통째로 학습하여 그들의 문체와 스타일을 모방한 텍스트를 생성할 수 있으며, 이것이 원작의 파생적 저작물에 해당한다고 주장했습니다.
그러나 법원은 신중했습니다. 저작권법은 구체적인 '표현'을 보호하지, 작가의 '화풍'이나 '스타일' 자체를 보호하지는 않습니다. 문체는 필체와 닮아 있습니다. 필체는 그 사람을 떠올리게 하지만, 그 자체가 저작권의 대상은 아닙니다.
2025년 4월 3일, OpenAI에 대한 여러 작가들의 집단소송을 다지구소송(MDL)으로 통합했습니다. 같은 해 10월 27일, 스타인 판사는 OpenAI의 기각 요청을 기각했습니다. 법원은 원고들이 직접 저작권 침해에 대한 일응의 주장(prima facie claim)을 충분히 제시했다고 판단했습니다. ChatGPT의 출력물과 작가들의 저작물 간에 실제 복제와 실질적 유사성이 충분히 주장되었다는 것입니다.
쟁점은 두 갈래로 정리됩니다.
하나는 학습 단계에서의 무단 복제입니다.
다른 하나는 출력에서의 실질적 유사성입니다.
작가 측은 '모델이 확률적으로 문장을 생성한다'는 설명이 대규모 복제에 기반한 경제적 이득 구조를 가리기 위한 연막이 될 수 있다고 주장합니다. 피고 측은 '개별 출력은 사용자 입력과 확률적 과정의 결과'라는 점을 들어 인과관계와 실질적 유사성의 입증 부담을 강조합니다.
2025년 4월 3일, 다지구소송 사법위원회(JPML)는 OpenAI에 대한 여러 작가들의 집단소송을 MDL No. 3143으로 통합했습니다. 뉴욕 남부지방법원 시드니 스타인 판사에게 배정되었습니다. 12개의 소송이 하나로 묶였습니다. Authors Guild 소송, 뉴욕타임스 소송, 사라 실버먼 소송, 마이클 셰이본 소송까지.
같은 해 10월 27일, 스타인 판사는 OpenAI의 기각 요청을 기각했습니다. 원고들이 직접 저작권 침해에 대한 일응의 주장(prima facie claim)을 충분히 제시했다고 판단한 것입니다. "ChatGPT의 요약이 원작의 플롯, 캐릭터, 테마를 앵무새처럼 흉내(parroting) 냈다"는 주장이 받아들여졌습니다.
법리 논쟁은 끝났습니다. 이제 증거 싸움입니다.
2026년 1월 현재, 양측은 증거개시(Discovery)의 전면전에 돌입했습니다.
법원은 1월 15일과 2월 11일에 연이은 증거개시 상태 회의를 소집했습니다. 핵심 쟁점은 OpenAI가 학습에 사용한 데이터셋의 정체입니다. 'Books1'과 'Books2'. 이 두 데이터셋이 모든 것의 열쇠입니다. 이야기는 2018년으로 거슬러 올라갑니다.
OpenAI 직원이 Library Genesis(LibGen)라는 불법 복제 사이트에서 수백만 권의 책을 다운로드했습니다. 이 데이터로 Books1과 Books2를 만들었습니다. 2020년 5월, OpenAI는 연구 논문에서 이 데이터셋을 GPT-3 학습에 사용했다고 공개적으로 밝혔습니다. 그리고 2022년, ChatGPT 출시 직전에 삭제했습니다.
왜 삭제했느냐. 이 질문이 수십억 달러의 손해배상을 결정합니다.
2024년 3월, OpenAI의 외부 변호사 조셉 그라츠는 작가 측 변호사에게 서한을 보냈습니다. "Books1과 Books2는 2021년 말 학습에서 제외되었고, 2022년 중반에 '사용하지 않음(non-use)' 을 이유로 삭제되었습니다."
그런데 작가 측이 이 '사용하지 않음'의 의미를 파고들자, OpenAI는 말을 바꿨습니다. 2025년 6월 13일, OpenAI는 그라츠 서한의 해당 부분을 철회하려 했습니다. 삭제 이유는 변호사와의 대화에서 나온 것이므로 변호사-의뢰인 특권(attorney-client privilege)으로 보호된다고 주장했습니다.
오나 왕 판사는 이를 받아들이지 않았습니다. 2025년 11월 24일, 그녀는 명령을 내렸습니다. "OpenAI는 '이유'를 말했다가(특권이 아님을 의미), 나중에 그 '이유'가 특권이라고 주장할 수 없다. OpenAI는 특권 주장을 '움직이는 표적'처럼 바꿔왔다."
법원은 OpenAI 내부 슬랙 채널의 메시지를 공개하라고 명령했습니다. "project-clear"와 "excise-libgen"이라는 이름의 채널. 직원들이 데이터셋 삭제를 논의한 곳입니다. 2022년 사내 변호사들과의 모든 서면 커뮤니케이션도 공개 대상입니다. LibGen에 대한 모든 내부 언급도. 마감은 2025년 12월 8일이었습니다. OpenAI 사내 변호사들의 증언 녹취는 12월 19일까지 완료하라고 했습니다.
OpenAI는 항소하겠다고 밝혔습니다. 하지만 2025년 12월 3일, 왕 판사는 재고 신청도 기각했습니다. 12월 5일, 스타인 판사는 OpenAI에 추가 의견서를 제출하라고 명령했습니다. 이 증거들이 왜 중요한가. '고의적 침해(willful infringement)'가 입증되면 게임이 바뀝니다. 저작권법상 고의적 침해는 작품당 최대 15만 달러의 법정 손해배상이 가능합니다. 수백만 권의 책이 관련되어 있습니다.
이론적 책임은 수백억 달러에 달할 수 있습니다. OpenAI가 불법 복제물임을 알면서도 사용했다면, 그리고 그 사실을 숨기기 위해 삭제했다면, 손해배상은 천문학적으로 뛰어오릅니다.
작가 측 변호사 저스틴 넬슨은 이미 다른 전선에서 승리한 경험이 있습니다. 그는 OpenAI가 개발 중인 모델에도 저작권 침해 데이터가 사용되고 있는지, 삭제된 데이터셋이 이름만 바꿔 여전히 사용되고 있는지를 추적하고 있습니다.
2026년 1월의 상황은 이렇게 요약됩니다. OpenAI가 학습 데이터를 얼마나 투명하게 공개하느냐, 그리고 그 데이터 속에 포함된 불법 복제물의 흔적을 작가들이 얼마나 찾아내느냐가 승패를 가를 것입니다.
OpenAI에 대한 압박은 소송 밖에서도 거세지고 있습니다. 경쟁사 Anthropic의 선례 때문입니다. 2025년 9월, Anthropic은 15억 달러를 지불하기로 합의했습니다. 미국 역사상 최대 규모의 저작권 합의금입니다. Anthropic의 15억 달러 합의는 이제 기준점이 되었습니다.
OpenAI가 법정에서 지면, 그보다 훨씬 더 많이 내야 할 것입니다. 이기더라도, 이미 수년간의 법률 비용과 평판 손상을 감수해야 합니다. 그리고 다음 전선은 이미 열려 있습니다. Meta도 같은 LibGen 데이터셋을 사용했다는 내부 문서가 공개되었습니다. 마크 저커버그가 "중간-높음 수준의 법적 위험"을 알면서도 승인했다는 증거입니다.
작가들의 법정 싸움은 이제 막 시작되었습니다.
(2) Anthropic 집단소송 및 합의 동향
2025년 9월 5일, 샌프란시스코 법원에서 숫자 하나가 읽혔습니다. 15억 달러. 방청석이 조용해졌습니다. 앤스로픽(Anthropic)이 작가들과의 소송에서 미국 저작권법 역사상 최대 규모의 합의에 도달한 것입니다.
이 사건의 시작은 2024년이었습니다. 작가 안드레아 바르츠(Andrea Bartz), 찰스 그래버(Charles Graeber), 커크 월러스 존슨(Kirk Wallace Johnson)이 앤스로픽을 제소했습니다.
앤스로픽이 자사의 AI 모델 '클로드(Claude)'를 학습시키는 과정에서 '라이브러리 제네시스(LibGen)'와 '파이러트 라이브러리 미러(PiLiMi)' 같은 해적판 도서 사이트의 데이터를 사용했다는 혐의였습니다.
2025년 6월, 캘리포니아 북부연방법원의 윌리엄 알섭(William Alsup) 판사가 결정적인 판결을 내렸습니다. 합법적으로 구매한 책을 학습에 사용하는 것은 "우리 생애에서 볼 가장 변형적인 것 중 하나"이며 공정이용에 해당한다. 그러나 해적판 저작물을 사용하는 것은 "본질적으로, 돌이킬 수 없이 침해적"이며 공정이용으로 볼 수 없다.
알섭 판사는 해적판 복제물에 대해서는 약식판결을 거부하고 재판을 명령했습니다. 미국 저작권법에 따르면 고의적 침해는 저작물당 최대 15만 달러의 법정 손해배상을 발생시킬 수 있습니다. 앤스로픽이 해적판으로 다운로드한 책이 약 50만 권이었습니다. 계산을 해보면 잠재적 책임이 700억 달러를 넘을 수 있었습니다. 회사 전체를 날릴 수 있는 금액이었습니다.
앤스로픽은 협상 테이블에 앉았습니다. 합의 조건은 다음과 같았습니다. 최소 15억 달러를 지불한다. 책 한 권당 약 3,000달러가 분배된다. 해적판 사이트에서 획득한 저작물의 사본을 파기한다. 그러나 이 합의는 과거 행위에 대해서만 면책을 부여합니다. 미래의 훈련이나 AI 출력물에 대한 침해 청구는 포함되지 않습니다.
2025년 9월 25일, 알섭 판사는 이 합의를 예비 승인했습니다. 최종 승인 심리는 2026년 4월로 예정되어 있습니다. 작가조합 CEO 메리 라젠버거(Mary Rasenberger)는 이렇게 말했습니다. " 이 역사적인 합의는 AI 기업들이 단순히 양질의 대규모 언어 모델을 개발하기 위해 책이 필요하다는 이유로 작가들의 창작물을 빼앗을 수 없다는 것을 인정하는 중요한 단계입니다."
이 합의가 남긴 교훈은 세 가지입니다. 첫째, 데이터 취득 경로가 소송 리스크의 중심으로 올라왔습니다. 둘째, "삭제와 정리"가 단순한 윤리 문제가 아니라 구제와 손해액 산정의 핵심 변수가 되었습니다. 셋째, 라이선스 시장이 '선택지'가 아니라 '방어선'으로 기능하기 시작했습니다.
(3) Silverman, Kadrey, Chabon v. Meta MDL 통합소송
2023년 7월 7일, 코미디언 사라 실버맨은 자신의 회고록 『더 베드웨터(The Bedwetter)』가 메타의 AI에 먹혀 들어갔다는 사실을 알게 되었습니다. 그녀는 작가 리처드 캐드레이, 크리스토퍼 골든과 함께 메타를 제소했습니다.
소송은 곧 마이클 셰이본, 주노 디아스, 앤드루 숀 그리어 등 13명의 작가로 확대되었습니다. 퓰리처상 수상작 두 편이 포함되어 있었습니다.
그들이 지목한 것은 'Books3'라는 데이터셋이었습니다. 약 19만 권의 책. 대부분이 Bibliotik이라는 섀도우 라이브러리에서 불법 복제된 것들이었습니다. 메타는 이 데이터셋으로 LLaMA를 학습시켰습니다.
2025년 초 공개된 메타 내부 문건은 더 충격적이었습니다. 마크 저커버그가 LibGen 데이터셋 사용을 직접 승인했으며, 그것이 해적판임을 완전히 인지하고 있었다는 내용이었습니다.
2025년 6월 25일, 캘리포니아 북부연방법원의 빈스 차브리아 판사는 메타의 손을 들어주었습니다. AI 학습을 위해 저작권 있는 책을 무단으로 복제한 행위가 공정이용에 해당한다고 판결한 것입니다. "고도로 변형적(highly transformative)"이라는 표현을 썼습니다.
이틀 전, 다른 법정에서는 정반대의 판결이 나왔습니다. 윌리엄 알섭 판사가 Anthropic 사건에서 내린 판단이었습니다. 알섭 판사는 합법적으로 구입한 책을 스캔해 AI를 학습시키는 것은 공정이용이라고 인정했습니다. "우리 생애 가장 변형적인 용도 중 하나"라고까지 했습니다. 그러나 해적판 사이트에서 다운로드한 책을 사용한 것은 공정이용이 아니라고 선을 그었습니다. Anthropic은 15억 달러를 지불하고 합의했습니다.
같은 주에 나온 두 판결. 같은 쟁점처럼 보이지만 결과는 달랐습니다. 왜일까요.
두 판사가 바라본 쟁점이 달랐습니다. 알섭 판사는 "어떻게 데이터를 취득했는가"를 물었습니다. 불법 복제 사이트에서 다운로드한 행위 자체가 공정이용의 보호를 받을 수 없다고 판단했습니다.
차브리아 판사는 "데이터를 어떻게 사용했는가"를 물었습니다. AI 학습이라는 목적이 원작과 전혀 다른 변형적 용도이므로 공정이용이라고 보았습니다.
결정적 차이는 또 있었습니다.
원고 측의 입증 실패입니다. 차브리아 판사는 판결문에서 이렇게 썼습니다.
"메타는 복제가 시장 피해를 야기하지 않았다는 증거를 제시했습니다. 원고들은 반대되는 경험적 증거를 전혀 제시하지 못했습니다." LLaMA가 원작과 실질적으로 유사한 텍스트를 생성한다는 증거가 없었습니다. 피해가 없으면 승소도 없습니다.
그러나 차브리아 판사는 중요한 단서를 달았습니다. "이 판결은 이 사건의 구체적 상황에만 적용됩니다." 그리고 덧붙였습니다. "원고들이 LLaMA가 자신들의 작품과 직접 경쟁하는 저작물을 생성하도록 허용한다는 증거를 제시했다면 결과가 달랐을 수 있습니다."
이 문장이 원고들에게 새로운 길을 열어주었습니다.
2025년 10월 27일, 메타는 원고 측에 통지를 보냈습니다. 과거 섀도우 라이브러리에서 토렌트 프로토콜을 통해 파일을 다운로드한 것에 대한 "새로운 증거"를 발견했다는 내용이었습니다. 11월 5일, 양측은 일정 연장을 요청했습니다. 약식판결 심리가 2026년 4월 2일에서 4월 30일로 연기되었습니다.
새로운 전략이 드러났습니다.
학습 단계의 공정이용을 다투는 대신, 토렌팅 행위 자체를 공격하는 것입니다. 알섭 판사가 Anthropic 사건에서 확립한 법리를 차브리아 판사에게도 적용하려는 시도입니다. 메타가 BitTorrent 프로토콜로 LibGen에서 수백만 권의 책을 다운로드한 것은, Anthropic이 같은 사이트에서 데이터를 취득한 것과 본질적으로 같습니다. 취득 행위의 불법성은 이후의 변형적 사용으로 치유되지 않습니다.
2026년 1월 현재, 소송은 계속되고 있습니다. 차브리아 판사의 공정이용 판결은 확정되었지만, 그것은 이야기의 절반에 불과합니다. 나머지 절반인 토렌팅 쟁점이 4월 30일 심리를 기다리고 있습니다. 만약 원고들이 이 쟁점에서 승리하면, 학습 단계 공정이용 판결은 사실상 무력화됩니다. 아무리 변형적인 학습을 했더라도, 불법으로 취득한 데이터라면 보호받을 수 없기 때문입니다.
Anthropic은 15억 달러로 문제를 해결했습니다. 메타는 법정에서 끝까지 싸우기로 했습니다. 그 선택이 현명했는지는 4월 30일 이후에 알게 될 것입니다.
다. 코드 생성 AI와 오픈소스 라이선스
매튜 버터릭(Matthew Butterick)은 변호사이자 프로그래머입니다. 흔치 않은 이력의 소유자인 그는 2022년 깃허브(GitHub)의 AI 도구인 '코파일럿(Copilot)'을 사용해보다가 묘한 기시감을 느꼈습니다. 코파일럿이 제안해준 코드 조각이 자신이 과거에 작성했던 코드, 혹은 오픈소스 커뮤니티에서 본 코드와 너무나 똑같았습니다.
(1) GitHub Copilot 소송: 오픈소스 라이선스 위반 논쟁
오픈소스 소프트웨어는 '공유'의 정신 위에 세워진 거대한 탑입니다. 개발자들은 자신의 코드를 누구나 볼 수 있게 공개합니다. 다른 사람들은 그 코드를 가져다 씁니다. 여기에는 중요한 규칙이 있습니다.
바로 '라이선스'입니다. 길거리에서 나눠주는 무료 레시피와 비슷하지만, 조건이 적혀 있는 종이입니다. "가져가도 되지만 출처를 남기라", "같은 조건으로 다시 공개하라" 같은 문장이 그 조건입니다. 이것은 개발자들 사이의 신성한 약속입니다.
2022년 11월 3일, 버터릭과 익명의 개발자들이 마이크로소프트, 깃허브, OpenAI를 상대로 캘리포니아 북부연방법원에 집단소송을 제기했습니다.
코파일럿이 수십억 줄의 오픈소스 코드를 학습했다. 그리고 사용자가 코드를 짤 때, 그 학습한 내용을 바탕으로 자동 완성을 해준다. 문제는 코파일럿이 코드를 뱉어낼 때, 원작자의 이름이나 라이선스 고지를 싹 지워버린다는 점입니다.
버터릭은 이것을 "소프트웨어 역사상 가장 거대한 저작권 세탁"이라고 불렀습니다. 원고 측의 핵심 주장은 DMCA(디지털 밀레니엄 저작권법) 제1202조 위반이었습니다. 이 조항은 '저작권 관리 정보(CMI)'를 무단으로 제거하거나 변조하는 행위를 막는 장치입니다. 쉽게 말하면 "책 표지의 저자명을 뜯어내고 복사본을 뿌리는 행위"를 금지하는 것입니다. 2024년 7월, 존 타이거(Jon S. Tigar) 판사는 원고들에게 큰 타격을 입혔습니다.
DMCA 제1202조(b) 청구를 기각한 것입니다. 판사의 논리는 이랬습니다. 코파일럿이 생성하는 코드는 원본과 "동일"하지 않다. 따라서 DMCA가 적용되지 않는다. 이것이 '동일성 요건(identicality requirement)'입니다.
원고들은 포기하지 않았습니다. 2024년 9월 27일, 타이거 판사는 원고들의 요청을 받아들여 이 쟁점을 제9순회항소법원에 중간항소(interlocutory appeal)로 보내도록 인증했습니다.
핵심 질문은 이것입니다. DMCA 제1202조(b)는 AI 출력물이 원본과 "동일"해야만 적용되는가, 아니면 "유사"해도 적용되는가? 17 U.S.C. § 1202(b)
(b) REMOVAL OR ALTERATION OF COPYRIGHT MANAGEMENT INFORMATION.—No person shall, without the authority of the copyright owner or the law—
(1) intentionally remove or alter any copyright management information,
(2) distribute or import for distribution copyright management information knowing that the copyright management information has been removed or altered without authority of the copyright owner or the law, or(3) distribute, import for distribution, or publicly perform works, copies of works, or phonorecords, knowing that copyright management information has been removed or altered without authority of the copyright owner or the law, knowing, or, with respect to civil remedies under section 1203, having reasonable grounds to know, that it will induce, enable, facilitate, or conceal an infringement of any right under this title.
그리고 제1202조(c)에서 "저작권 관리 정보(copyright management information)"의 정의가 규정되 어 있습니다.
(c) DEFINITION.—As used in this section, the term "copyright management information" means any of the following information conveyed in connection with copies or phonorecords of a work or performances or displays of a work, including in digital form:
(1) The title and other information identifying the work, including the information set forth on a notice of copyright.
(2) The name of, and other identifying information about, the author of a work.
(3) The name of, and other identifying information about, the copyright owner of the work, including the information set forth in a notice of copyright. 이 질문에 대한 답이 AI 산업 전체의 규칙을 바꿀 수 있습니다.
만약 항소법원이 "동일성 요건"을 확인한다면, AI 기업들은 코드를 약간만 변형해도 DMCA 책임을 피할 수 있습니다. 반대로 "유사성"만으로도 충분하다고 판결한다면, 코딩 AI 도구들은 학습 데이터에 포함된 모든 오픈소스 코드의 라이선스를 추적하고 준수해야 하는 막대한 부담을 지게 됩니다.
한편 타이거 판사는 오픈소스 라이선스 위반 및 계약 위반 청구는 기각하지 않았습니다. 오픈소스 라이선스를 실제 구속력 있는 계약으로 취급한 것입니다. 이 청구들은 현재 진행 중이며, 원고들은 코파일럿이 자신들의 코드를 '암기(memorization)'하여 출력한다는 증거를 보강하고 있습니다.
현재 상태: 제9순회항소법원에서 구두변론 일정 또는 판결을 대기 중. 1심 소송은 항소심 판결 시까지 중지(stayed) 상태입니다. 이 판결은 AI 저작권 분쟁 전반에 선례적 영향을 미칠 것으로 예상됩니다.
(2) 코딩 AI의 학습 데이터 적법성 문제
코딩 AI와 관련된 분쟁은 '공정이용' 논리와 '계약 위반' 논리가 정면으로 충돌하는 지점입니다. 학습 데이터의 적법성은 "재료를 어디서 샀는지" 문제입니다.
마이크로소프트와 OpenAI의 주장은 단호합니다. 깃허브의 공개된 코드를 학습하는 것은 공정이용에 해당한다. AI가 생성한 코드는 원본 코드의 변형일 뿐 복제가 아니다. 아주 짧은 코드 조각(Snippet)은 저작권으로 보호받을 수 없다. "for (int i=0; i<10; i++)" 같은 단순한 반복문이 누구의 소유일 수는 없다.
반대로 개발자 진영은 이렇게 주장합니다. 오픈소스 코드는 '누구나 볼 수 있다'는 것이지 '누구나 마음대로 상업적으로 이용할 수 있다'는 뜻이 아니다. GPL 라이선스는 파생물 공개(카피레프트) 의무를 붙인다. MIT 라이선스도 저작자 표시를 요구한다. 코파일럿이 유료 구독 모델로 제공되면서, 타인의 노력으로 만든 코드를 이용해 플랫폼 기업만 수익을 독점한다.
기술적으로는 세 가지 쟁점이 반복됩니다.
첫째, 학습 단계 복제가 일시적 복제인지, 영구적 복제인지입니다.
둘째, 출력이 특정 저장소 코드의 '실질적 부분'을 재현하는지입니다.
셋째, 시스템이 출처와 라이선스를 추적할 수 있음에도 설계상 배제했는지입니다.
이 축에서 기업들이 꺼내는 방패는 "확률적 생성"입니다. 원고들이 내미는 칼은 "중복 출력과 패턴 재현의 통계"입니다. 깃허브의 자체 FAQ조차 "약 1%의 경우, 제안이 학습 세트와 일치하는 150자 이상의 코드 조각을 포함할 수 있다"고 인정합니다. 독립적인 분석에 따르면 " 코파일럿이 활성화된 파일에서, 파이썬 같은 인기 프로그래밍 언어 코드의 거의 40%를 코파일럿이 차지한다"고 합니다.
원고들은 DMCA 위반에 대한 법정 손해배상만으로도 90억 달러를 초과할 수 있다고 추산합니다. 이 소송은 프로그래머라는 직업의 미래와도 연결되어 있습니다. 아이러니하게도 프로그래머들은 자신들의 코드를 공유함으로써 자신들을 대체할 AI를 훈련시킨 셈이 되었습니다.
오픈소스 커뮤니티 내에서는 AI 훈련에 대한 명시적 조항을 포함하는 새로운 라이선스 개발에 대한 논의가 진행 중입니다. 일부 프로젝트는 "AI 훈련 제외" 조항을 라이선스에 추가하고 있습니다. 코드는 텍스트나 이미지보다 구조가 명확하고, 저작권 라이선스 규칙이 비교적 잘 정립되어 있습니다. 따라서 이 소송의 결과는 텍스트나 이미지 분야의 판결보다 먼저 나올 가능성이 높으며, 향후 AI 저작권 전쟁의 중요한 가늠자가 될 것입니다.
법원은 이제 결정해야 합니다. 공유의 정신으로 만들어진 오픈소스 생태계가, 역설적으로 그 생태계를 갉아먹는 AI의 연료가 되는 것을 허용할 것인지 말입니다. 그리고 이 결정은 언론사의 기사, 작가의 책, 개발자의 코드 모두에 적용될 원칙을 만들어갈 것입니다.
