생성형 AI 학습데이터 저작권 리스크: 공정이용과 데이터 출처

생성형 AI 학습데이터와 산출물 저작권 리스크 점검 흐름 — 생성형 AI 저작권 리스크는 데이터 출처, 보관 방식, 시장효과, 산출물 통제를 함께 보아야 합니다.

생성형 AI를 둘러싼 저작권 논쟁은 더 이상 “AI 학습은 공정이용인가”라는 추상적 질문에 머물러 있지 않습니다. 최근 미국 판례와 미국 저작권청 보고서의 흐름을 보면, 실무상 더 중요한 질문은 데이터가 어디서 왔는지, 어떤 방식으로 복제·보관되었는지, 학습 이후에도 원본이 남아 있는지, 그리고 AI 서비스나 산출물이 권리자의 시장을 대체하거나 희석시키는지입니다.

미국 저작권청은 생성형 AI 학습 문제를 다루면서, 저작권 있는 저작물이 AI 시스템 개발 과정에서 대량으로 사용되고 있고 그 과정의 여러 행위가 권리자의 동의나 보상을 필요로 하는지에 대한 논쟁이 본격화되었다고 설명합니다. 특히 공정이용 판단은 일률적 결론이 아니라 저작물의 종류, 데이터 출처, 이용 목적, 산출물 통제, 시장효과가 함께 고려되는 사실관계 중심의 판단입니다.

Bartz v. Anthropic: 학습과 불법 데이터 보관은 별개의 문제입니다

Bartz v. Anthropic 판결의 의미는 “AI 학습은 언제나 공정이용”이라는 선언이 아닙니다. 오히려 이 사건의 핵심은 법원이 AI 개발 과정을 하나의 행위로 묶지 않고, 학습용 이용, 합법적으로 취득한 인쇄본의 디지털 변환, 해적판 복제본의 중앙 라이브러리 구축·보관을 서로 다른 행위로 분리해 판단했다는 점입니다.

법원은 Claude 모델 학습을 위해 저작권 있는 책을 사용한 행위에 대해 변형적 이용의 성격을 인정했습니다. 또한 합법적으로 구입한 종이책을 스캔해 디지털 사본으로 대체한 행위도 일정한 조건에서는 공정이용으로 볼 수 있다고 판단했습니다. 그러나 해적판 복제본을 다운로드해 중앙 라이브러리로 구축·보관한 행위까지 같은 논리로 보호하지는 않았습니다. 이후 해적판 도서 관련 쟁점은 대규모 합의 절차로 이어졌다는 점에서도, 데이터 취득 단계의 위법성은 AI 학습 목적만으로 가볍게 볼 수 없습니다.

기업 실무에서 이 지점은 매우 중요합니다. AI 모델이 최종적으로 원문을 그대로 출력하지 않는다고 해서 데이터 취득 단계의 위험이 사라지는 것은 아닙니다. “어차피 학습에만 썼다”는 설명만으로는 부족합니다. 데이터가 불법 복제본인지, 학습 후에도 보관되었는지, 다른 프로젝트에 재사용될 수 있었는지, 내부자가 접근할 수 있었는지가 모두 리스크 판단의 대상입니다.

Thomson Reuters v. Ross: 경쟁 시장을 침해하면 공정이용 방어는 약해집니다

Thomson Reuters v. Ross Intelligence 사건에서는 AI 학습 목적의 이용이 공정이용으로 인정되지 않았습니다. 이 사건은 전형적인 생성형 AI 챗봇 사건은 아니지만, AI 학습데이터 리스크를 이해하는 데 중요한 판례입니다. Ross는 Westlaw와 경쟁하는 법률 리서치 서비스를 개발하려 했고, 그 과정에서 Westlaw의 headnote 등 저작권 있는 편집 콘텐츠가 포함된 자료를 학습에 활용했습니다.

델라웨어 연방지방법원은 Ross의 이용이 상업적이고 경쟁적이며, Thomson Reuters의 잠재적 AI 학습데이터 시장 또는 파생상품 시장에 영향을 줄 수 있다고 보았습니다. 2026년에는 이 사건이 제3순회 항소심에서도 계속 다투어지고 있어, AI 학습데이터와 공정이용의 경계가 여전히 형성 중임을 보여줍니다.

따라서 기업이 특히 조심해야 할 영역은 이미 라이선스 시장이 존재하거나 권리자가 유료 데이터베이스, 전문 콘텐츠, 뉴스, 법률, 교육, 이미지, 음악 등 고부가가치 콘텐츠를 제공하고 있는 시장입니다. 그 데이터를 이용해 권리자와 경쟁하는 서비스를 만든다면, “AI 학습”이라는 기술적 명분만으로 공정이용을 주장하기는 어렵습니다.

Kadrey v. Meta: 승소한 사건도 안전지대의 선언은 아닙니다

Kadrey v. Meta 사건에서는 Meta가 공정이용 판단에서 유리한 결론을 얻었습니다. 그러나 이 판결 역시 AI 기업에게 백지수표를 준 것은 아닙니다. 법원은 원고들이 시장손해 또는 시장희석에 관한 충분한 증거를 제시하지 못했다는 점을 중시했습니다. 즉, AI 학습의 변형성이 강력한 요소가 될 수는 있지만, 그것만으로 항상 충분한 것은 아닙니다.

원고가 AI 산출물이 기존 저작물 시장을 대체하거나, 특정 장르·문체·주제의 대량 산출로 시장을 희석한다는 점을 구체적으로 입증한다면 다른 사건에서는 전혀 다른 결론이 나올 수 있습니다. 생성형 AI의 산출물 규모와 배포 속도를 고려하면, 시장효과는 앞으로도 공정이용 판단에서 핵심 쟁점으로 남을 가능성이 높습니다.

산출물 리스크: AI가 만들었다고 자유롭게 쓸 수 있는 것은 아닙니다

학습데이터 문제만큼 중요한 것이 산출물 리스크입니다. 기업이 생성형 AI로 만든 이미지, 광고문구, 보고서, 캐릭터, 코드, 음악, 영상 등을 영업에 활용할 때에는 두 가지 질문을 해야 합니다. 첫째, 그 산출물에 대해 우리 회사가 저작권 보호를 받을 수 있는지입니다. 둘째, 그 산출물이 타인의 저작권을 침해할 위험은 없는지입니다.

미국 저작권청은 AI 산출물의 저작권 보호 여부와 관련해, 생성형 AI가 만든 결과물이라도 인간의 창작적 기여가 충분히 반영된 경우에는 보호 가능성이 있지만, 단순한 프롬프트 입력만으로는 저작권 보호가 인정되기 어렵다는 입장을 제시하고 있습니다. 결국 산출물의 저작권성 판단에서도 인간 저작자의 선택, 배열, 수정, 편집, 표현적 기여가 핵심입니다.

따라서 기업이 AI 산출물을 핵심 자산으로 삼으려면 결과물만 보관해서는 부족합니다. 누가 어떤 프롬프트를 입력했는지, 어떤 후보 결과물을 선택했는지, 어떤 부분을 수정·편집·배열했는지, 최종 산출물에 인간의 창작적 선택이 어떻게 반영되었는지를 기록해야 합니다. 반대로 산출물이 특정 저작물의 문장, 이미지 구성, 캐릭터 표현, 코드 구조, 음악적 표현을 실질적으로 재현한다면, AI를 거쳤다는 사정만으로 침해 책임이 사라지지는 않습니다.

기업 대응 방향: 저작권 리스크 관리는 데이터 거버넌스입니다

AI 저작권 리스크 관리는 법무 검토 문구 몇 줄로 해결되는 문제가 아닙니다. 데이터 수집 단계부터 모델 개발, 서비스 출시, 산출물 검수, 계약 관리까지 이어지는 거버넌스의 문제입니다.

1. 데이터 출처를 등급화해야 합니다

직접 창작 데이터, 라이선스 데이터, 퍼블릭 도메인 자료, 오픈라이선스 자료, 웹 크롤링 자료, 제3자 제공 데이터, 출처 불명 데이터, 불법 복제 의심 데이터는 같은 방식으로 관리될 수 없습니다. 특히 출처가 불명확하거나 해적판·무단 스크래핑 가능성이 있는 데이터는 학습 목적 이전에 취득 단계에서 이미 중대한 리스크를 가집니다.

2. 학습용 복제와 보관용 복제를 구별해야 합니다

Bartz v. Anthropic의 핵심도 여기에 있습니다. 학습 과정에서 일시적으로 필요한 복제와 원본 저작물을 중앙 라이브러리로 계속 보관하는 행위는 법적으로 다르게 평가될 수 있습니다. 학습 후 원천 파일을 삭제했는지, 접근 권한은 제한되어 있는지, 다른 프로젝트에 재사용되지 않는지, 삭제와 보관에 관한 로그가 남아 있는지가 중요합니다.

3. 산출물 통제 체계를 갖추어야 합니다

4. 계약을 통해 책임 분배를 명확히 해야 합니다

결론: AI 학습 자체보다 데이터 공급망을 먼저 보아야 합니다

미국 판례는 아직 정리 중입니다. 그러나 현재까지의 흐름은 분명합니다. 법원은 생성형 AI 학습을 무조건 금지하지도, 무조건 허용하지도 않습니다. 대신 이용 목적, 데이터 출처, 보관 방식, 경쟁관계, 시장효과, 산출물 통제 여부를 종합적으로 살핍니다.

기업이 던져야 할 질문은 단순히 “AI 학습은 공정이용인가”가 아닙니다. 더 정확한 질문은 다음과 같습니다. 이 데이터는 적법하게 취득되었습니까. 학습 후 원본은 어떻게 처리됩니까. 산출물이 권리자의 시장을 대체하거나 희석시킬 가능성은 없습니까. 그리고 그 전 과정을 입증할 수 있는 기록이 남아 있습니까.

생성형 AI 학습데이터·산출물 저작권 리스크