Meta อาจตั้งใจใช้งานข้อมูลละเมิดลิขสิทธิ์ในการฝึก AI ของตัวเอง

โดยได้รับการอนุมัติในการใช้งานจาก Mark Zuckerberg

Artherlus10 January 2025

59 ภายใน 1 นาที

ในคดีฟ้องร้องลิขสิทธิ์ที่ยื่นฟ้อง Meta บริษัทแม่ของ Facebook และ Instagram ผู้ฟ้องอ้างว่า Mark Zuckerberg ซีอีโอของ Meta ได้อนุมัติให้ทีมงานที่พัฒนาโมเดล Llama AI ใช้ข้อมูลจากหนังสือและบทความอิเล็กทรอนิกส์ที่ละเมิดลิขสิทธิ์ในการฝึกโมเดล AI

คดี Kadrey v. Meta เป็นหนึ่งในหลาย ๆ คดีที่ยื่นฟ้องบริษัทเทคโนโลยียักษ์ใหญ่ที่พัฒนา AI โดยกล่าวหาว่าบริษัทเหล่านี้ฝึกโมเดลจากผลงานที่มีลิขสิทธิ์โดยไม่ได้รับอนุญาต ซึ่งส่วนใหญ่จำเลยเช่น Meta ยืนยันว่าพวกเขาได้รับการคุ้มครองจากหลักการ fair use ของกฎหมายสหรัฐฯ ที่อนุญาตให้ใช้ผลงานที่มีลิขสิทธิ์ในการสร้างสิ่งใหม่ ๆ โดยไม่ละเมิดลิขสิทธิ์ตราบใดที่การใช้งานมีความเปลี่ยนแปลงอย่างมีนัยสำคัญ ผู้สร้างหลายคนยังคงไม่เห็นด้วยกับข้อโต้แย้งนี้

เอกสารที่ถูกเปิดเผยเมื่อวันพุธที่ผ่านมาในศาลแขวงสหรัฐฯ สำหรับเขตทางตอนเหนือของแคลิฟอร์เนีย เผยให้เห็นว่าทีมทนายของผู้ฟ้องในคดี Kadrey v. Meta ซึ่งรวมถึงผู้เขียนชื่อดังอย่าง Sarah Silverman และ Ta-Nehisi Coates ได้เล่าถึงคำให้การของ Meta เมื่อปลายปีที่ผ่านมา โดยเปิดเผยว่า Zuckerberg อนุมัติให้ใช้ข้อมูลจาก LibGen ซึ่งเป็นแหล่งที่ให้บริการข้อมูลที่ละเมิดลิขสิทธิ์ในการฝึก Llama AI

Meta อาจตั้งใจใช้งานข้อมูลละเมิดลิขสิทธิ์ในการฝึก AI ของตัวเอง

LibGen หรือที่เรียกตัวเองว่า links aggregator เป็นแหล่งที่ให้การเข้าถึงผลงานที่มีลิขสิทธิ์จากสำนักพิมพ์ต่าง ๆ เช่น Cengage Learning, Macmillan Learning, McGraw Hill และ Pearson Education ซึ่ง LibGen เคยถูกฟ้องหลายครั้งและถูกสั่งปิดและปรับเงินหลายสิบล้านดอลลาร์ในข้อหาละเมิดลิขสิทธิ์

ตามคำให้การของ Meta ที่ถูกนำเสนอโดยทนายฝ่ายโจทก์ Zuckerberg ได้อนุมัติให้ใช้ LibGen ในการฝึกอย่างน้อยหนึ่งในโมเดล Llama ของ Meta แม้ว่าจะมีข้อกังวลจากทีมผู้บริหาร AI ของ Meta และบุคคลอื่นในบริษัท ซึ่งพนักงานของ Meta เรียก LibGen ว่าเป็น “ชุดข้อมูลที่เรารู้ว่าเป็นข้อมูลที่ละเมิดลิขสิทธิ์” และมีการเตือนว่า “การใช้ข้อมูลนี้อาจส่งผลกระทบต่อการเจรจากับหน่วยงานกำกับดูแล”

เอกสารที่เปิดเผยยังกล่าวถึงการที่ Meta ได้พยายามปกปิดการละเมิดลิขสิทธิ์โดยการลบข้อมูลเกี่ยวกับลิขสิทธิ์จากข้อมูลใน LibGen ซึ่งรวมถึงคำว่า copyright และ acknowledgments จาก e-books ที่นำมาใช้ในการฝึก Llama

การค้นพบนี้สะท้อนให้เห็นว่า Meta อาจใช้วิธีการที่ผิดกฎหมายในการเก็บข้อมูลจาก LibGen โดยการดาวน์โหลดไฟล์จากระบบ torrent ซึ่งเป็นวิธีการกระจายไฟล์ผ่านอินเทอร์เน็ต ที่ต้องให้ผู้ใช้งานอัปโหลดไฟล์ที่ต้องการดาวน์โหลดไปพร้อม ๆ กัน

แม้ว่าคดีนี้จะยังไม่ได้รับการตัดสิน และปัจจุบันยังเกี่ยวข้องกับโมเดล Llama รุ่นแรก ๆ ของ Meta เท่านั้น แต่หากศาลเชื่อมั่นในข้อโต้แย้งเรื่องการใช้ fair use ของ Meta อาจตัดสินในฝ่ายของบริษัทได้

อย่างไรก็ตาม ข้อกล่าวหาดังกล่าวสร้างความเสียหายต่อชื่อเสียงของ Meta โดยที่ผู้พิพากษา Vince Chhabria ที่รับผิดชอบคดีได้สั่งปฏิเสธคำร้องของ Meta ที่ขอให้ปิดข้อมูลบางส่วนในเอกสาร โดยระบุว่า “ชัดเจนว่า Meta ยื่นคำร้องเพื่อหลีกเลี่ยงการเปิดเผยข้อมูลที่อาจเป็นผลเสียต่อบริษัท”

ที่มา