บริษัท AI หลายแห่งดิ้นรนเพื่อหาข้อมูลฝึกโดยลักลอบใช้ข้อมูลลิขสิทธิ์

การเข้าถึงข้อมูลเริ่มไม่เพียงพอต่อความต้องการ

Artherlus7 April 2024

103 น้อยกว่า 1 นาที

The Wall Street Journal รายงานเมื่อต้นสัปดาห์ที่ผ่านมาว่า บริษัท AI กำลังประสบปัญหาในการรวบรวมข้อมูลการฝึกคุณภาพสูง ล่าสุด The New York Times ได้เปิดเผยรายละเอียดเพิ่มเติม เกี่ยวกับวิธีที่บริษัทต่าง ๆ จัดการกับปัญหา

OpenAI ต้องการข้อมูลการฝึกจำนวนมาก จึงพัฒนาโมเดลการถอดเสียง Whisper เพื่อข้ามขีดจำกัด โดยถอดความวิดีโอ YouTube กว่าล้านชั่วโมง เพื่อฝึกโมเดลภาษาขนาดใหญ่ GPT-4

บริษัท AI หลายแห่งดิ้นรนเพื่อหาข้อมูลฝึกโดยลักลอบใช้ข้อมูลลิขสิทธิ์

The New York Times รายงานว่า OpenAI รู้ว่าการกระทำนี้ ผิดกฎหมาย แต่บริษัทเชื่อว่า เป็นการใช้งานโดยชอบธรรม Greg Brockman ประธาน OpenAI มีส่วนเกี่ยวข้องโดยตรง ในการรวบรวมวิดีโอที่ใช้

OpenAI อ้างว่า บริษัทใช้ “แหล่งข้อมูลจำนวนมาก” รวมถึง “ข้อมูลที่เปิดเผยต่อสาธารณะ” และ “ความร่วมมือสำหรับข้อมูลที่ไม่เปิดเผยต่อสาธารณะ”

Google “เห็นรายงานที่ยังไม่ยืนยัน” เกี่ยวกับกิจกรรมของ OpenAI และย้ำว่า ห้ามไม่ให้คัดลอกหรือดาวน์โหลดเนื้อหา YouTube โดยไม่ได้รับอนุญาต

ที่มา