บริษัท AI หลายแห่งดิ้นรนเพื่อหาข้อมูลฝึกโดยลักลอบใช้ข้อมูลลิขสิทธิ์
การเข้าถึงข้อมูลเริ่มไม่เพียงพอต่อความต้องการ
The Wall Street Journal รายงานเมื่อต้นสัปดาห์ที่ผ่านมาว่า บริษัท AI กำลังประสบปัญหาในการรวบรวมข้อมูลการฝึกคุณภาพสูง ล่าสุด The New York Times ได้เปิดเผยรายละเอียดเพิ่มเติม เกี่ยวกับวิธีที่บริษัทต่าง ๆ จัดการกับปัญหา
OpenAI ต้องการข้อมูลการฝึกจำนวนมาก จึงพัฒนาโมเดลการถอดเสียง Whisper เพื่อข้ามขีดจำกัด โดยถอดความวิดีโอ YouTube กว่าล้านชั่วโมง เพื่อฝึกโมเดลภาษาขนาดใหญ่ GPT-4
The New York Times รายงานว่า OpenAI รู้ว่าการกระทำนี้ ผิดกฎหมาย แต่บริษัทเชื่อว่า เป็นการใช้งานโดยชอบธรรม Greg Brockman ประธาน OpenAI มีส่วนเกี่ยวข้องโดยตรง ในการรวบรวมวิดีโอที่ใช้
OpenAI อ้างว่า บริษัทใช้ “แหล่งข้อมูลจำนวนมาก” รวมถึง “ข้อมูลที่เปิดเผยต่อสาธารณะ” และ “ความร่วมมือสำหรับข้อมูลที่ไม่เปิดเผยต่อสาธารณะ”
Google “เห็นรายงานที่ยังไม่ยืนยัน” เกี่ยวกับกิจกรรมของ OpenAI และย้ำว่า ห้ามไม่ให้คัดลอกหรือดาวน์โหลดเนื้อหา YouTube โดยไม่ได้รับอนุญาต