
Google DeepMind เปิดตัว Genie 3 โมเดล Foundation World รุ่นล่าสุดที่ถูกออกแบบให้เป็นเครื่องมือสำคัญในการฝึก general-purpose AI agents ซึ่งงานวิจัยชี้ว่าเป็นก้าวสำคัญสู่เป้าหมายสูงสุดของปัญญาประดิษฐ์ นั่นคือ ปัญญาประดิษฐ์ทั่วไป (AGI) หรือปัญญาประดิษฐ์ที่มีความฉลาดคล้ายมนุษย์ โดย Shlomi Fruchter ผู้อำนวยการฝ่ายวิจัยของ DeepMind ระบุว่า “Genie 3 คือโมเดล Foundation World ไปแบบอินเตอร์แอคทีฟแบบเรียลไทม์เครื่องแรก ที่ไม่จำกัดอยู่กับสภาพแวดล้อมเฉพาะเจาะจง สามารถสร้างทั้งโลกที่สมจริงและจินตนาการได้”
แม้ Genie 3 จะยังอยู่ในรูปแบบรีเสิร์ชพรีวิวและยังไม่เปิดให้สาธารณชนใช้งาน แต่โมเดลดังกล่าวพัฒนาต่อยอดจาก Genie 2 ที่สามารถสร้างสภาพแวดล้อมใหม่ให้เอเจนต์ และผสานความเข้าใจทางฟิสิกส์จาก Veo 3 โมเดลสร้างวิดีโอขั้นสูงของ DeepMind โดยเฉพาะอย่างยิ่ง Genie 3 สามารถสร้างสภาพแวดล้อม 3D อินเตอร์แอคทีฟได้หลายนาที จากคำสั่งเพียงข้อความเดียว ที่ความละเอียด 720p และ 24 เฟรมต่อวินาที ซึ่งเป็นการพัฒนาอย่างก้าวกระโดดเมื่อเทียบกับ Genie 2 ที่ผลิตได้เพียง 10–20 วินาที
จุดเด่นสำคัญของ Genie 3 คือความสามารถในการรักษาความสอดคล้องทางฟิสิกส์ในระยะยาว เนื่องจากโมเดลสามารถจดจำสิ่งที่สร้างไปก่อนหน้า และใช้ข้อมูลนั้นตัดสินใจว่าจะเกิดอะไรต่อไป โดยไม่ต้องพึ่งเอนจินฟิสิกส์ที่เขียนโค้ดไว้ล่วงหน้า แต่เรียนรู้เองผ่านการสังเกตและให้เหตุผลตลอดช่วงเวลา ซึ่ง DeepMind อธิบายว่าเป็นโครงสร้างแบบ auto-regressive ที่สร้างภาพทีละเฟรมและอ้างอิงจากเฟรมก่อนหน้า

นอกจากนี้ Genie 3 ยังรองรับ promptable world events ทำให้ผู้ใช้สามารถเปลี่ยนแปลงสภาพแวดล้อมที่สร้างขึ้นได้แบบเรียลไทม์ เช่น เพิ่มหิมะหรือเปลี่ยนแสงสว่าง ซึ่งเปิดทางให้ใช้ในงานด้านการศึกษา เกม หรือการต้นแบบแนวคิดสร้างสรรค์ แต่เป้าหมายหลักคือการฝึกเอเจนต์ให้เรียนรู้ผ่านประสบการณ์ในโลกจำลอง คล้ายกับวิธีที่มนุษย์เรียนรู้จากโลกจริง
ในตัวอย่างการทดสอบ DeepMind ใช้ Genie 3 ร่วมกับ SIMA (Scalable Instructable Multiworld Agent) เอเจนต์ทั่วไปเวอร์ชันใหม่ โดยตั้งเป้าหมายในโลกจำลองซึ่ง SIMA สามารถทำสำเร็จทั้งสามกรณี แสดงให้เห็นว่าความต่อเนื่องและความสม่ำเสมอของ Genie 3 ช่วยให้เอเจนต์ตัดสินใจและดำเนินการได้อย่างมีเหตุผล
อย่างไรก็ตาม Genie 3 ยังมีข้อจำกัด เช่น ยังไม่สามารถจำลองปฏิกิริยาระหว่างหิมะกับสกีได้อย่างแม่นยำ หรือยังจำกัดช่วงการกระทำของเอเจนต์ และแม้จะรองรับเหตุการณ์ที่ผู้ใช้สั่งได้ แต่กิจกรรมเหล่านั้นไม่ได้เกิดจากตัวเอเจนต์โดยตรง นอกจากนี้ โมเดลยังรองรับการโต้ตอบต่อเนื่องได้เพียงไม่กี่นาที ขณะที่การฝึกเอเจนต์ขั้นสูงอาจต้องใช้หลายชั่วโมง
ถึงกระนั้น Genie 3 ถือเป็นก้าวสำคัญในการเปลี่ยนจาก AI ที่ตอบสนองเป็นเพียงคำสั่ง สู่ระบบ AI ที่สามารถวางแผน สำรวจ หาความไม่แน่นอน และพัฒนาผ่านการลองผิดลองถูกได้เอง Jack Parker-Holder นักวิทยาศาสตร์วิจัยจากทีม Open-Endedness ของ DeepMind ระบุว่า “เรายังไม่มี ‘Move 37’ สำหรับเอเจนต์ที่มีร่างกายเลย แต่ตอนนี้ เรากำลังจะก้าวเข้าสู่ยุคใหม่” หมายถึงช่วงเวลาประวัติศาสตร์ที่ AlphaGo เล่นหมากที่ไม่มีใครคาดคิด ซึ่งอาจเป็นสัญญาณเริ่มต้นของยุคที่ AI เรียนรู้และคิดค้นกลยุทธ์ใหม่ ๆ ได้ด้วยตัวเองในโลกจำลองที่สมจริง