เทคโนโลยี

เสกวิดีโอจากทุกสิ่งตามใจสั่งด้วย Gemini Omni โมเดลอัจฉริยะรุ่นล่าสุดจาก Google

บอกลาการตัดต่อแบบเดิม

หลังจากที่ Nano Banana ได้เข้ามาเปลี่ยนโลกแห่งการสร้างสรรค์และแก้ไขรูปภาพด้วยอัจฉริยภาพของ Gemini เมื่อปีที่ผ่านมา จนช่วยให้ผู้คนหลายล้านคนสามารถชุบชีวิตภาพถ่ายเก่าๆ ออกแบบภาพจากภาพร่าง และสร้างภาพจินตนาการให้เป็นจริงได้อย่างที่ไม่เคยทำได้มาก่อน ในวันนี้ Google พร้อมที่จะก้าวไปอีกขั้นด้วยการเปิดตัวโมเดลใหม่แกะกล่องที่ถูกพัฒนาให้มีความสามารถแบบมัลติโมดอลมาตั้งแต่เริ่มต้น เพื่อยกระดับการทำงานไปสู่มิติใหม่ที่ล้ำสมัยยิ่งกว่าเดิม

โมเดลล่าสุดนี้มีชื่อว่า Gemini Omni ซึ่งเป็นพื้นที่ที่ความสามารถในการคิดวิเคราะห์เชิงเหตุผลของ Gemini มาบรรจบกับพลังแห่งการสร้างสรรค์ โดยโมเดลนี้สามารถเนรมิตทุกสิ่งขึ้นมาได้จากสิ่งนำเข้าทุกรูปแบบ โดยเริ่มต้นจากการสร้างวิดีโอ ผู้ใช้งานสามารถผสมผสานทั้งรูปภาพ เสียง วิดีโอ และข้อความ เพื่อนำมาใช้เป็นข้อมูลต้นทางในการสร้างสรรค์วิดีโอคุณภาพสูงที่อ้างอิงจากความรู้บนโลกแห่งความเป็นจริงของ Gemini แถมยังปรับแต่งแก้ไขวิดีโอเหล่านั้นได้อย่างง่ายดายผ่านการพูดคุยสั่งงาน

ความพิเศษของ Gemini Omni อยู่ที่การช่วยให้การตัดต่อวิดีโอกลายเป็นเรื่องง่ายผ่านการใช้ภาษาธรรมชาติ โดยคำสั่งใหม่จะถูกนำไปพัฒนาต่อยอดจากคำสั่งก่อนหน้าอย่างลื่นไหล ตัวละครในเรื่องจะยังคงความสม่ำเสมอ ระบบฟิสิกส์ในฉากมีความสมจริง และตัวแบบสามารถจดจำเรื่องราวที่เกิดขึ้นก่อนหน้านั้นได้เป็นอย่างดี ช่วยเปลี่ยนสิ่งแวดล้อมรอบตัวให้กลายเป็นสิ่งใหม่ หรือจะเลือกปรับเฉพาะจุดก็ทำได้ทันที ทำให้วิดีโอต้นฉบับกลายเป็นจุดเริ่มต้นของผลงานชิ้นเอกที่ผู้ใช้งานอาจไม่สามารถถ่ายทำได้ด้วยตนเอง

นอกจากภาพที่ดูสมจริงแล้ว โมเดลนี้ยังเข้าใจกฎฟิสิกส์ขั้นพื้นฐานอย่างเรื่องแรงโน้มถ่วง พลังงานจลน์ และพลศาสตร์ของของไหล ทำให้ฉากต่างๆ ที่สร้างขึ้นมาดูเป็นธรรมชาติและสมเหตุสมผล ยิ่งไปกว่านั้นยังสามารถหยิบจับสิ่งอ้างอิงทุกประเภท ไม่ว่าจะเป็นรูปภาพ ข้อความ วิดีโอ หรือเสียง มาหลอมรวมให้กลายเป็นผลงานวิดีโอชิ้นเดียวได้อย่างกลมกลืน โดยในช่วงเริ่มต้นจะรองรับไฟล์เสียงในรูปแบบของเสียงพูดก่อน และจะเปิดให้ใช้งานเสียงรูปแบบอื่นๆ ในอนาคต

ความปลอดภัยเป็นสิ่งที่ Google ให้ความสำคัญเป็นอย่างยิ่ง โดยมาพร้อมนโยบายที่ชัดเจนเพื่อปกป้องผู้ใช้งานและควบคุมการใช้เครื่องมือปัญญาประดิษฐ์ ในระยะแรกนี้ผู้ใช้งานสามารถสร้างวิดีโอด้วยเสียงของตัวเองผ่านฟีเจอร์ Avatars ที่จะช่วยเนรมิตตัวตนในเวอร์ชันดิจิทัลที่มีหน้าตาและน้ำเสียงเหมือนตัวจริง ส่วนการตัดต่อเพื่อเปลี่ยนเสียงและคำพูดในวิดีโอนั้น ทางทีมงานกำลังอยู่ในขั้นตอนการทดสอบระบบเพื่อให้มั่นใจว่าจะส่งมอบเทคโนโลยีนี้ถึงมือผู้ใช้งานได้อย่างปลอดภัยและมีความรับผิดชอบมากที่สุด

สำหรับวิดีโอทุกตัวที่ถูกสร้างขึ้นด้วย Gemini Omni จะมีการฝังลายน้ำดิจิทัล SynthID ที่ไม่สามารถมองเห็นได้ด้วยตาเปล่า เพื่อความโปร่งใสและตรวจสอบได้ผ่านแอปพลิเคชัน Gemini รวมถึงใน Chrome และ Google Search โดยในตอนนี้ได้เริ่มเปิดตัว Gemini Omni Flash ซึ่งเป็นโมเดลแรกในตระกูลให้กับสมาชิก Google AI Plus ราคา 7.99 ดอลลาร์สหรัฐ หรือประมาณ 260 บาท รวมถึงสมาชิก Pro และ Ultra ทั่วโลกได้ใช้งานแล้ว รวมถึงเปิดให้ใช้งานได้ฟรีบน YouTube Shorts และแอปพลิเคชัน YouTube Create ตั้งแต่สัปดาห์นี้ ส่วนกลุ่มนักพัฒนาและลูกค้าองค์กรจะสามารถใช้งานผ่าน API ได้ในสัปดาห์ต่อๆ ไป ซึ่งเป็นโอกาสดีที่จะได้ลองเปิดใช้งานบนโน้ตบุ๊กเพื่อสร้างสรรค์ผลงานใหม่ๆ ได้ทันที

ที่มา
Google

Artherlus

แค่คนทั่วไปที่หลงใหลในวงการไอที
Back to top button