เทคโนโลยี

Google เปิดตัว Gemini 3.1 Flash Live ปฏิวัติวงการ AI

พร้อมระบบลายน้ำดิจิทัลเพื่อความปลอดภัย

Google ประกาศเปิดตัวโมเดลใหม่ล่าสุด Gemini 3.1 Flash Live ที่ออกแบบมาเพื่อการสนทนาแบบเรียลไทม์โดยเฉพาะ ซึ่งจะเริ่มเปิดให้ใช้งานในผลิตภัณฑ์ของ Google และเครื่องมือสำหรับนักพัฒนาตั้งแต่วันนี้เป็นต้นไป โดยชูจุดเด่นเรื่องความเร็วในการตอบสนองและความเป็นธรรมชาติของน้ำเสียงที่สูงมาก จนอาจทำให้ผู้ใช้งานแยกไม่ออกว่ากำลังคุยอยู่กับมนุษย์หรือโปรแกรมคอมพิวเตอร์กันแน่

ปัญหาใหญ่ของ AI สายเสียงในอดีตคือความหน่วง (Latency) และจังหวะการเว้นวรรคตอนที่ดูฝืนธรรมชาติ แต่ Gemini 3.1 Flash Live ถูกพัฒนามาเพื่อทำลายกำแพงนั้นด้วยการปรับจังหวะการพูด (Cadence) ให้มีความลื่นไหลเหมือนคนจริงๆ มากขึ้น แม้ Google จะไม่ได้ระบุตัวเลขความหน่วงเป็นมิลลิวินาทีที่ชัดเจน แต่ผลการทดสอบจาก Benchmark ต่างๆ อย่าง Big Bench Audio แสดงให้เห็นว่าโมเดลนี้มีความสามารถในการใช้เหตุผลและตอบคำถามผ่านเสียงได้แม่นยำที่สุดในขณะนี้

อีกหนึ่งความสามารถที่น่าสนใจคือการรับมือกับสถานการณ์หน้าสิ่วหน้าขวานในการคุย เช่น การที่ผู้ใช้พูดตะกุกตะกักหรือพูดแทรกระหว่างที่ AI กำลังตอบ ซึ่งผลทดสอบจาก Scale AI ชี้ว่าโมเดลนี้ทำคะแนนได้ดีกว่าโมเดลสายเรียลไทม์ตัวอื่นๆ ในตลาด แม้จะยังไม่เทียบเท่าโมเดลที่เน้นประมวลผลเสียงแบบออฟไลน์ แต่ก็นับว่าเพียงพอที่จะทำให้การสนทนาทางโทรศัพท์หรือผ่านแอปพลิเคชันดูเป็นธรรมชาติและไม่น่าหงุดหงิดเหมือนแต่ก่อน

gemini-3-1-flash-live-release

ด้วยความสมจริงที่เพิ่มขึ้นอย่างน่ากลัว Google จึงได้ติดตั้งระบบ SynthID ซึ่งเป็นลายน้ำดิจิทัลแบบพิเศษลงในไฟล์เสียงที่สร้างโดย AI รุ่นนี้ด้วย โดยลายน้ำดังกล่าวจะไม่สามารถได้ยินได้ด้วยหูของมนุษย์ แต่ระบบตรวจสอบจะสามารถตรวจพบได้ทันทีหากมีคนพยายามนำเสียงของ AI ไปแอบอ้างว่าเป็นเสียงคนจริงๆ เพื่อป้องกันปัญหาเรื่องความปลอดภัยและการหลอกลวงที่อาจเกิดขึ้นในอนาคต

ทางด้านภาคธุรกิจ Google ได้ร่วมมือกับบริษัทยักษ์ใหญ่อย่าง Home Depot และ Verizon เพื่อทดสอบระบบนี้ในการให้บริการลูกค้า ซึ่งผลตอบรับออกมาในทิศทางเดียวกันว่า Gemini 3.1 Flash Live สามารถเลียนแบบการสนทนาของพนักงานที่เป็นมนุษย์ได้ดีเยี่ยม นั่นหมายความว่าในอนาคตอันใกล้ เวลาเราโทรไปสอบถามข้อมูลสินค้าหรือแจ้งปัญหาการใช้งาน เราอาจจะได้คุยกับ AI ที่สุภาพและรวดเร็วโดยที่ไม่รู้ตัวเลยด้วยซ้ำ

สำหรับนักพัฒนาที่สนใจสามารถเข้าถึงโมเดลนี้ได้แล้วผ่าน AI Studio และ Gemini API ส่วนผู้ใช้งานทั่วไปจะได้สัมผัสความล้ำนี้ผ่านฟีเจอร์ Gemini Live บนสมาร์ทโฟน และ Search Live ในโหมด AI ของ Google Search ซึ่งการขยับตัวครั้งนี้ของ Google ยิ่งตอกย้ำว่ายุคสมัยของเลขาส่วนตัวที่เป็น AI แบบโต้ตอบได้ทันทีนั้นมาถึงอย่างเป็นทางการแล้ว

ที่มา
Google

Artherlus

แค่คนทั่วไปที่หลงใหลในวงการไอที
Back to top button