ChatGPT Voice ล่าสุดรวมโหมดพูดและข้อความ
ทิศทางเดียวกับ Siri เวอร์ชันใหม่ที่คาดใช้ Gemini จาก Google

OpenAI ปล่อยอัปเดต ChatGPT Voice เมื่อปลายพฤศจิกายน 2025 โดยรวมการสนทนาด้วยเสียงเข้ากับแชทหลักโดยตรง ผู้ใช้สามารถพูดคำสั่ง ดูคำตอบแบบเรียลไทม์บนหน้าจอ ทบทวนข้อความเก่า หรือรับภาพและแผนที่ที่แทรกเข้ามาในหน้าต่างเดียวกัน ทำให้ไม่ต้องสลับโหมดระหว่างเสียงและข้อความอีกต่อไป
ในอดีต ChatGPT เริ่มจากระบบพิมพ์ล้วน ก่อนขยายสู่เสียงเพื่อความสะดวก แต่ยังติดขัดเรื่องการสร้างภาพหรือดูข้อมูลภาพที่ต้องหันไปพิมพ์แทน สร้างความรู้สึกเหมือนมีแชทบ็อตสองตัวแยกกัน อัปเดตล่าสุดแก้จุดนี้ด้วยการผสาน multimodal ทำให้เสียง ข้อความ และภาพทำงานร่วมกันได้ราบรื่น แม้บางครั้งระบบอาจล่าช้าหรือแผนที่ไม่ขึ้นทันที แต่ถือเป็นก้าวสำคัญที่เปลี่ยนประสบการณ์ผู้ใช้ให้ใกล้เคียงการสนทนาธรรมชาติมากขึ้น
หลายฝ่ายมองว่าการเปลี่ยนแปลงนี้เป็นตัวอย่างชัดเจนสำหรับ Siri รุ่นใหม่ของ Apple ซึ่งกำลังมุ่งสู่ทิศทางเดียวกัน โดยเริ่มจากตัวช่วยเสียงล้วน ก่อนเพิ่มฟีเจอร์ข้อความผ่าน Apple Intelligence เช่น สรุปอีเมลหรือจัดการข้อมูลข้ามแอป เมื่อรวมสองโหมดเข้าด้วยกันแบบไร้รอยต่อ Siri จะตอบสนองได้ดั่งที่ Apple สัญญาไว้ ไม่ว่าจะพูด แสดงภาพ หรือประมวลผลข้อความ
Siri เวอร์ชันอัปเกรดยังถูกคาดหวังให้กลายเป็นเอเจนต์อัจฉริยะที่ทำงานแทนผู้ใช้ เช่น จองตั๋วเครื่องบินจาก Heathrow ไป Las Vegas โดยเชื่อมต่อแอปท่องเที่ยวโดยตรง ซึ่งซับซ้อนกว่าการถามตอบทั่วไปหลายเท่า ต้องอาศัยโครงสร้างหลังบ้านที่แข็งแกร่ง รวมถึงการรับรู้บริบทหน้าจอและการควบคุมแอปแม่นยำ
อย่างไรก็ตาม Apple อาจไม่ทันพัฒนาเองทั้งหมด โดยล่าสุดมีรายงานใกล้บรรลุข้อตกลงกับ Google จ่ายปีละ 1 พันล้านดอลลาร์เพื่อใช้ Gemini โมเดล 1.2 ล้านล้านพารามิเตอร์ขับเคลื่อน Siri ใน iOS 26.4 ช่วงฤดูใบไม้ผลิ 2026 ซึ่งต่างจากการทดสอบ OpenAI หรือ Anthropic ก่อนหน้า และยังคงใช้โมเดลในบ้านบางส่วนควบคู่กัน
ท้ายสุด ผู้ใช้ให้ความสำคัญแค่สองประการคือ ความปลอดภัยข้อมูลผ่าน Private Cloud Compute ที่ไม่ส่งข้อมูลไปฝึกโมเดล และ Siri ที่ฉลาดขึ้นจริงในปีหน้า ไม่ว่าจะใช้ Gemini เวอร์ชันปรับแต่งหรือพันธมิตรอื่น ขอแค่ใช้งานได้ดีและช่วยเหลือแทนได้ตามที่คาดหวัง





