Microsoft เปิดตัว 3 โมเดล AI ใหม่ท้าชนคู่แข่ง
จัดเต็มทั้งข้อความ เสียง และวิดีโอ ในราคาที่ถูกกว่า

Microsoft AI ห้องปฏิบัติการวิจัยระดับโลกได้ประกาศเปิดตัวโมเดล AI พื้นฐานใหม่พร้อมกันถึง 3 รุ่น เมื่อวันพฤหัสบดีที่ผ่านมา โดยครอบคลุมทั้งการสร้างข้อความ เสียง และภาพเคลื่อนไหว การเคลื่อนไหวในครั้งนี้เป็นการส่งสัญญาณชัดเจนว่า Microsoft กำลังสร้างระบบนิเวศของโมเดล AI แบบ Multimodal ของตัวเองขึ้นมาเพื่อแข่งขันกับห้องแล็บ AI อื่นๆ ในตลาด แม้ว่าปัจจุบันจะยังคงมีความสัมพันธ์ที่เหนียวแน่นกับ OpenAI อยู่ก็ตาม
โมเดลชุดแรกคือ MAI-Transcribe-1 ที่มีความสามารถในการถอดความจากเสียงเป็นข้อความได้ถึง 25 ภาษา โดยทาง Microsoft เคลมว่ามันทำงานได้เร็วกว่าบริการ Azure Fast เดิมถึง 2.5 เท่า ตามมาด้วย MAI-Voice-1 ซึ่งเป็นโมเดลสร้างเสียงอัจฉริยะที่ทำงานได้เร็วสุดขีด โดยสามารถสร้างเสียงความยาว 60 วินาทีได้ภายในเวลาเพียง 1 วินาทีเท่านั้น แถมยังเปิดโอกาสให้ผู้ใช้งานสร้างเสียงที่เป็นเอกลักษณ์เฉพาะตัวขึ้นมาได้อีกด้วย
สำหรับโมเดลรุ่นที่สามอย่าง MAI-Image-2 แม้ชื่อจะดูเหมือนภาพนิ่ง แต่จริงๆ แล้วมันคือโมเดลสำหรับสร้างวิดีโอ (Video-generating model) ซึ่งก่อนหน้านี้เคยเปิดให้ทดสอบใน MAI Playground มาแล้วตั้งแต่ช่วงกลางเดือนมีนาคม แต่ในครั้งนี้ทั้งสามโมเดลได้รับการปล่อยตัวอย่างเป็นทางการบน Microsoft Foundry เพื่อให้นักพัฒนาและองค์กรต่างๆ สามารถนำไปใช้งานจริงได้อย่างเต็มรูปแบบ ภายใต้การดูแลของทีม MAI Superintelligence ที่เพิ่งก่อตั้งเมื่อปลายปี 2025

Mustafa Suleyman CEO ของ Microsoft AI และหัวหน้าทีมวิจัยชุดนี้ระบุว่า เป้าหมายของพวกเขาคือการสร้าง Humanist AI หรือ AI ที่ยึดถือความเป็นมนุษย์เป็นศูนย์กลาง โดยเน้นการฝึกฝนโมเดลให้เข้ากับวิธีการสื่อสารของคนจริงๆ และนำไปใช้งานได้ในทางปฏิบัติ โดยเขายังแย้มอีกว่าจะมีโมเดลใหม่ๆ ตามมาอีกเร็วๆ นี้ ทั้งในโปรเจกต์ Foundry และที่จะเข้าไปอยู่ในผลิตภัณฑ์ต่างๆ ของ Microsoft โดยตรง เพื่อยกระดับประสบการณ์การใช้งานโน้ตบุ๊กและซอฟต์แวร์ของบริษัทให้ฉลาดขึ้นไปอีกขั้น
จุดเด่นสำคัญที่ Microsoft นำมาชูโรงคือเรื่องของราคาที่ถูกกว่าทั้ง Google และ OpenAI โดย MAI-Transcribe-1 เริ่มต้นเพียง 0.36 ดอลลาร์ (ประมาณ 13.15 บาท) ต่อชั่วโมง ส่วน MAI-Voice-1 เริ่มต้นที่ 22 ดอลลาร์ (ประมาณ 804.10 บาท) ต่อ 1 ล้านตัวอักษร และ MAI-Image-2 คิดราคาเริ่มต้นที่ 5 ดอลลาร์ (ประมาณ 182.75 บาท) ต่อ 1 ล้านโทเคนสำหรับการป้อนข้อมูลตัวอักษร และ 33 ดอลลาร์ (ประมาณ 1,206.15 บาท) ต่อ 1 ล้านโทเคนสำหรับการสร้างภาพวิดีโอออกมา
ถึงแม้จะออกโมเดลของตัวเองมาชน แต่ Mustafa Suleyman ก็ยังยืนยันความสัมพันธ์อันดีกับ OpenAI ว่ายังเป็นพันธมิตรที่แน่นแฟ้นเหมือนเดิม เพียงแต่การปรับเปลี่ยนข้อตกลงใหม่เมื่อเร็วๆ นี้ช่วยให้ Microsoft มีอิสระมากขึ้นในการวิจัยด้าน Superintelligence ของตัวเอง เปรียบเสมือนกลยุทธ์ด้านชิปคอมพิวเตอร์ที่บริษัทเลือกทำทั้งการผลิตใช้เองและซื้อจากผู้ผลิตรายอื่นไปพร้อมกัน เพื่อสร้างความมั่นคงและยืดหยุ่นที่สุดในสมรภูมิเทคโนโลยีที่กำลังเดือดระอุอยู่ในขณะนี้







