เทคโนโลยี

DeepSeek ปล่อยโมเดล DeepSeek-V3.2-Exp เน้นลดต้นทุนการประมวลผลยาว

ลดการพึ่งพา NVIDIA CUDA

DeepSeek บริษัท AI ชั้นนำจากจีน เปิดตัว DeepSeek-V3.2-Exp โมเดลภาษาขนาดใหญ่ล่าสุดเมื่อวันที่ 29 กันยายน 2025 โดยโพสต์โค้ดและ checkpoints บน Hugging Face พร้อมรายงานทางเทคนิคออกแบบมาเพื่อลดต้นทุน long-context inference ด้วยกลไก sparse attention ที่ช่วยตัดทอนความต้องการหน่วยความจำและการคำนวณ โดยยังคงคุณภาพผลลัพธ์ไว้เท่าเดิม

โมเดล DeepSeek-V3.2-Exp สร้างบนฐาน V3.1-Terminus โดยนำเสนอ DeepSeek Sparse Attention (DSA) ซึ่งประกอบด้วย Lightning Indexer ที่เก็บ key cache เล็กเพียง 128 ต่อโทเค็น (เทียบกับ 512 ของ MLA เดิม) และ Sparse Multi-Latent Attention ที่เลือกโทเค็นสำคัญเพียง 2,048 ชิ้นจาก input ยาว ๆ ทำให้การฝึกเร็วขึ้นและประหยัดพลังงานมากขึ้น โมเดลนี้มีประสิทธิภาพเทียบเท่า V3.1-Terminus

ทีม Ascend ของ Huawei และชุมชน vLLM-Ascend ตอบสนองอย่างรวดเร็ว โดยอัปเดต repo vLLM-Ascend ด้วยขั้นตอนติดตั้ง custom operator และ kernel สำหรับ NPU ของ Ascend เพื่อรองรับ V3.2-Exp ทันที ทีม CANN ยังเผยสูตร inference สำหรับฮาร์ดแวร์ Huawei ทำให้โมเดลพร้อมใช้งานบนแพลตฟอร์มในประเทศตั้งแต่วันแรก สิ่งนี้ช่วยลดการพึ่งพา CUDA ของ Nvidia ในระบบ AI จีน

ผู้ผลิตชิปจีนรายอื่น ๆ เข้าร่วมทันที เช่น Cambricon ที่อัปเดต vLLM-MLU fork เพื่อรองรับ V3.2-Exp โดยอ้างว่าการผสาน sparse attention กับ inference engine ของตัวเองช่วยลดต้นทุนการประมวลผลลำดับยาวได้มาก Hygon ก็ประกาศว่า DCU accelerators ของบริษัทได้รับการปรับแต่งสำหรับ zero-wait deployment ผ่าน DTK software stack ทำให้โมเดลนี้ใช้งานได้บนฮาร์ดแวร์หลากหลายโดยไม่ต้องรอ

SGLang ยืนยันการรองรับ V3.2-Exp บน backend หลายตัว รวมถึง Ascend ขณะที่ GitHub ของ DeepSeek ระบุความเท่าเทียมกับ vLLM ตั้งแต่เปิดตัว DeepSeek ยังอ้างอิง TileLang และ CUDA kernels

ความรวดเร็วในการนำไปใช้ครั้งนี้สะท้อนถึงการเตรียมพร้อมของระบบ AI จีน สำหรับอนาคตที่ไม่สามารถพึ่งพาฮาร์ดแวร์ NVIDIA ได้อีกต่อไป แม้ CUDA จะยังครองตลาดทั้งฝึกและอนุมาน แต่ V3.2-Exp เป็นหนึ่งในโมเดลหลักจากบริษัทจีนที่มาพร้อม optimization สำหรับ non-CUDA ตั้งแต่วันแรก

ที่มา
Tomshardware

Artherlus

แค่คนทั่วไปที่หลงใหลในวงการไอที
Back to top button