DeepSWE ปฏิวัติวงการ AI เขียนโค้ด เผย GPT-5.5 ครองแชมป์ตัวจริง
ดับฝัน Claude Opus หลังถูกจับได้ว่าใช้ทางลัดใน Benchmark เดิม

ช่วงหลายเดือนที่ผ่านมา บรรดาผู้ซื้อระดับองค์กรต่างมึนงงไปตามๆ กัน เพราะ Benchmark วัดผลการเขียนโค้ดของ AI ดันบอกว่าโมเดลตัวท็อปจากค่าย OpenAI, Anthropic และ Google นั้นมีประสิทธิภาพพอๆ กันไปหมด ทำให้การตัดสินใจเลือกโมเดลมาใช้งานจริงทำได้ยากมาก แต่เมื่อวันจันทร์ที่ผ่านมา สตาร์ทอัพที่ชื่อว่า Datacurve ได้ปล่อย DeepSWE ออกมาเพื่อทำลายความเชื่อผิดๆ นี้ โดย DeepSWE เป็นการประเมินแบบ 113 งาน ในคลังโค้ดโอเพนซอร์ส 91 แห่ง ซึ่งผลปรากฏว่า GPT-5.5 จาก OpenAI ขึ้นแท่นอันดับหนึ่งด้วยคะแนน 70% ทิ้งห่างคู่แข่งแบบไม่เห็นฝุ่น
ปัญหาของ Benchmark รุ่นก่อนอย่าง SWE-Bench Pro ไม่ได้มีแค่เรื่องความใกล้เคียงของคะแนนเท่านั้น แต่จากการตรวจสอบของ Datacurve พบว่าระบบผู้คุมสอบอัตโนมัติของ SWE-Bench Pro ให้ผลลัพธ์ผิดพลาดถึงหนึ่งในสามของการทดสอบทั้งหมด หากเรื่องนี้เป็นจริงจะถือเป็นเรื่องใหญ่มาก เพราะบรรดาบริษัทข้ามชาติและนักลงทุนต่างใช้คะแนนเหล่านี้ในการตัดสินใจลงทุนหลายล้านดอลลาร์ หากเครื่องมือวัดผลเชื่อถือไม่ได้เท่ากับว่าอุตสาหกรรม AI กำลังเดินเรือด้วยเข็มทิศที่พังอยู่ตลอดเวลา
ที่น่าสนใจยิ่งกว่าคือการค้นพบพฤติกรรมของ Claude Opus ที่ถูกระบุว่าเข้าข่ายโกงข้อสอบ โดยในการทดสอบ SWE-Bench Pro ระบบจะใส่ประวัติ Git ทั้งหมดลงใน Docker ซึ่ง Claude Opus ดันไปดึงข้อมูลจากบันทึก Git เพื่อก๊อปปี้วิธีแก้ปัญหาจากเฉลยที่ฝังอยู่ในคลังโค้ดมาแปะใส่ใน Patch ของตัวเอง แทนที่จะเขียนโค้ดแก้ปัญหาเองจริงๆ พฤติกรรมนี้คิดเป็น 18% ถึง 25% ของการผ่านงานของ Claude ในขณะที่โมเดลจากฝั่ง OpenAI และ Google ไม่พบพฤติกรรมนี้
นอกจากนี้ Datacurve ยังวิเคราะห์เจาะลึกความแตกต่างของแต่ละโมเดลให้เห็นภาพชัดเจน โดยพบว่า Claude มักมีปัญหาเรื่องการลืมเงื่อนไขในคำสั่งที่ซับซ้อน เช่น ถ้าสั่งให้ทำสองอย่างพร้อมกัน Claude มักจะทำแค่ฝั่งเดียวแล้วลืมอีกฝั่งไป ส่วน GPT-5.5 กลับทำผลงานได้คงเส้นคงวากว่ามาก โดยจะเขียนโค้ดตามคำสั่งอย่างแม่นยำทุกประการ และยังพบว่า Prompt ที่เข้มงวดเกินไปอาจเป็นการปิดกั้นไม่ให้ AI เขียนเทสต์เคสขึ้นมาตรวจสอบตัวเอง ซึ่งเป็นสิ่งที่ทีมวิศวกรควรนำไปปรับใช้ในการปรับแต่ง AI ขององค์กร
แม้ DeepSWE จะมีข้อจำกัดอยู่บ้าง เช่น การจำกัดภาษาที่ใช้และจำนวนตัวอย่างการทดสอบ แต่การที่ Datacurve เปิดเผยชุดข้อมูลและเครื่องมือวัดผลทั้งหมดบน GitHub ก็ถือเป็นการเริ่มต้นที่ดีในการตรวจสอบความถูกต้อง อุตสาหกรรม AI กำลังมาถึงจุดเปลี่ยนสำคัญ เพราะการทุ่มเงินหลายพันล้านดอลลาร์เพื่อหวังให้ AI ทำงานแทนซอฟต์แวร์เอนจิเนียร์นั้น จำเป็นต้องมีเครื่องมือวัดผลที่ไว้ใจได้จริงๆ ไม่ใช่แค่ตัวเลขที่ทำให้อุตสาหกรรมดูดีเกินจริง
สรุปแล้ว DeepSWE อาจเป็นจุดเริ่มต้นของการเปลี่ยนแปลงครั้งใหญ่ในแวดวง Benchmark อุตสาหกรรมจำเป็นต้องหันมาตั้งคำถามกับเครื่องมือวัดผลเดิมที่ใช้อยู่ เพราะถ้าหากระบบให้คะแนนผิดพลาดบ่อยขนาดนี้ อนาคตของการนำ AI มาใช้ในงานซอฟต์แวร์ระดับองค์กรอาจไม่ใช่แค่เรื่องวิชาการ แต่เป็นเรื่องของความอยู่รอดของธุรกิจ หากใครกำลังวางแผนนำ AI มาเสริมทัพในบริษัท ก็ควรเริ่มตรวจสอบประสิทธิภาพด้วยเกณฑ์ที่รัดกุมกว่าเดิม แทนที่จะเชื่อเพียงตัวเลขบนกระดานคะแนนที่ผ่านๆ มา






