
Google กำลังเปิดตัวฟีเจอร์ใหม่ใน Gemini API ที่บริษัทอ้างว่าจะช่วยลดค่าใช้จ่ายของนักพัฒนาได้อย่างมาก โดยเฉพาะสำหรับผู้ใช้งานโมเดล AI ระดับสูงอย่าง Gemini 2.5 Pro และ Gemini 2.5 Flash
ฟีเจอร์ใหม่นี้มีชื่อว่า Implicit Caching ซึ่งเป็นการนำแนวคิดเรื่อง การเก็บข้อมูลชั่วคราว (Caching) มาประยุกต์ใช้กับระบบ AI เพื่อประหยัดพลังงานการประมวลผลและค่าบริการสำหรับผู้ใช้งานภายนอก
Google ระบุว่า:
“ฟีเจอร์นี้สามารถช่วยประหยัดค่าใช้จ่ายได้ถึง 75% ในกรณีที่มีการส่งคำขอที่มี ‘ontext’ซ้ำ ๆ เข้ามา”
แปลว่าหากคุณเป็นนักพัฒนาแอป เครื่องมือ หรือบริการที่ต้องใช้ AI ในการตอบคำถามที่คล้ายกันซ้ำ ๆ เช่น การให้คำแนะนำ การสรุปเนื้อหา หรือแม้แต่การแปลภาษา จะสามารถประหยัดค่าบริการจาก Google ได้อย่างมาก
Caching คือกระบวนการ เก็บข้อมูลที่ใช้บ่อย ๆ ไว้ในหน่วยความจำชั่วคราว เพื่อไม่ต้องประมวลผลใหม่ทุกครั้งที่มีคำขอเข้ามา เช่น:
- หากคุณถาม AI ว่า “สภาพอากาศวันนี้เป็นยังไง?” แทนที่จะให้ AI ไปดึงข้อมูลใหม่ทุกครั้ง มันก็แค่หยิบคำตอบจาก cache ที่เคยประมวลผลไว้แล้ว
ในวงการ AI นั้น Caching ถือเป็นแนวทางที่หลายเจ้าใช้เพื่อควบคุมค่าใช้จ่ายและประสิทธิภาพการทำงาน ซึ่ง Google ก็ไม่ได้นิ่งเฉย เพราะในช่วงไม่กี่วันที่ผ่านมา นักพัฒนาหลายคนออกมาบ่นว่า:
“ค่า API สูงเกินคาดเมื่อใช้ Gemini 2.5 Pro”
จนทีม Gemini ต้องออกโรงขอโทษและบอกว่าจะปรับปรุง
ก่อนหน้านี้ Google เคยมีฟีเจอร์ Explicit Prompt Caching ซึ่งจะให้ส่วนลดค่าใช้จ่ายก็ต่อเมื่อนักพัฒนา กำหนดเองว่าส่วนไหนควรเก็บเป็น cache ซึ่งแน่นอนว่าทำให้เกิด งานเพิ่ม ความยุ่งยากและบางครั้ง ประหยัดไม่ตรงเป้า
แต่ Implicit Caching ทำงานต่างออกไป:
- เปิดใช้โดยค่าเริ่มต้น
- ตรวจจับ context ซ้ำ ๆ อัตโนมัติ
- แบ่งส่วนลดราคาให้โดยตรง หากคำขอของคุณตรงกับข้อมูลที่เคยประมวลผลไว้แล้ว
Google อธิบายว่า:
“เมื่อคุณส่งคำขอไปยัง Gemini 2.5 หากคำขอนั้นมี prefix หรือส่วนต้นที่เหมือนกับคำขออื่น ๆ ที่ผ่านมา ระบบจะพิจารณาให้ส่วนลดค่าใช้จ่ายอัตโนมัติ”
ตามเอกสารของนักพัฒนา:
- Gemini 2.5 Flash : ต้องใช้ 1,024 tokens ขึ้นไป
- Gemini 2.5 Pro : ต้องใช้ 2,048 tokens ขึ้นไป
ซึ่งเทียบเป็นคำไทย ๆ ก็ประมาณ 750–1,500 คำ แปลว่าแทบทุกคำขอทั่วไปก็อาจได้ประโยชน์จาก implicit caching แล้ว
Google แนะนำว่า:
- ควรใส่ context ที่ซ้ำกันไว้ตอนต้นคำขอ เพื่อเพิ่มโอกาส cache hit
- ส่วนข้อมูลที่เปลี่ยนแปลงบ่อย ๆ ควรวางไว้ท้ายคำขอ
เช่น ถ้าคุณสร้างแอปที่ต้องถาม AI ว่า สรุปบทความนี้ให้ฉันหน่อย ทุกครั้ง คุณควรกำหนดให้ส่วนนั้นอยู่ตอนต้นเสมอ แล้วตามด้วยเนื้อหาที่ต้องการสรุป ซึ่งเปลี่ยนแปลงได้ทุกครั้ง
แม้ Google จะอ้างว่าฟีเจอร์นี้จะช่วยประหยัดค่าใช้จ่ายได้อัตโนมัติ แต่ยังไม่มีรายงานจากนักพัฒนาภายนอกหรือแพลตฟอร์มทดสอบใด ๆ ยืนยันผลลัพธ์ ดังนั้นหากคุณเป็นนักพัฒนาที่ใช้งานหนัก ๆ แนะนำว่า:
- ควรติดตามรีวิวจากกลุ่มนักพัฒนาระดับแรก (early adopters)
- ทดลองใช้งานด้วยตนเองผ่าน Google Cloud Console