Google นำระบบ Implicit Caching มาใช้งานกับ Gemini

ลดค่าใช้จ่ายสำหรับการเรียกใช้งาน

Artherlus10 May 2025

43 ภายใน 1 นาที

Google กำลังเปิดตัวฟีเจอร์ใหม่ใน Gemini API ที่บริษัทอ้างว่าจะช่วยลดค่าใช้จ่ายของนักพัฒนาได้อย่างมาก โดยเฉพาะสำหรับผู้ใช้งานโมเดล AI ระดับสูงอย่าง Gemini 2.5 Pro และ Gemini 2.5 Flash

ฟีเจอร์ใหม่นี้มีชื่อว่า Implicit Caching ซึ่งเป็นการนำแนวคิดเรื่อง การเก็บข้อมูลชั่วคราว (Caching) มาประยุกต์ใช้กับระบบ AI เพื่อประหยัดพลังงานการประมวลผลและค่าบริการสำหรับผู้ใช้งานภายนอก

Google ระบุว่า:

“ฟีเจอร์นี้สามารถช่วยประหยัดค่าใช้จ่ายได้ถึง 75% ในกรณีที่มีการส่งคำขอที่มี ‘ontext’ซ้ำ ๆ เข้ามา”

แปลว่าหากคุณเป็นนักพัฒนาแอป เครื่องมือ หรือบริการที่ต้องใช้ AI ในการตอบคำถามที่คล้ายกันซ้ำ ๆ เช่น การให้คำแนะนำ การสรุปเนื้อหา หรือแม้แต่การแปลภาษา จะสามารถประหยัดค่าบริการจาก Google ได้อย่างมาก

Caching คือกระบวนการ เก็บข้อมูลที่ใช้บ่อย ๆ ไว้ในหน่วยความจำชั่วคราว เพื่อไม่ต้องประมวลผลใหม่ทุกครั้งที่มีคำขอเข้ามา เช่น:

หากคุณถาม AI ว่า “สภาพอากาศวันนี้เป็นยังไง?” แทนที่จะให้ AI ไปดึงข้อมูลใหม่ทุกครั้ง มันก็แค่หยิบคำตอบจาก cache ที่เคยประมวลผลไว้แล้ว

ในวงการ AI นั้น Caching ถือเป็นแนวทางที่หลายเจ้าใช้เพื่อควบคุมค่าใช้จ่ายและประสิทธิภาพการทำงาน ซึ่ง Google ก็ไม่ได้นิ่งเฉย เพราะในช่วงไม่กี่วันที่ผ่านมา นักพัฒนาหลายคนออกมาบ่นว่า:

“ค่า API สูงเกินคาดเมื่อใช้ Gemini 2.5 Pro”

จนทีม Gemini ต้องออกโรงขอโทษและบอกว่าจะปรับปรุง

https://twitter.com/OfficialLoganK/status/1920523026551955512

ก่อนหน้านี้ Google เคยมีฟีเจอร์ Explicit Prompt Caching ซึ่งจะให้ส่วนลดค่าใช้จ่ายก็ต่อเมื่อนักพัฒนา กำหนดเองว่าส่วนไหนควรเก็บเป็น cache ซึ่งแน่นอนว่าทำให้เกิด งานเพิ่ม ความยุ่งยากและบางครั้ง ประหยัดไม่ตรงเป้า

แต่ Implicit Caching ทำงานต่างออกไป:

เปิดใช้โดยค่าเริ่มต้น
ตรวจจับ context ซ้ำ ๆ อัตโนมัติ
แบ่งส่วนลดราคาให้โดยตรง หากคำขอของคุณตรงกับข้อมูลที่เคยประมวลผลไว้แล้ว

Google อธิบายว่า:

“เมื่อคุณส่งคำขอไปยัง Gemini 2.5 หากคำขอนั้นมี prefix หรือส่วนต้นที่เหมือนกับคำขออื่น ๆ ที่ผ่านมา ระบบจะพิจารณาให้ส่วนลดค่าใช้จ่ายอัตโนมัติ”

ตามเอกสารของนักพัฒนา:

Gemini 2.5 Flash : ต้องใช้ 1,024 tokens ขึ้นไป
Gemini 2.5 Pro : ต้องใช้ 2,048 tokens ขึ้นไป

ซึ่งเทียบเป็นคำไทย ๆ ก็ประมาณ 750–1,500 คำ แปลว่าแทบทุกคำขอทั่วไปก็อาจได้ประโยชน์จาก implicit caching แล้ว

Google แนะนำว่า:

ควรใส่ context ที่ซ้ำกันไว้ตอนต้นคำขอ เพื่อเพิ่มโอกาส cache hit
ส่วนข้อมูลที่เปลี่ยนแปลงบ่อย ๆ ควรวางไว้ท้ายคำขอ

เช่น ถ้าคุณสร้างแอปที่ต้องถาม AI ว่า สรุปบทความนี้ให้ฉันหน่อย ทุกครั้ง คุณควรกำหนดให้ส่วนนั้นอยู่ตอนต้นเสมอ แล้วตามด้วยเนื้อหาที่ต้องการสรุป ซึ่งเปลี่ยนแปลงได้ทุกครั้ง

แม้ Google จะอ้างว่าฟีเจอร์นี้จะช่วยประหยัดค่าใช้จ่ายได้อัตโนมัติ แต่ยังไม่มีรายงานจากนักพัฒนาภายนอกหรือแพลตฟอร์มทดสอบใด ๆ ยืนยันผลลัพธ์ ดังนั้นหากคุณเป็นนักพัฒนาที่ใช้งานหนัก ๆ แนะนำว่า: