🧠 Princeton เปิดตัว MoE ยุคใหม่ ลดการสลับ Expert จาก 50% เหลือแค่ 5%
ลองนึกภาพว่าคุณมีทีมผู้เชี่ยวชาญ 32 คน แต่ทุกครั้งที่ต้องตอบคำถามแค่คำเดียว คุณต้องเปลี่ยนทีมใหม่หมด — นั่นคือปัญหาที่โมเดล AI ขนาดใหญ่แบบ Mixture-of-Experts (MoE) กำลังเผชิญอยู่ตอนนี้
แล้วถ้ามีวิธีให้ทีมเดิมทำงานต่อเนื่องได้ล่ะ?
นักวิจัยจาก Princeton University คือ Zeyu Shen และ Peter Henderson ได้เสนอแนวคิดที่เรียกว่า Temporally Extended Mixture-of-Experts — การให้โมเดล AI เรียนรู้ด้วยตัวเองว่า "เมื่อไหร่ควรเปลี่ยนทีมผู้เชี่ยวชาญ" แทนที่จะเปลี่ยนทุกๆ โทเค็น
หัวใจสำคัญคือการนำ Options Framework จากสาขา Reinforcement Learning มาประยุกต์ใช้ โดยมองการเลือก Expert เหมือนการตัดสินใจเชิงกลยุทธ์ — ถ้าทีมปัจจุบันยังทำงานได้ดี ก็ไม่ต้องเปลี่ยน เปลี่ยนเฉพาะเมื่อคุ้มค่าจริงๆ เท่านั้น
ผลลัพธ์น่าทึ่งมาก เมื่อทดสอบกับโมเดล gpt-oss-20b ที่มี Expert 32 ตัวต่อชั้น:
— อัตราการสลับ Expert ลดจากกว่า 50% เหลือต่ำกว่า 5% หรือแม้แต่ 1%
— ความแม่นยำยังคงรักษาไว้ได้ถึง 90% ของโมเดลต้นฉบับ
— ทดสอบผ่านเกณฑ์มาตรฐาน MATH, MMLU และ MMMLU
— ใช้เพียง LoRA adapter น้ำหนักเบาในการฝึก ไม่ต้อง pretrain ใหม่ทั้งหมด
ที่สำคัญ ระบบนี้ยังเอาชนะวิธี pruning แบบเดิมทุกรูปแบบ ไม่ว่าจะเป็น frequency-based, reconstruction loss หรือ Wanda
ทำไมเรื่องนี้ถึงสำคัญ? เพราะเมื่อ Expert ไม่ต้องสลับบ่อย:
— ลดการใช้หน่วยความจำ GPU ลงได้ 37-55%
— เปิดทางให้โมเดลขนาดยักษ์รันได้บนฮาร์ดแวร์ที่เล็กลง
— สร้างโอกาสให้เพิ่ม Expert ใหม่ได้เรื่อยๆ โดยไม่เพิ่มต้นทุนการประมวลผล
ในยุคที่โมเดล MoE กำลังเป็นกระดูกสันหลังของ AI ชั้นนำอย่าง Gemini, DeepSeek-V3 และ Qwen งานวิจัยนี้อาจเป็นกุญแจไขประตูสู่การ serve โมเดลขนาดหลายแสนล้านพารามิเตอร์อย่างมีประสิทธิภาพ
คำถามที่เหลือคือ — ถ้าฝังแนวคิดนี้ตั้งแต่ขั้นตอน pretraining จะเกิดอะไรขึ้น?
📄 แหล่งข่าว
HuggingFace Daily Papers