news 2026-04-21 · HuggingFace Daily Papers

🧠 Princeton เปิดตัว MoE ยุคใหม่ ลดการสลับ Expert จาก 50% เหลือแค่ 5%

ลองนึกภาพว่าคุณมีทีมผู้เชี่ยวชาญ 32 คน แต่ทุกครั้งที่ต้องตอบคำถามแค่คำเดียว คุณต้องเปลี่ยนทีมใหม่หมด — นั่นคือปัญหาที่โมเดล AI ขนาดใหญ่แบบ Mixture-of-Experts (MoE) กำลังเผชิญอยู่ตอนนี้

แล้วถ้ามีวิธีให้ทีมเดิมทำงานต่อเนื่องได้ล่ะ?

นักวิจัยจาก Princeton University คือ Zeyu Shen และ Peter Henderson ได้เสนอแนวคิดที่เรียกว่า Temporally Extended Mixture-of-Experts — การให้โมเดล AI เรียนรู้ด้วยตัวเองว่า "เมื่อไหร่ควรเปลี่ยนทีมผู้เชี่ยวชาญ" แทนที่จะเปลี่ยนทุกๆ โทเค็น

หัวใจสำคัญคือการนำ Options Framework จากสาขา Reinforcement Learning มาประยุกต์ใช้ โดยมองการเลือก Expert เหมือนการตัดสินใจเชิงกลยุทธ์ — ถ้าทีมปัจจุบันยังทำงานได้ดี ก็ไม่ต้องเปลี่ยน เปลี่ยนเฉพาะเมื่อคุ้มค่าจริงๆ เท่านั้น

ผลลัพธ์น่าทึ่งมาก เมื่อทดสอบกับโมเดล gpt-oss-20b ที่มี Expert 32 ตัวต่อชั้น:

— อัตราการสลับ Expert ลดจากกว่า 50% เหลือต่ำกว่า 5% หรือแม้แต่ 1%

— ความแม่นยำยังคงรักษาไว้ได้ถึง 90% ของโมเดลต้นฉบับ

— ทดสอบผ่านเกณฑ์มาตรฐาน MATH, MMLU และ MMMLU

— ใช้เพียง LoRA adapter น้ำหนักเบาในการฝึก ไม่ต้อง pretrain ใหม่ทั้งหมด

ที่สำคัญ ระบบนี้ยังเอาชนะวิธี pruning แบบเดิมทุกรูปแบบ ไม่ว่าจะเป็น frequency-based, reconstruction loss หรือ Wanda

ทำไมเรื่องนี้ถึงสำคัญ? เพราะเมื่อ Expert ไม่ต้องสลับบ่อย:

— ลดการใช้หน่วยความจำ GPU ลงได้ 37-55%

— เปิดทางให้โมเดลขนาดยักษ์รันได้บนฮาร์ดแวร์ที่เล็กลง

— สร้างโอกาสให้เพิ่ม Expert ใหม่ได้เรื่อยๆ โดยไม่เพิ่มต้นทุนการประมวลผล

ในยุคที่โมเดล MoE กำลังเป็นกระดูกสันหลังของ AI ชั้นนำอย่าง Gemini, DeepSeek-V3 และ Qwen งานวิจัยนี้อาจเป็นกุญแจไขประตูสู่การ serve โมเดลขนาดหลายแสนล้านพารามิเตอร์อย่างมีประสิทธิภาพ

คำถามที่เหลือคือ — ถ้าฝังแนวคิดนี้ตั้งแต่ขั้นตอน pretraining จะเกิดอะไรขึ้น?

📄 แหล่งข่าว

HuggingFace Daily Papers

← ก่อนหน้า

วิธีสอน AI สร้างรูปแบบใหม่ Rose: ภาพคมชัดขึ้น สีสด

🔬 Hybrid Policy Distillation เทคนิคใหม่ย่อ AI ยัก