🎬 Motif-Video 2B โมเดลสร้างวิดีโอตัวเล็ก ที่เอาชนะยักษ์ใหญ่ขนาด 14B
ถ้าบอกว่าโมเดล AI ตัวเล็กกว่า 7 เท่า ใช้ข้อมูลน้อยกว่า ใช้พลังประมวลผลน้อยกว่า แต่สร้างวิดีโอได้ดีกว่าโมเดลที่ใหญ่กว่าหลายเท่า — จะเชื่อไหม?
นี่คือสิ่งที่เกิดขึ้นจริงแล้ว
ลองนึกภาพแบบนี้:
- อยากสร้างวิดีโอจากข้อความ แต่โมเดลดีๆ ต้องใช้เครื่องแรงมหาศาล
- ค่าเช่า GPU แพงจนบริษัทเล็กแตะไม่ถึง
- โมเดลใหญ่ ≠ โมเดลดีเสมอไป แต่ที่ผ่านมาไม่มีใครพิสูจน์ได้ชัด
ทีมวิจัยกว่า 28 คน เปิดตัว Motif-Video 2B — โมเดลสร้างวิดีโอจากข้อความที่มีขนาดแค่ 2 พันล้านพารามิเตอร์ ฝึกด้วยคลิปวิดีโอไม่ถึง 10 ล้านคลิป และใช้เวลาฝึกไม่ถึง 100,000 ชั่วโมง GPU
แต่ผลลัพธ์? ทำคะแนนบนมาตรฐาน VBench ได้ 83.76% — เอาชนะ Wan2.1 14B ที่ใหญ่กว่า 7 เท่าไปอย่างสวยงาม
🎯 ทำไมถึงทำได้?
- แบ่งสถาปัตยกรรมเป็น 3 ส่วนชัดเจน — ส่วนรวมข้อมูล ส่วนเรียนรู้ร่วม และส่วนขัดเกลารายละเอียด แต่ละส่วนทำหน้าที่เฉพาะทาง
- ใช้ระบบ Shared Cross-Attention ที่ทำให้โมเดลเข้าใจคำสั่งข้อความได้แม่นยำตลอดทั้งวิดีโอ
- มีระบบจัดสรรการประมวลผลอัจฉริยะ ไม่เสียพลังไปกับส่วนที่ไม่จำเป็น
เปรียบเหมือนนักมวยรุ่นเล็กที่ฝึกเทคนิคมาอย่างดี ขึ้นชกกับรุ่นใหญ่แล้วชนะด้วยความแม่นยำ ไม่ใช่แรง
นี่อาจเป็นจุดเปลี่ยนที่ทำให้การสร้างวิดีโอด้วย AI ไม่ใช่เรื่องของบริษัทใหญ่ที่มี GPU เป็นหมื่นตัวอีกต่อไป — แต่เป็นเรื่องของการออกแบบที่ฉลาดกว่า
📄 แหล่งข่าว
huggingface-papers