news 2026-04-21 · huggingface-papers

🎬 Motif-Video 2B โมเดลสร้างวิดีโอตัวเล็ก ที่เอาชนะยักษ์ใหญ่ขนาด 14B

ถ้าบอกว่าโมเดล AI ตัวเล็กกว่า 7 เท่า ใช้ข้อมูลน้อยกว่า ใช้พลังประมวลผลน้อยกว่า แต่สร้างวิดีโอได้ดีกว่าโมเดลที่ใหญ่กว่าหลายเท่า — จะเชื่อไหม?

นี่คือสิ่งที่เกิดขึ้นจริงแล้ว

ลองนึกภาพแบบนี้:

อยากสร้างวิดีโอจากข้อความ แต่โมเดลดีๆ ต้องใช้เครื่องแรงมหาศาล
ค่าเช่า GPU แพงจนบริษัทเล็กแตะไม่ถึง
โมเดลใหญ่ ≠ โมเดลดีเสมอไป แต่ที่ผ่านมาไม่มีใครพิสูจน์ได้ชัด

ทีมวิจัยกว่า 28 คน เปิดตัว Motif-Video 2B — โมเดลสร้างวิดีโอจากข้อความที่มีขนาดแค่ 2 พันล้านพารามิเตอร์ ฝึกด้วยคลิปวิดีโอไม่ถึง 10 ล้านคลิป และใช้เวลาฝึกไม่ถึง 100,000 ชั่วโมง GPU

แต่ผลลัพธ์? ทำคะแนนบนมาตรฐาน VBench ได้ 83.76% — เอาชนะ Wan2.1 14B ที่ใหญ่กว่า 7 เท่าไปอย่างสวยงาม

🎯 ทำไมถึงทำได้?

แบ่งสถาปัตยกรรมเป็น 3 ส่วนชัดเจน — ส่วนรวมข้อมูล ส่วนเรียนรู้ร่วม และส่วนขัดเกลารายละเอียด แต่ละส่วนทำหน้าที่เฉพาะทาง
ใช้ระบบ Shared Cross-Attention ที่ทำให้โมเดลเข้าใจคำสั่งข้อความได้แม่นยำตลอดทั้งวิดีโอ
มีระบบจัดสรรการประมวลผลอัจฉริยะ ไม่เสียพลังไปกับส่วนที่ไม่จำเป็น

เปรียบเหมือนนักมวยรุ่นเล็กที่ฝึกเทคนิคมาอย่างดี ขึ้นชกกับรุ่นใหญ่แล้วชนะด้วยความแม่นยำ ไม่ใช่แรง

นี่อาจเป็นจุดเปลี่ยนที่ทำให้การสร้างวิดีโอด้วย AI ไม่ใช่เรื่องของบริษัทใหญ่ที่มี GPU เป็นหมื่นตัวอีกต่อไป — แต่เป็นเรื่องของการออกแบบที่ฉลาดกว่า

📄 แหล่งข่าว

huggingface-papers

← ก่อนหน้า

🤖 AI ตัวเล็กทำวิจัยเก่งเท่าตัวใหญ่ — Mind DeepRes

🤖 MultiWorld สร้างโลกจำลองวิดีโอที่ AI หลายตัวทำง