🎬 CogVideoX-1.0 โมเดล AI สร้างวิดีโอโอเพนซอร์สจาก Tsinghua เปิดตัวแล้ว
คุณเคยอยากสร้างวิดีโอจากข้อความแค่ไม่กี่บรรทัดไหม?
ตอนนี้มันเป็นจริงได้แล้ว — และที่สำคัญ ฟรี
CogVideoX-1.0 คือชุดโมเดล AI สำหรับสร้างวิดีโอแบบโอเพนซอร์ส พัฒนาโดยทีมวิจัยจากมหาวิทยาลัย Tsinghua ประเทศจีน ร่วมกับ Zhipu AI ผ่านแพลตฟอร์ม QingYing สามารถแปลงข้อความให้กลายเป็นวิดีโอได้อย่างน่าทึ่ง
แต่สิ่งที่ทำให้ CogVideoX ต่างจากเครื่องมือสร้างวิดีโอ AI ตัวอื่นคืออะไร?
ประการแรก มันเปิดให้ใช้งานฟรีทั้งหมด โมเดลขนาด 2B ใช้สัญญาอนุญาต Apache 2.0 หมายความว่านักพัฒนาสามารถนำไปใช้เชิงพาณิชย์ได้โดยไม่มีข้อจำกัด
ประการที่สอง ความสามารถครอบคลุมทั้ง 3 รูปแบบ ได้แก่ Text-to-Video (สร้างวิดีโอจากข้อความ), Image-to-Video (ทำให้ภาพเคลื่อนไหว) และ Video Continuation (ต่อยอดวิดีโอที่มีอยู่)
ในด้านเทคนิค CogVideoX มาพร้อม 3 ขนาดโมเดลหลัก:
- CogVideoX-2B — โมเดลเริ่มต้น ใช้แรมเพียง 4GB รันบน GPU ระดับกลางได้สบาย สร้างวิดีโอได้ในเวลาราว 90 วินาทีบน A100
- CogVideoX-5B — ความละเอียด 720×480 ที่ 8fps สร้างวิดีโอ 6 วินาที คุณภาพสูงขึ้นอย่างเห็นได้ชัด
- CogVideoX1.5-5B — รุ่นล่าสุด ความละเอียดพุ่งถึง 1360×768 สร้างวิดีโอยาว 5-10 วินาทีที่ 16fps
สถาปัตยกรรมเบื้องหลังใช้ Transformer-based Diffusion Model ร่วมกับ 3D RoPE Position Encoding และ 3D Causal VAE ที่สร้างวิดีโอซ้ำได้แทบไม่สูญเสียคุณภาพ
สิ่งที่น่าจับตามองคือ ระบบนี้รันได้แม้บน GPU การ์ดจอ RTX 4090 ตัวเดียว รองรับการ Fine-tune โมเดลด้วยตัวเอง และเชื่อมต่อกับ ComfyUI ได้ทันที
นี่คือก้าวสำคัญที่ทำให้การสร้างวิดีโอด้วย AI ไม่ใช่เรื่องของบริษัทยักษ์ใหญ่อีกต่อไป แต่เป็นเครื่องมือที่ทุกคนเข้าถึงได้
คำถามคือ — เมื่อ AI สร้างวิดีโอได้ขนาดนี้ อุตสาหกรรมวิดีโอจะเปลี่ยนไปแค่ไหน?
📄 แหล่งข่าว
GitHub CogVideo