news 2024-11-08 · GitHub CogVideo

🎬 CogVideoX-1.0 โมเดล AI สร้างวิดีโอโอเพนซอร์สจาก Tsinghua เปิดตัวแล้ว

คุณเคยอยากสร้างวิดีโอจากข้อความแค่ไม่กี่บรรทัดไหม?

ตอนนี้มันเป็นจริงได้แล้ว — และที่สำคัญ ฟรี

CogVideoX-1.0 คือชุดโมเดล AI สำหรับสร้างวิดีโอแบบโอเพนซอร์ส พัฒนาโดยทีมวิจัยจากมหาวิทยาลัย Tsinghua ประเทศจีน ร่วมกับ Zhipu AI ผ่านแพลตฟอร์ม QingYing สามารถแปลงข้อความให้กลายเป็นวิดีโอได้อย่างน่าทึ่ง

แต่สิ่งที่ทำให้ CogVideoX ต่างจากเครื่องมือสร้างวิดีโอ AI ตัวอื่นคืออะไร?

ประการแรก มันเปิดให้ใช้งานฟรีทั้งหมด โมเดลขนาด 2B ใช้สัญญาอนุญาต Apache 2.0 หมายความว่านักพัฒนาสามารถนำไปใช้เชิงพาณิชย์ได้โดยไม่มีข้อจำกัด

ประการที่สอง ความสามารถครอบคลุมทั้ง 3 รูปแบบ ได้แก่ Text-to-Video (สร้างวิดีโอจากข้อความ), Image-to-Video (ทำให้ภาพเคลื่อนไหว) และ Video Continuation (ต่อยอดวิดีโอที่มีอยู่)

ในด้านเทคนิค CogVideoX มาพร้อม 3 ขนาดโมเดลหลัก:

CogVideoX-2B — โมเดลเริ่มต้น ใช้แรมเพียง 4GB รันบน GPU ระดับกลางได้สบาย สร้างวิดีโอได้ในเวลาราว 90 วินาทีบน A100

CogVideoX-5B — ความละเอียด 720×480 ที่ 8fps สร้างวิดีโอ 6 วินาที คุณภาพสูงขึ้นอย่างเห็นได้ชัด

CogVideoX1.5-5B — รุ่นล่าสุด ความละเอียดพุ่งถึง 1360×768 สร้างวิดีโอยาว 5-10 วินาทีที่ 16fps

สถาปัตยกรรมเบื้องหลังใช้ Transformer-based Diffusion Model ร่วมกับ 3D RoPE Position Encoding และ 3D Causal VAE ที่สร้างวิดีโอซ้ำได้แทบไม่สูญเสียคุณภาพ

สิ่งที่น่าจับตามองคือ ระบบนี้รันได้แม้บน GPU การ์ดจอ RTX 4090 ตัวเดียว รองรับการ Fine-tune โมเดลด้วยตัวเอง และเชื่อมต่อกับ ComfyUI ได้ทันที

นี่คือก้าวสำคัญที่ทำให้การสร้างวิดีโอด้วย AI ไม่ใช่เรื่องของบริษัทยักษ์ใหญ่อีกต่อไป แต่เป็นเครื่องมือที่ทุกคนเข้าถึงได้

คำถามคือ — เมื่อ AI สร้างวิดีโอได้ขนาดนี้ อุตสาหกรรมวิดีโอจะเปลี่ยนไปแค่ไหน?

📄 แหล่งข่าว

GitHub CogVideo

← ก่อนหน้า

🚀 Marc Benioff ชี้ LLM ถึงขีดจำกัดแล้ว — ยุคของ A

🦀 Agentpanel: API เดียวคุม LLM กว่า 100 ตัว เขียน