LLaDA2.0-Uni — โมเดลภาษาแบบ Diffusion ที่เข้าใจและสร้างรูปได้ในตัวเดียว
ถ้าบอกว่า AI ตอนนี้ต้องเลือก — จะเก่งเรื่องเข้าใจรูปภาพ หรือเก่งเรื่องสร้างรูปภาพ?
แล้วถ้ามีโมเดลที่ทำได้ทั้งสองอย่างในตัวเดียวล่ะ?
- ที่ผ่านมา AI ที่เข้าใจรูป (เช่น ตอบคำถามจากภาพ) กับ AI ที่สร้างรูป (เช่น Text-to-Image) เป็นคนละระบบกัน
- ถ้าอยากได้ทั้งสองอย่าง ต้องต่อหลายโมเดลเข้าด้วยกัน ยุ่งยากและช้า
- นักพัฒนาอิสระต้องเลือกว่าจะลงทุนกับฝั่งไหน
เคยไหม — อยากให้ AI ดูรูปแล้วแก้ไขต่อได้เลย โดยไม่ต้องสลับไปใช้อีกโปรแกรม?
ทีม InclusionAI จาก Ant Group เพิ่งปล่อย LLaDA2.0-Uni — โมเดลภาษาแบบ Diffusion ตัวแรกที่รวมความสามารถ "เข้าใจรูป" กับ "สร้างรูป" ไว้ในโมเดลเดียวอย่างแท้จริง
หัวใจคือการใช้เทคนิค Masked Diffusion — แทนที่จะสร้างคำทีละคำเหมือน AI ทั่วไป มันจะ "เติมช่องว่าง" หลายจุดพร้อมกัน ทั้งข้อความและรูปภาพ ทำให้ทำงานเร็วขึ้นมาก
🎯 สิ่งที่ทำได้:
- สร้างรูปจากข้อความ — คุณภาพสูง สร้างได้ใน 8 ขั้นตอน
- ดูรูปแล้วตอบคำถาม — เข้าใจเอกสาร กราฟ รูปถ่ายได้หมด
- แก้ไขรูปด้วยคำสั่ง — บอกว่า "เปลี่ยนสีเสื้อเป็นแดง" มันทำได้เลย
- คิดก่อนสร้าง — มีโหมด reasoning วิเคราะห์ก่อนลงมือวาด
- โอเพนซอร์สเต็มรูปแบบ — โค้ดและโมเดลเปิดให้ใช้ฟรีภายใต้ Apache 2.0
ลองนึกภาพ:
คุณถ่ายรูปห้องนั่งเล่น → ให้ AI วิเคราะห์ว่าจัดเฟอร์นิเจอร์ยังไงดี → แล้วมันสร้างรูปห้องใหม่ที่จัดตามคำแนะนำ — ทั้งหมดในโมเดลเดียว
หรือส่งรูปสินค้าให้ AI → มันเข้าใจว่าเป็นอะไร → แล้วสร้างรูปโฆษณาให้อัตโนมัติ
นี่คือทิศทางที่ AI กำลังไป: ไม่แยกเป็นชิ้นๆ อีกต่อไป แต่รวมทุกอย่างเข้าด้วยกันเป็นหนึ่งเดียว
โมเดลที่ทั้งเห็น เข้าใจ และสร้างได้ — อาจเปลี่ยนวิธีที่เราทำงานกับ AI ไปตลอด
📄 แหล่งข่าว
sd-reddit