news 2026-04-24 · sd-reddit

LLaDA2.0-Uni — โมเดลภาษาแบบ Diffusion ที่เข้าใจและสร้างรูปได้ในตัวเดียว

ถ้าบอกว่า AI ตอนนี้ต้องเลือก — จะเก่งเรื่องเข้าใจรูปภาพ หรือเก่งเรื่องสร้างรูปภาพ?

แล้วถ้ามีโมเดลที่ทำได้ทั้งสองอย่างในตัวเดียวล่ะ?

ที่ผ่านมา AI ที่เข้าใจรูป (เช่น ตอบคำถามจากภาพ) กับ AI ที่สร้างรูป (เช่น Text-to-Image) เป็นคนละระบบกัน
ถ้าอยากได้ทั้งสองอย่าง ต้องต่อหลายโมเดลเข้าด้วยกัน ยุ่งยากและช้า
นักพัฒนาอิสระต้องเลือกว่าจะลงทุนกับฝั่งไหน

เคยไหม — อยากให้ AI ดูรูปแล้วแก้ไขต่อได้เลย โดยไม่ต้องสลับไปใช้อีกโปรแกรม?

ทีม InclusionAI จาก Ant Group เพิ่งปล่อย LLaDA2.0-Uni — โมเดลภาษาแบบ Diffusion ตัวแรกที่รวมความสามารถ "เข้าใจรูป" กับ "สร้างรูป" ไว้ในโมเดลเดียวอย่างแท้จริง

หัวใจคือการใช้เทคนิค Masked Diffusion — แทนที่จะสร้างคำทีละคำเหมือน AI ทั่วไป มันจะ "เติมช่องว่าง" หลายจุดพร้อมกัน ทั้งข้อความและรูปภาพ ทำให้ทำงานเร็วขึ้นมาก

🎯 สิ่งที่ทำได้:

สร้างรูปจากข้อความ — คุณภาพสูง สร้างได้ใน 8 ขั้นตอน
ดูรูปแล้วตอบคำถาม — เข้าใจเอกสาร กราฟ รูปถ่ายได้หมด
แก้ไขรูปด้วยคำสั่ง — บอกว่า "เปลี่ยนสีเสื้อเป็นแดง" มันทำได้เลย
คิดก่อนสร้าง — มีโหมด reasoning วิเคราะห์ก่อนลงมือวาด
โอเพนซอร์สเต็มรูปแบบ — โค้ดและโมเดลเปิดให้ใช้ฟรีภายใต้ Apache 2.0

ลองนึกภาพ:

คุณถ่ายรูปห้องนั่งเล่น → ให้ AI วิเคราะห์ว่าจัดเฟอร์นิเจอร์ยังไงดี → แล้วมันสร้างรูปห้องใหม่ที่จัดตามคำแนะนำ — ทั้งหมดในโมเดลเดียว

หรือส่งรูปสินค้าให้ AI → มันเข้าใจว่าเป็นอะไร → แล้วสร้างรูปโฆษณาให้อัตโนมัติ

นี่คือทิศทางที่ AI กำลังไป: ไม่แยกเป็นชิ้นๆ อีกต่อไป แต่รวมทุกอย่างเข้าด้วยกันเป็นหนึ่งเดียว

โมเดลที่ทั้งเห็น เข้าใจ และสร้างได้ — อาจเปลี่ยนวิธีที่เราทำงานกับ AI ไปตลอด

📄 แหล่งข่าว

sd-reddit

← ก่อนหน้า

Automatic1111 ยังใช้ได้อยู่ไหม? ชุมชน AI ถกหนักเรื

คนเดียวรันฟีด For You ให้ Bluesky 72,000 คน จากพีซ