news 2026-04-18 · HuggingFace Daily Papers

🔬 CoReDi เทคนิคใหม่ให้ AI สร้างภาพเร็วขึ้น 13 เท่า ด้วย 'สมองที่วิวัฒนาการเอง'

ลองจินตนาการว่าคุณมีจิตรกรฝีมือดี แต่เขาถูกบังคับให้วาดรูปโดยใช้แว่นตาที่ปรับโฟกัสไม่ได้ ไม่ว่าจะฝึกวาดมากแค่ไหน แว่นก็ยังเบลอเท่าเดิม — นี่คือปัญหาที่ระบบสร้างภาพ AI กำลังเผชิญอยู่

แล้วถ้าแว่นตาสามารถ "วิวัฒนาการ" ปรับตัวไปพร้อมกับฝีมือจิตรกรล่ะ?

ทีมนักวิจัยจากกรีซและฝรั่งเศส นำโดย Theodoros Kouzelis จาก Archimedes Research Center เพิ่งเปิดตัว CoReDi (Coevolving Representation Diffusion) เฟรมเวิร์กใหม่ที่พลิกแนวคิดเรื่องการสร้างภาพ AI แบบหน้ามือเป็นหลังมือ

ปัญหาใหญ่ของระบบสร้างภาพยุคปัจจุบันคือ — มันใช้ "ตัวแทนความเข้าใจภาพ" ที่ถูกกำหนดไว้ตายตัวตั้งแต่ก่อนเริ่มเทรน เปรียบเหมือนให้ AI มองโลกผ่านกรอบที่ไม่เคยเปลี่ยน ไม่ว่าจะเรียนรู้ไปมากแค่ไหน

CoReDi แก้ปัญหานี้ด้วยแนวคิดที่เรียบง่ายแต่ทรงพลัง — ให้ "พื้นที่ความเข้าใจ" ของ AI วิวัฒนาการไปพร้อมกับตัวโมเดลสร้างภาพ เหมือนสมองที่ปรับจูนวิธีมองโลกไปพร้อมกับฝึกฝน

แต่การทำแบบนี้ไม่ง่าย เพราะถ้าปล่อยให้ทุกอย่างเปลี่ยนแปลงพร้อมกันแบบไม่มีการควบคุม ระบบจะ "ล่มสลาย" ทันที ทีมวิจัยค้นพบว่าต้องใช้ 3 กุญแจสำคัญ:

1. Stop-Gradient — ป้องกันไม่ให้ระบบโกงด้วยการลดค่าความผิดพลาดแบบลัด

2. Batch Normalization — รักษาความเสถียรของข้อมูลไม่ให้บิดเบี้ยว

3. Regularization — ป้องกัน "การยุบตัว" ของข้อมูลที่ทำให้ช่องทางต่าง ๆ กลายเป็นสำเนาของกันและกัน

ผลลัพธ์? น่าทึ่งมาก

CoReDi เทรนเร็วกว่าเทคนิค REPA ที่เป็นมาตรฐานอยู่ถึง 13 เท่า และเร็วกว่า DeCo ถึง 2 เท่าในการสร้างภาพจากพิกเซลโดยตรง ที่สำคัญคือคุณภาพภาพที่ได้ก็ดีขึ้นด้วย โดยทำคะแนน FID ได้ 3.3 บน ImageNet ด้วยขั้นตอนเทรนเพียงครึ่งเดียวของคู่แข่ง

นอกจากนี้ยังใช้ได้ทั้งแบบ Latent Space และ Pixel Space ซึ่งหมายความว่าสามารถข้ามข้อจำกัดของ VAE ที่เคยเป็นคอขวดของคุณภาพภาพได้

สิ่งที่น่าสนใจที่สุดคือ — เมื่อสังเกตการเปลี่ยนแปลงของ "พื้นที่ความเข้าใจ" ตลอดการเทรน พบว่ามันพัฒนาโครงสร้างเชิงพื้นที่ที่มีความหมายมากขึ้นเรื่อย ๆ เหมือนสมองที่ค่อย ๆ จัดระเบียบความเข้าใจภาพของตัวเอง

คำถามที่ตามมาคือ — ถ้า AI สามารถ "วิวัฒนาการ" วิธีมองโลกของตัวเองได้ ขีดจำกัดของการสร้างภาพจะอยู่ตรงไหน?

📄 แหล่งข่าว

HuggingFace Daily Papers

← ก่อนหน้า

🛡️ Google เปิดตัว 3 ฟีเจอร์ AI ใหม่ใน Ads Advisor

🧠 LLaTiSA โมเดล AI วิเคราะห์ข้อมูลอนุกรมเวลาแบบแบ