🔬 CoReDi เทคนิคใหม่ให้ AI สร้างภาพเร็วขึ้น 13 เท่า ด้วย 'สมองที่วิวัฒนาการเอง'
ลองจินตนาการว่าคุณมีจิตรกรฝีมือดี แต่เขาถูกบังคับให้วาดรูปโดยใช้แว่นตาที่ปรับโฟกัสไม่ได้ ไม่ว่าจะฝึกวาดมากแค่ไหน แว่นก็ยังเบลอเท่าเดิม — นี่คือปัญหาที่ระบบสร้างภาพ AI กำลังเผชิญอยู่
แล้วถ้าแว่นตาสามารถ "วิวัฒนาการ" ปรับตัวไปพร้อมกับฝีมือจิตรกรล่ะ?
ทีมนักวิจัยจากกรีซและฝรั่งเศส นำโดย Theodoros Kouzelis จาก Archimedes Research Center เพิ่งเปิดตัว CoReDi (Coevolving Representation Diffusion) เฟรมเวิร์กใหม่ที่พลิกแนวคิดเรื่องการสร้างภาพ AI แบบหน้ามือเป็นหลังมือ
ปัญหาใหญ่ของระบบสร้างภาพยุคปัจจุบันคือ — มันใช้ "ตัวแทนความเข้าใจภาพ" ที่ถูกกำหนดไว้ตายตัวตั้งแต่ก่อนเริ่มเทรน เปรียบเหมือนให้ AI มองโลกผ่านกรอบที่ไม่เคยเปลี่ยน ไม่ว่าจะเรียนรู้ไปมากแค่ไหน
CoReDi แก้ปัญหานี้ด้วยแนวคิดที่เรียบง่ายแต่ทรงพลัง — ให้ "พื้นที่ความเข้าใจ" ของ AI วิวัฒนาการไปพร้อมกับตัวโมเดลสร้างภาพ เหมือนสมองที่ปรับจูนวิธีมองโลกไปพร้อมกับฝึกฝน
แต่การทำแบบนี้ไม่ง่าย เพราะถ้าปล่อยให้ทุกอย่างเปลี่ยนแปลงพร้อมกันแบบไม่มีการควบคุม ระบบจะ "ล่มสลาย" ทันที ทีมวิจัยค้นพบว่าต้องใช้ 3 กุญแจสำคัญ:
1. Stop-Gradient — ป้องกันไม่ให้ระบบโกงด้วยการลดค่าความผิดพลาดแบบลัด
2. Batch Normalization — รักษาความเสถียรของข้อมูลไม่ให้บิดเบี้ยว
3. Regularization — ป้องกัน "การยุบตัว" ของข้อมูลที่ทำให้ช่องทางต่าง ๆ กลายเป็นสำเนาของกันและกัน
ผลลัพธ์? น่าทึ่งมาก
CoReDi เทรนเร็วกว่าเทคนิค REPA ที่เป็นมาตรฐานอยู่ถึง 13 เท่า และเร็วกว่า DeCo ถึง 2 เท่าในการสร้างภาพจากพิกเซลโดยตรง ที่สำคัญคือคุณภาพภาพที่ได้ก็ดีขึ้นด้วย โดยทำคะแนน FID ได้ 3.3 บน ImageNet ด้วยขั้นตอนเทรนเพียงครึ่งเดียวของคู่แข่ง
นอกจากนี้ยังใช้ได้ทั้งแบบ Latent Space และ Pixel Space ซึ่งหมายความว่าสามารถข้ามข้อจำกัดของ VAE ที่เคยเป็นคอขวดของคุณภาพภาพได้
สิ่งที่น่าสนใจที่สุดคือ — เมื่อสังเกตการเปลี่ยนแปลงของ "พื้นที่ความเข้าใจ" ตลอดการเทรน พบว่ามันพัฒนาโครงสร้างเชิงพื้นที่ที่มีความหมายมากขึ้นเรื่อย ๆ เหมือนสมองที่ค่อย ๆ จัดระเบียบความเข้าใจภาพของตัวเอง
คำถามที่ตามมาคือ — ถ้า AI สามารถ "วิวัฒนาการ" วิธีมองโลกของตัวเองได้ ขีดจำกัดของการสร้างภาพจะอยู่ตรงไหน?
📄 แหล่งข่าว
HuggingFace Daily Papers