🎮 WorldMark: มาตรฐานใหม่วัดพลัง AI สร้างโลกเสมือนแบบโต้ตอบได้
ลองจินตนาการว่าคุณกดปุ่ม W-A-S-D บนคีย์บอร์ด แล้ว AI สร้างโลก 3 มิติให้คุณเดินสำรวจได้แบบเรียลไทม์ — นี่คือสิ่งที่ "World Model" กำลังทำอยู่ แต่ปัญหาใหญ่คือ... ไม่มีใครรู้เลยว่าตัวไหนเก่งที่สุด
ทุกวันนี้ AI สร้างโลกเสมือนแบบโต้ตอบได้มีหลายตัว ไม่ว่าจะเป็น Genie 3 ของ Google, YUME 1.5, HY-World 1.5 หรือ Matrix-Game 2.0 แต่แต่ละตัวก็ทดสอบกันบนสนามของตัวเอง ใช้ฉากของตัวเอง ใช้วิธีวัดผลของตัวเอง — เหมือนนักกีฬาที่แข่งกันคนละสนาม แล้วอ้างว่าตัวเองเป็นแชมป์
ทีมวิจัยจาก Alaya Studio ร่วมกับมหาวิทยาลัยโตเกียว จึงสร้าง WorldMark ขึ้นมา เป็นชุดทดสอบมาตรฐานชุดแรกของโลกที่ออกแบบมาเพื่อเปรียบเทียบ AI สร้างโลกเสมือนอย่างยุติธรรม
หัวใจของ WorldMark มี 3 องค์ประกอบ:
หนึ่ง — ระบบแปลคำสั่งรวม ที่แปลงปุ่ม WASD+L/R ให้เป็นภาษาที่แต่ละโมเดลเข้าใจ ไม่ว่าจะเป็นคำสั่งข้อความ พารามิเตอร์ 6 แกน หรือปุ่มเกมแพด ทุกตัวจะได้รับคำสั่งที่มีความหมายเดียวกัน
สอง — ชุดทดสอบ 500 กรณี ครอบคลุมทั้งมุมมองบุคคลที่หนึ่งและสาม ฉากสมจริงและฉากศิลปะ พร้อมระดับความยากตั้งแต่ Easy (20 วินาที) ถึง Hard (60 วินาที)
สาม — เครื่องมือวัดผล 8 มิติ ตั้งแต่คุณภาพภาพ ความแม่นยำในการควบคุม ไปจนถึงความสอดคล้องของโลก
ผลลัพธ์ที่ค้นพบน่าตกใจมาก:
YUME 1.5 สร้างภาพสวยที่สุด แต่โลกที่สร้างกลับขาดความสอดคล้อง ส่วน Genie 3 ของ Google สร้างโลกที่สมเหตุสมผลที่สุด แต่ภาพไม่ได้สวยเท่า — ความสวยกับความสมจริงไม่ได้ไปด้วยกัน
ที่น่าสนใจยิ่งกว่าคือเมื่อเปลี่ยนจากมุมมองบุคคลที่หนึ่งเป็นบุคคลที่สาม ค่าความผิดพลาดในการหมุนกล้องของ Matrix-Game 2.0 พุ่งขึ้นถึง 20 เท่า แสดงให้เห็นว่าการควบคุมกล้องรอบตัวละครยังเป็นความท้าทายใหญ่
นอกจากนี้ ทีมยังเปิดตัว World Model Arena แพลตฟอร์มออนไลน์ที่ให้ทุกคนจับคู่ AI ต่อสู้กันแบบเทียบข้างกันได้
WorldMark กำลังจะเปลี่ยนวิธีที่วงการวัดผล AI สร้างโลกเสมือนไปตลอดกาล
📄 แหล่งข่าว
HuggingFace Daily Papers