🤖 ClawGUI เปิดตัวระบบสอน AI ใช้มือถือแทนคนได้ครบวงจร
ถ้าวันนึง AI สามารถหยิบมือถือขึ้นมา กดแอป สั่งอาหาร จองตั๋ว แล้วก็ปิดเครื่องให้เราได้เอง — โลกจะเปลี่ยนไปแค่ไหน?
ปัญหาคือ ทุกวันนี้การสร้าง AI ที่ "ใช้หน้าจอเป็น" ยังติดขัดหนักมาก:
- ระบบฝึกสอนไม่เสถียร พังบ่อย ใช้ซ้ำไม่ได้
- แต่ละทีมวัดผลคนละมาตรฐาน เทียบกันไม่ได้
- ฝึกเสร็จแล้วก็เอาไปใช้จริงบนมือถือไม่ได้
ลองนึกภาพว่าเราอยากสอน AI ให้กดสั่งกาแฟผ่านแอป — มันต้องเห็นหน้าจอ เข้าใจปุ่ม เลื่อนเมนู แล้วกดสั่งให้ถูก ไม่ใช่แค่อ่านโค้ดลับหลัง
แต่ที่ผ่านมา ทีมวิจัยแต่ละที่ต้องสร้างเครื่องมือเองตั้งแต่ศูนย์ ไม่มีมาตรฐานกลาง
นักวิจัยจึงสร้าง ClawGUI — กรอบงานแบบครบวงจรตัวแรกที่รวมทั้ง 3 ขั้นตอนไว้ในที่เดียว:
🎯 สิ่งที่ทำได้:
- ฝึกสอน AI ให้ใช้หน้าจอได้ทั้งบนจำลองและมือถือจริง พร้อมระบบให้คะแนนแบบละเอียดทุกขั้นตอน
- ทดสอบเทียบมาตรฐานเดียวกันทั้ง 6 ชุดข้อสอบ ครอบคลุม 11 โมเดล ความแม่นยำ 95.8% เทียบกับผลทดสอบต้นฉบับ
- นำไปใช้จริงได้ทั้ง Android, iOS และ HarmonyOS ผ่านแอปแชทกว่า 12 ตัว
เปรียบเหมือนเราสร้างโรงเรียนสอนขับรถที่มีทั้งห้องเรียน สนามสอบ และถนนจริงอยู่ในที่เดียว — ไม่ต้องย้ายไปมาอีกต่อไป
ลองนึกภาพ: พ่อแม่ที่ไม่ถนัดเทคโนโลยี แค่บอก AI ว่า "ช่วยจองหมอให้หน่อย" แล้วมันก็เปิดแอป กดนัดหมอ เลือกเวลาว่าง แล้วยืนยันให้เสร็จสรรพ
ที่น่าสนใจคือ โมเดลขนาดเล็กเพียง 2 พันล้านพารามิเตอร์ ทำคะแนนชนะโมเดลขนาดเดียวกันถึง 6% — พิสูจน์ว่าวิธีฝึกดีกว่าขนาดใหญ่
ยุคที่ AI หยิบมือถือใช้แทนเราได้จริง อาจมาถึงเร็วกว่าที่คิด
📄 แหล่งข่าว
huggingface-papers