🧠 AI เข้าใจท่าทางมนุษย์ได้โดยไม่ต้องใช้ Encoder อีกต่อไป
คุณเคยสงสัยไหมว่า ทำไม AI ถึงยังเข้าใจท่าทางมนุษย์ได้แย่นัก ทั้งๆ ที่มันอ่านข้อความได้เก่งขนาดนี้?
ปัญหาอยู่ตรงที่ ระบบเดิมๆ ต้องพึ่งพา "ตัวแปลงรหัส" (Encoder) ที่ซับซ้อนหลายชั้น เพื่อแปลงข้อมูลโครงกระดูกให้ AI เข้าใจได้ — แต่ตัวแปลงเหล่านี้เปราะบาง ฝึกยาก เสียเวลามหาศาล และถ้าเปลี่ยนโมเดล AI ก็ต้องฝึกใหม่ทั้งหมด
ทีมวิจัยจาก Aalto University และ Georgia Tech เสนอวิธีใหม่ที่พลิกเกมอย่างสิ้นเชิง — เปลี่ยนข้อมูลการเคลื่อนไหวของมนุษย์ให้กลายเป็น "คำอธิบายเชิงข้อความ" ที่ AI อ่านได้โดยตรง โดยไม่ต้องใช้ Encoder ใดๆ เลย
ระบบนี้ชื่อว่า SMD (Structured Motion Descriptions) ใช้หลักการวิเคราะห์ชีวกลศาสตร์ แปลงตำแหน่งข้อต่อ 22 จุดของร่างกายให้กลายเป็นข้อความที่อธิบายมุมงอ ทิศทาง และจังหวะเวลาของแต่ละส่วนร่างกาย เช่น "สะโพกซ้ายงอจาก 3 องศาเป็น 81 องศาในช่วง 0-0.9 วินาที"
ผลลัพธ์น่าตกใจ — SMD ทำคะแนนดีกว่าระบบเดิมที่ใช้ Encoder อย่างชัดเจน
ในการทดสอบตอบคำถามเกี่ยวกับท่าทาง (Motion QA) ระบบทำคะแนนได้ 66.7% บน BABEL-QA และ 90.1% บน HuMMan-QA สูงกว่าสถิติเดิมถึง 6.6 และ 14.9 คะแนนตามลำดับ ส่วนการบรรยายท่าทาง (Motion Captioning) คะแนน CIDEr พุ่งขึ้นถึง 31%
แต่สิ่งที่น่าทึ่งที่สุดคือ ระบบนี้ใช้ได้กับ AI หลายตัวโดยไม่ต้องดัดแปลง — ทีมวิจัยทดสอบกับ 8 โมเดลจาก 6 ตระกูล ตั้งแต่ Qwen ไปจนถึง Llama และ Gemma ทั้งหมดทำงานได้ดีด้วยข้อมูล SMD ชุดเดียวกัน
ข้อดีอีกอย่างที่ระบบเดิมทำไม่ได้คือ "ความโปร่งใส" — เราสามารถดูได้ว่า AI กำลังสนใจส่วนไหนของร่างกายเมื่อวิเคราะห์ท่าทาง เช่น เวลาดูคนเดิน AI จะโฟกัสที่การงอสะโพกและเข่า แต่เวลาดูคนโบกมือ AI จะหันไปดูไหล่และข้อศอกแทน
การฝึกใช้เพียง LoRA บน GPU เดียว ใช้เวลาแค่ 7-20 ชั่วโมง เทียบกับระบบเดิมที่ต้องฝึกหลายขั้นตอนเป็นวันๆ
นี่อาจเป็นจุดเปลี่ยนสำคัญ — แทนที่จะบังคับให้ AI เรียนรู้ภาษาใหม่ ทำไมไม่แปลงข้อมูลให้เป็นภาษาที่ AI เข้าใจอยู่แล้วตั้งแต่แรก?
📄 แหล่งข่าว
HuggingFace Daily Papers