EN
← กลับหน้าแรก
news 2026-04-22 · HuggingFace Daily Papers

🧠 AI เข้าใจท่าทางมนุษย์ได้โดยไม่ต้องใช้ Encoder อีกต่อไป

คุณเคยสงสัยไหมว่า ทำไม AI ถึงยังเข้าใจท่าทางมนุษย์ได้แย่นัก ทั้งๆ ที่มันอ่านข้อความได้เก่งขนาดนี้?

ปัญหาอยู่ตรงที่ ระบบเดิมๆ ต้องพึ่งพา "ตัวแปลงรหัส" (Encoder) ที่ซับซ้อนหลายชั้น เพื่อแปลงข้อมูลโครงกระดูกให้ AI เข้าใจได้ — แต่ตัวแปลงเหล่านี้เปราะบาง ฝึกยาก เสียเวลามหาศาล และถ้าเปลี่ยนโมเดล AI ก็ต้องฝึกใหม่ทั้งหมด


ทีมวิจัยจาก Aalto University และ Georgia Tech เสนอวิธีใหม่ที่พลิกเกมอย่างสิ้นเชิง — เปลี่ยนข้อมูลการเคลื่อนไหวของมนุษย์ให้กลายเป็น "คำอธิบายเชิงข้อความ" ที่ AI อ่านได้โดยตรง โดยไม่ต้องใช้ Encoder ใดๆ เลย

ระบบนี้ชื่อว่า SMD (Structured Motion Descriptions) ใช้หลักการวิเคราะห์ชีวกลศาสตร์ แปลงตำแหน่งข้อต่อ 22 จุดของร่างกายให้กลายเป็นข้อความที่อธิบายมุมงอ ทิศทาง และจังหวะเวลาของแต่ละส่วนร่างกาย เช่น "สะโพกซ้ายงอจาก 3 องศาเป็น 81 องศาในช่วง 0-0.9 วินาที"


ผลลัพธ์น่าตกใจ — SMD ทำคะแนนดีกว่าระบบเดิมที่ใช้ Encoder อย่างชัดเจน

ในการทดสอบตอบคำถามเกี่ยวกับท่าทาง (Motion QA) ระบบทำคะแนนได้ 66.7% บน BABEL-QA และ 90.1% บน HuMMan-QA สูงกว่าสถิติเดิมถึง 6.6 และ 14.9 คะแนนตามลำดับ ส่วนการบรรยายท่าทาง (Motion Captioning) คะแนน CIDEr พุ่งขึ้นถึง 31%

แต่สิ่งที่น่าทึ่งที่สุดคือ ระบบนี้ใช้ได้กับ AI หลายตัวโดยไม่ต้องดัดแปลง — ทีมวิจัยทดสอบกับ 8 โมเดลจาก 6 ตระกูล ตั้งแต่ Qwen ไปจนถึง Llama และ Gemma ทั้งหมดทำงานได้ดีด้วยข้อมูล SMD ชุดเดียวกัน


ข้อดีอีกอย่างที่ระบบเดิมทำไม่ได้คือ "ความโปร่งใส" — เราสามารถดูได้ว่า AI กำลังสนใจส่วนไหนของร่างกายเมื่อวิเคราะห์ท่าทาง เช่น เวลาดูคนเดิน AI จะโฟกัสที่การงอสะโพกและเข่า แต่เวลาดูคนโบกมือ AI จะหันไปดูไหล่และข้อศอกแทน

การฝึกใช้เพียง LoRA บน GPU เดียว ใช้เวลาแค่ 7-20 ชั่วโมง เทียบกับระบบเดิมที่ต้องฝึกหลายขั้นตอนเป็นวันๆ

นี่อาจเป็นจุดเปลี่ยนสำคัญ — แทนที่จะบังคับให้ AI เรียนรู้ภาษาใหม่ ทำไมไม่แปลงข้อมูลให้เป็นภาษาที่ AI เข้าใจอยู่แล้วตั้งแต่แรก?

📄 แหล่งข่าว

HuggingFace Daily Papers
แชร์: Facebook 𝕏
← ก่อนหน้า
🎨 Sampler ตัวไหนดีสุด? ชาว Stable Diffusion โหวตก
ถัดไป →
🔍 DAVinCI เฟรมเวิร์กใหม่ตรวจจับ AI โกหก ด้วยระบบ