🔍 AI อ่านตัวอักษรได้แค่ไม่กี่ภาษา — ที่เหลืออีกร้อยกว่าภาษาถูกทิ้งไว้ข้างหลัง
ถ้าคุณถ่ายรูปเอกสารภาษาอังกฤษแล้วให้ AI อ่าน มันทำได้ดีมาก
แต่ถ้าเป็นภาษาไทย? ภาษาพม่า? ภาษาลาว? ภาษาเขมร?
- OCR (ระบบอ่านตัวอักษรจากภาพ) ส่วนใหญ่ถูกสร้างมาเพื่อภาษายอดนิยมไม่กี่ภาษา
- ภาษาที่ใช้อักษรไม่ใช่ละติน — ถูกละเลยมาตลอด
- ไม่มีใครเคยวัดจริงจังว่า AI อ่านภาษาเหล่านี้ได้แค่ไหน
เคยไหม... ถ่ายรูปใบเสร็จ ป้ายร้าน หรือเอกสารราชการ แล้วให้แอปอ่านข้อความ พอเป็นภาษาไทยกลับอ่านผิดเพี้ยนไปหมด? นั่นไม่ใช่ความผิดของคุณ — มันคือปัญหาระดับโลกที่ยังไม่มีใครแก้
ทีมวิจัยเปิดตัว GlotOCR Bench — มาตรฐานทดสอบ OCR ที่ครอบคลุมมากที่สุดเท่าที่เคยมีมา ทดสอบกับกว่า 314 ระบบตัวอักษร (Unicode scripts) จากทั่วโลก
ผลลัพธ์น่าตกใจ:
🎯 สิ่งที่ค้นพบ:
- โมเดล OCR ชั้นนำทำได้ดีแค่กับ 10-15 ระบบตัวอักษรยอดนิยม เช่น ละติน จีน อาหรับ
- พออักษรซับซ้อนขึ้น เช่น ไทย พม่า ทมิฬ เขมร — ความแม่นยำร่วงลงอย่างหนัก
- ภาษาชนเผ่าและภาษาที่ใกล้สูญหาย AI แทบอ่านไม่ออกเลย
- แม้แต่โมเดลใหญ่ที่สุดก็ยังสอบตกกับอักษรที่คนหลายร้อยล้านใช้อยู่ทุกวัน
ลองนึกภาพว่าคุณเป็นชาวนาในเมียนมา ต้องการใช้แอปแปลเอกสารราชการ แต่ AI อ่านภาษาพม่าผิดทุกบรรทัด หรือคุณเป็นครูในชนบทลาว อยากใช้เทคโนโลยีช่วยสอน แต่ระบบไม่รู้จักอักษรลาวด้วยซ้ำ
นี่คือ "ช่องว่างดิจิทัล" ที่แท้จริง — ไม่ใช่แค่เรื่องอินเทอร์เน็ต แต่เป็นเรื่องที่ AI ถูกสร้างมาเพื่อคนบางกลุ่มเท่านั้น
GlotOCR Bench จะเป็นเครื่องมือสำคัญที่ผลักดันให้นักพัฒนาหันมาสนใจภาษาที่ถูกลืม — เพราะถ้าวัดไม่ได้ ก็แก้ไม่ได้
📄 แหล่งข่าว
huggingface-papers