news 2026-04-15 · huggingface-papers

🔍 AI อ่านตัวอักษรได้แค่ไม่กี่ภาษา — ที่เหลืออีกร้อยกว่าภาษาถูกทิ้งไว้ข้างหลัง

ถ้าคุณถ่ายรูปเอกสารภาษาอังกฤษแล้วให้ AI อ่าน มันทำได้ดีมาก

แต่ถ้าเป็นภาษาไทย? ภาษาพม่า? ภาษาลาว? ภาษาเขมร?

OCR (ระบบอ่านตัวอักษรจากภาพ) ส่วนใหญ่ถูกสร้างมาเพื่อภาษายอดนิยมไม่กี่ภาษา
ภาษาที่ใช้อักษรไม่ใช่ละติน — ถูกละเลยมาตลอด
ไม่มีใครเคยวัดจริงจังว่า AI อ่านภาษาเหล่านี้ได้แค่ไหน

เคยไหม... ถ่ายรูปใบเสร็จ ป้ายร้าน หรือเอกสารราชการ แล้วให้แอปอ่านข้อความ พอเป็นภาษาไทยกลับอ่านผิดเพี้ยนไปหมด? นั่นไม่ใช่ความผิดของคุณ — มันคือปัญหาระดับโลกที่ยังไม่มีใครแก้

ทีมวิจัยเปิดตัว GlotOCR Bench — มาตรฐานทดสอบ OCR ที่ครอบคลุมมากที่สุดเท่าที่เคยมีมา ทดสอบกับกว่า 314 ระบบตัวอักษร (Unicode scripts) จากทั่วโลก

ผลลัพธ์น่าตกใจ:

🎯 สิ่งที่ค้นพบ:

โมเดล OCR ชั้นนำทำได้ดีแค่กับ 10-15 ระบบตัวอักษรยอดนิยม เช่น ละติน จีน อาหรับ
พออักษรซับซ้อนขึ้น เช่น ไทย พม่า ทมิฬ เขมร — ความแม่นยำร่วงลงอย่างหนัก
ภาษาชนเผ่าและภาษาที่ใกล้สูญหาย AI แทบอ่านไม่ออกเลย
แม้แต่โมเดลใหญ่ที่สุดก็ยังสอบตกกับอักษรที่คนหลายร้อยล้านใช้อยู่ทุกวัน

ลองนึกภาพว่าคุณเป็นชาวนาในเมียนมา ต้องการใช้แอปแปลเอกสารราชการ แต่ AI อ่านภาษาพม่าผิดทุกบรรทัด หรือคุณเป็นครูในชนบทลาว อยากใช้เทคโนโลยีช่วยสอน แต่ระบบไม่รู้จักอักษรลาวด้วยซ้ำ

นี่คือ "ช่องว่างดิจิทัล" ที่แท้จริง — ไม่ใช่แค่เรื่องอินเทอร์เน็ต แต่เป็นเรื่องที่ AI ถูกสร้างมาเพื่อคนบางกลุ่มเท่านั้น

GlotOCR Bench จะเป็นเครื่องมือสำคัญที่ผลักดันให้นักพัฒนาหันมาสนใจภาษาที่ถูกลืม — เพราะถ้าวัดไม่ได้ ก็แก้ไม่ได้

📄 แหล่งข่าว

huggingface-papers

← ก่อนหน้า

🎙️ Google ปล่อย Gemini Flash TTS — สั่งให้ AI พูด

ถ้าบอกว่าปีที่แล้ว AI ทำงานจริงสำเร็จแค่ 20 ครั้งจ