🎙️ VibeVoice — Microsoft เปิด Voice AI ฟรี ฟังเสียง 1 ชม. รู้ใครพูด
ถ้าบอกว่า AI ฟังเสียงคุยได้ 1 ชั่วโมงรวด แยกคนพูดได้ทุกคน พร้อมถอดคำพูดเป็นข้อความแม่นยำ — คุณจะใช้ทำอะไร?
- ประชุม 2 ชั่วโมง ต้องนั่งจดเอง ย้อนฟังทีละนาที
- พอดแคสต์ยาวๆ อยากได้สคริปต์ ต้องจ้างคนถอดเสียง
- อยากทำเสียง AI อ่านบทความ แต่ฟังแล้วเหมือนหุ่นยนต์
เคยไหม — ประชุมเสร็จแล้วไม่มีใครจำได้ว่าใครพูดอะไร ต้องย้อนฟังทั้งชั่วโมง หรืออยากทำพอดแคสต์ AI แต่เสียงออกมาแข็งๆ ไม่มีอารมณ์?
Microsoft เพิ่งเปิดตัว VibeVoice — ชุดโมเดล Voice AI แบบ open-source ที่ทำได้ทั้งฟังและพูด ฟรีให้ใช้ภายใต้ MIT license
🎯 ทำอะไรได้บ้าง:
- ถอดเสียงยาว 60 นาทีรวดในรอบเดียว — แยกคนพูดได้ ใส่ timestamp ให้ รองรับ 50+ ภาษา
- สร้างเสียง AI พูดได้ยาว 90 นาที สลับผู้พูดได้ 4 คน ฟังเป็นธรรมชาติเหมือนคนคุยกันจริง
- โหมด Streaming ตอบสนองแค่ 0.3 วินาที เหมาะทำแชทบอทเสียงหรือผู้ช่วย AI แบบเรียลไทม์
ลองนึกภาพแบบนี้ — คุณประชุมออนไลน์ 1 ชั่วโมง กดปุ่มเดียว AI ถอดเสียงให้หมด แยกว่าคนไหนพูดอะไร พร้อมสรุปประเด็นสำคัญ หรือจะสร้างพอดแคสต์ AI ที่มีคนคุยกัน 4 คน เสียงฟังเป็นธรรมชาติ ไม่ใช่หุ่นยนต์อ่านตามสคริปต์
เทคนิคเบื้องหลังใช้ตัวแปลงเสียงที่ทำงานเร็วมาก ร่วมกับ AI สร้างภาษาขนาดใหญ่ ผลลัพธ์คือเสียงที่เข้าใจบริบท รู้จังหวะหยุด รู้น้ำเสียง
นี่ไม่ใช่แค่ demo — โค้ดเปิดให้ใช้ฟรี โมเดลดาวน์โหลดได้จาก Hugging Face นักพัฒนาเอาไปต่อยอดได้เลย ถ้าคุณทำแอปที่เกี่ยวกับเสียง นี่คือของขวัญจาก Microsoft
📄 แหล่งข่าว
github-trending