🎙️ Google ปล่อย Gemini Flash TTS — สั่งให้ AI พูดได้เหมือนกำกับนักแสดง
ถ้าคุณเคยใช้ระบบอ่านข้อความอัตโนมัติแล้วรู้สึกว่า... มันฟังเหมือนหุ่นยนต์อ่านหนังสือ?
— เสียงเรียบๆ ไม่มีอารมณ์
— พูดทุกประโยคเหมือนกันหมด
— อยากให้มันพูด "แบบคนจริงๆ" แต่ปรับอะไรไม่ได้
ลองนึกภาพว่าคุณเป็นผู้กำกับหนัง นั่งอยู่หลังกล้อง แล้วสั่งนักแสดงได้ว่า — "ตรงนี้พูดเบาๆ หน่อย" "ตรงนี้เร่งจังหวะ" "ใส่สำเนียงลอนดอนให้หน่อย" — แล้วนักแสดงทำตามได้ทันที
นั่นคือสิ่งที่ Gemini 3.1 Flash TTS ทำได้
Google เพิ่งเปิดตัวโมเดลเสียงพูดตัวใหม่วันนี้ ที่ทำงานผ่าน Gemini API ปกติ แต่มีความพิเศษตรงที่ — คุณสั่งมันได้ด้วยข้อความธรรมชาติ เหมือนเขียนบทให้นักแสดง
ไม่ใช่แค่บอกว่า "อ่านข้อความนี้" แต่คุณเขียนคำสั่งแบบ "กำกับการแสดง" ได้เลย เช่น กำหนดบุคลิกเสียง น้ำเสียงอบอุ่น จังหวะการพูด แม้แต่สำเนียงท้องถิ่น
🎯 จุดเด่นที่น่าสนใจ:
— สั่งด้วยข้อความธรรมดา ไม่ต้องเขียนโค้ดซับซ้อน
— เปลี่ยนสำเนียงได้ เช่น ลอนดอน นิวคาสเซิล เอ็กซิเตอร์
— ทำบทสนทนาหลายตัวละครได้ แต่ละคนเสียงไม่เหมือนกัน
— ใส่อารมณ์ได้ เช่น "ยิ้มในเสียง" หรือ "พูดช้าลงตอนจบ"
— ใช้ผ่าน Gemini API มาตรฐาน (model ID: gemini-3.1-flash-tts-preview)
เปรียบเทียบง่ายๆ — ระบบเสียง AI เดิมเหมือนเครื่องอ่านข่าวอัตโนมัติ แต่ตัวนี้เหมือนมีนักพากย์มืออาชีพที่รับคำสั่งได้ทุกรายละเอียด
ลองนึกภาพ:
— ทำพอดแคสต์ที่มีตัวละครหลายคน แต่ละคนมีบุคลิกเสียงต่างกัน
— ทำระบบอ่านหนังสือที่ปรับน้ำเสียงตามเนื้อเรื่อง
— สร้างเสียงพากย์วิดีโอที่ฟังเป็นธรรมชาติ
ยุคที่ AI พูดเหมือนหุ่นยนต์กำลังจะจบลง — ยุคที่ AI พูดเหมือนคนจริงๆ เพิ่งเริ่มต้น
📄 แหล่งข่าว
simon-willison