news 2026-04-15 · simon-willison

🎙️ Google ปล่อย Gemini Flash TTS — สั่งให้ AI พูดได้เหมือนกำกับนักแสดง

ถ้าคุณเคยใช้ระบบอ่านข้อความอัตโนมัติแล้วรู้สึกว่า... มันฟังเหมือนหุ่นยนต์อ่านหนังสือ?

— เสียงเรียบๆ ไม่มีอารมณ์

— พูดทุกประโยคเหมือนกันหมด

— อยากให้มันพูด "แบบคนจริงๆ" แต่ปรับอะไรไม่ได้

ลองนึกภาพว่าคุณเป็นผู้กำกับหนัง นั่งอยู่หลังกล้อง แล้วสั่งนักแสดงได้ว่า — "ตรงนี้พูดเบาๆ หน่อย" "ตรงนี้เร่งจังหวะ" "ใส่สำเนียงลอนดอนให้หน่อย" — แล้วนักแสดงทำตามได้ทันที

นั่นคือสิ่งที่ Gemini 3.1 Flash TTS ทำได้

Google เพิ่งเปิดตัวโมเดลเสียงพูดตัวใหม่วันนี้ ที่ทำงานผ่าน Gemini API ปกติ แต่มีความพิเศษตรงที่ — คุณสั่งมันได้ด้วยข้อความธรรมชาติ เหมือนเขียนบทให้นักแสดง

ไม่ใช่แค่บอกว่า "อ่านข้อความนี้" แต่คุณเขียนคำสั่งแบบ "กำกับการแสดง" ได้เลย เช่น กำหนดบุคลิกเสียง น้ำเสียงอบอุ่น จังหวะการพูด แม้แต่สำเนียงท้องถิ่น

🎯 จุดเด่นที่น่าสนใจ:

— สั่งด้วยข้อความธรรมดา ไม่ต้องเขียนโค้ดซับซ้อน

— เปลี่ยนสำเนียงได้ เช่น ลอนดอน นิวคาสเซิล เอ็กซิเตอร์

— ทำบทสนทนาหลายตัวละครได้ แต่ละคนเสียงไม่เหมือนกัน

— ใส่อารมณ์ได้ เช่น "ยิ้มในเสียง" หรือ "พูดช้าลงตอนจบ"

— ใช้ผ่าน Gemini API มาตรฐาน (model ID: gemini-3.1-flash-tts-preview)

เปรียบเทียบง่ายๆ — ระบบเสียง AI เดิมเหมือนเครื่องอ่านข่าวอัตโนมัติ แต่ตัวนี้เหมือนมีนักพากย์มืออาชีพที่รับคำสั่งได้ทุกรายละเอียด

ลองนึกภาพ:

— ทำพอดแคสต์ที่มีตัวละครหลายคน แต่ละคนมีบุคลิกเสียงต่างกัน

— ทำระบบอ่านหนังสือที่ปรับน้ำเสียงตามเนื้อเรื่อง

— สร้างเสียงพากย์วิดีโอที่ฟังเป็นธรรมชาติ

ยุคที่ AI พูดเหมือนหุ่นยนต์กำลังจะจบลง — ยุคที่ AI พูดเหมือนคนจริงๆ เพิ่งเริ่มต้น

📄 แหล่งข่าว

simon-willison

← ก่อนหน้า

🎨 ทดสอบ Prompt สุดแปลก — AI วาดรูปตัวไหนเก่งสุด?

🔍 AI อ่านตัวอักษรได้แค่ไม่กี่ภาษา — ที่เหลืออีกร้