Google가 2026년 4월 15일 공개한 Gemini 3.1 Flash TTS는 단순한 "읽어주는" 엔진을 넘어, 개발자가 문장 중간에 감정·호흡·속도를 직접 지시할 수 있는 차세대 음성 합성 모델입니다. Artificial Analysis의 TTS 블라인드 선호도 리더보드에서 Elo 1211점으로 전체 2위를 차지했고, OpenAI와 Amazon Polly 등 주요 상용 모델을 모두 앞섰습니다. 이번 글에서는 어떤 점이 달라졌고, 개발자가 실제로 어떻게 활용해야 하는지 정리합니다.1. 무엇이 새로워졌나Gemini 3.1 Flash TTS의 핵심은 크게 세 가지입니다. 첫째, 오디오 태그(audio tag)입니다. 기존 TTS가 "프롬프트 → 고정된 톤의 음성"을 만들었다면, 이번 모델은 대사 안에 ..