Google выпустили SOTA модель для генерации речи

Google выпустили SOTA модель для генерации речи

Вышла Gemini 3.1 Flash TTS – новое поколение голосового движка в экосистеме Gemini.

Киллер-фича: суперточный контроль интонации. Возможно задавать стиль, темп, ударения и «атмосферу» речи через теги в тексте, почти как в режиссерских заметках для голоса.

Плюс модель может работать с многоголосием с сохранением стиля голоса каждого персонажа, так что ее можно использовать для озвучки целых фильмов.

Плюс скорость. По сравнению с более ранними TTS ускорение первого токена и общей задержки произошло на десятки процентов. Это уже близко к полноценным онлайн прод-сценариям.

Озвучка, переводы, ИИ-подкасты и голосовые агенты скоро выйдут на совсем новый уровень

blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/

Google выпустили SOTA модель для генерации речи

Чо, как вам статья?

Материалы по теме

🔥Claude ввёл регистрацию по паспорту Проверку могут провести в любой момент, если вас посчитают ребёнком или найдут включенный VPN.Claude официально заблокирован для России, поэтому за методы обхода придётся показать документы. Без американского ID…

Прикольный апдейт по ботам 🤖Теперь создавать собственных ботов можно в 2 клика.В целом и ранее это было не так сложно, особенно после появления Mini App-версии BotFather, но теперь это буквально занимает 2 клика.Изначальная задумка была в создании…

🏭 «Россети» оценили в 4,7 млрд рублей ущерб от нелегального майнинга за 2025 год, заявил глава комитета Госдумы по энергетике Николай Шульгинов. Показатель превышает значения предыдущих пяти лет вместе взятых. При этом чиновник отметил, что вклад от…