Grok клонирует голоса пользователей: xAI добавила синтез речи с двухэтапной верификацией
Вам больше не нужно тратить часы на запись озвучки: Grok клонирует ваш голос по нескольким секундам аудио.
Осознавая риски злоупотреблений, xAI реализовала двухэтапный процесс верификации перед созданием голосовой модели:
- Подтверждение намерения и присутствия: пользователь зачитывает специальную верификационную фразу вслух — движок Speech-to-Text (STT) расшифровывает ее и сверяет с оригиналом в режиме реального времени
- Биометрическое сравнение: система вычисляет speaker embeddings (уникальные голосовые «отпечатки») из верификационного клипа и основной записи, чтобы убедиться, что оба образца принадлежат одному и тому же человеку
Логика защиты: голосовую модель нельзя создать на основе украденных записей — система требует, чтобы человек сам произнес текст и тем самым дал явное согласие.
Сценарии использования и расширение каталога
Помимо кастомных голосов, xAI расширила встроенный каталог до более 80 голосов на 28 языках. Официально заявленные сценарии применения персональных голосовых моделей:
- Кастомные боты клиентской поддержки с голосом реального сотрудника
- Нарратив контента (подкасты, видео, аудиокниги) без необходимости записывать каждый материал
- Функции доступности (accessibility) для людей с нарушениями речи
- Персонализированные голосовые интерфейсы в приложениях
Насколько надежна защита
Ключевой вопрос, на который xAI пока не ответила: что происходит с голосовыми записями после ухода сотрудника из компании?
Верификация через произнесение специальной фразы не является пуленепробиваемой: она подтверждает, что человек однократно дал согласие, но не контролирует дальнейшее использование голосовой модели. Журналисты SMT также отмечают, что любой инструмент клонирования голоса неизбежно будет использоваться для создания дипфейков — принципиального нового риска здесь нет, но масштаб и доступность возрастают.
Для маркетологов и создателей контента функция клонирования голоса в Grok интересна прежде всего как инструмент масштабирования производства аудиоконтента. Если раньше выпуск 50 подкастных эпизодов с вашим голосом требовал записи каждого, теперь достаточно обучить модель один раз — и генерировать аудио текстом. Нюанс: прежде чем использовать это в коммерческих целях, стоит дождаться разъяснений от xAI о правах на голосовую модель и условиях хранения биометрических данных. Данные о голосе — это биометрия, и в ряде юрисдикций (ЕС, Иллинойс) работа с ними без явного пользовательского согласия и соответствующей документации грозит серьезными штрафами.
Материалы по теме
Вставить свои 5 копеек: