Главная страница Новости Grok клонирует голоса пользователей: xAI добавила синтез речи с двухэтапной верификацией
Grok клонирует голоса пользователей: xAI добавила синтез речи с двухэтапной верификацией

Grok клонирует голоса пользователей: xAI добавила синтез речи с двухэтапной верификацией

Вам больше не нужно тратить часы на запись озвучки: Grok клонирует ваш голос по нескольким секундам аудио.

Содержание статьи

Осознавая риски злоупотреблений, xAI реализовала двухэтапный процесс верификации перед созданием голосовой модели:

  1. Подтверждение намерения и присутствия: пользователь зачитывает специальную верификационную фразу вслух — движок Speech-to-Text (STT) расшифровывает ее и сверяет с оригиналом в режиме реального времени
  2. Биометрическое сравнение: система вычисляет speaker embeddings (уникальные голосовые «отпечатки») из верификационного клипа и основной записи, чтобы убедиться, что оба образца принадлежат одному и тому же человеку

Логика защиты: голосовую модель нельзя создать на основе украденных записей — система требует, чтобы человек сам произнес текст и тем самым дал явное согласие.

Сценарии использования и расширение каталога

Помимо кастомных голосов, xAI расширила встроенный каталог до более 80 голосов на 28 языках. Официально заявленные сценарии применения персональных голосовых моделей:

  • Кастомные боты клиентской поддержки с голосом реального сотрудника
  • Нарратив контента (подкасты, видео, аудиокниги) без необходимости записывать каждый материал
  • Функции доступности (accessibility) для людей с нарушениями речи
  • Персонализированные голосовые интерфейсы в приложениях

Насколько надежна защита

Ключевой вопрос, на который xAI пока не ответила: что происходит с голосовыми записями после ухода сотрудника из компании?

Верификация через произнесение специальной фразы не является пуленепробиваемой: она подтверждает, что человек однократно дал согласие, но не контролирует дальнейшее использование голосовой модели. Журналисты SMT также отмечают, что любой инструмент клонирования голоса неизбежно будет использоваться для создания дипфейков — принципиального нового риска здесь нет, но масштаб и доступность возрастают.

Awesome image

Для маркетологов и создателей контента функция клонирования голоса в Grok интересна прежде всего как инструмент масштабирования производства аудиоконтента. Если раньше выпуск 50 подкастных эпизодов с вашим голосом требовал записи каждого, теперь достаточно обучить модель один раз — и генерировать аудио текстом. Нюанс: прежде чем использовать это в коммерческих целях, стоит дождаться разъяснений от xAI о правах на голосовую модель и условиях хранения биометрических данных. Данные о голосе — это биометрия, и в ряде юрисдикций (ЕС, Иллинойс) работа с ними без явного пользовательского согласия и соответствующей документации грозит серьезными штрафами.

Чо, как вам статья?

Материалы по теме

Конец эпохи ключевых слов: почему SEO-оптимизация под ключевые слова больше не работает так, как раньше
Тридцать лет SEO строился на ключевых словах. Пользователь искал «ресторан для пяти человек с детьми, без мяса и недорого», но вводил «рестораны Нью-Йорк». Руководитель поиска Google объяснила, как AI Mode изменил SEO.
BTC пробил $80 000 впервые за 3 месяца: BlackRock, Fear & Greed и конец затяжной коррекции
Три месяца биткоин не мог пробить $80 000 — после того, как в октябре 2025 года монета установила исторический максимум на уровне $126 000, коррекция уронила цену почти на 40%. 4 мая психологический барьер наконец сдался.
Конец серой зоны: Индия создала единый регулятор OGAI и полностью запретила онлайн-гемблинг
Индия превратила один из крупнейших мировых рынков онлайн-гемблинга в территорию с полным запретом ставок за одну ночь.

Вставить свои 5 копеек:

Awesome image
Awesome image
Awesome image Awesome image Awesome image Awesome image