Microsoft выпустил, испугался и перевыпустил: история VibeVoice — голосового ИИ, который слишком хорошо умеет клонировать голоса
Инструмент работает локально на 7 ГБ VRAM, клонирует любой голос по 10 секундам и распространяется на MIT-лицензии — т.е. юридически почти без ограничений.
VibeVoice — open-source проект Microsoft Research для синтеза речи (TTS), распознавания речи (ASR) и клонирования голосов, работающий полностью локально без облака. Распространяется на MIT-лицензии, то есть может быть использован бесплатно в коммерческих целях — именно это и делает его потенциальной головной болью с точки зрения комплаенса.
Что умеет VibeVoice
Ключевые технические характеристики:
- Клонирование голоса по аудиосэмплу всего от 10 секунд — zero-shot, без дообучения модели
- Генерация аудио до 90 минут за один проход с поддержкой до 4 спикеров
- Офлайн-работа на потребительских GPU (≈7 ГБ VRAM для модели 1.5B)
- Задержка TTS в режиме реального времени — около 300 миллисекунд
- Нативная поддержка английского и китайского, экспериментальная — других языков
История исчезновений и возвращений
Путь VibeVoice в открытом доступе оказался турбулентным. После первого релиза репозиторий внезапно исчез с GitHub в сентябре 2025 года с официальным объяснением: «Мы обнаружили случаи использования инструмента в целях, противоречащих заявленным намерениям». После доработки (добавление водяных знаков, safety-контролей) код был выпущен повторно.
Сообщество разработчиков отреагировало скептически: «MIT-лицензия означает, что кота обратно в мешок не засунешь» — коммьюнити успело сохранить веса модели до удаления.
Проблема комплаенса для маркетологов
Именно сочетание нулевого барьера использования + MIT-лицензия + голосовое клонирование создает юридические проблемы. На уровне карточки модели Hugging Face Microsoft сам перечисляет запрещенные сценарии:
- Клонирование голоса реального человека без его явного задокументированного согласия
- Создание дипфейк-аудио для рекламы, социальной инженерии или шантажа
- Генерация контента, вводящего в заблуждение аудиторию
Однако MIT-лицензия не содержит технических механизмов принудительного исполнения этих ограничений. В ЕС это прямо нарушает AI Act (статьи о манипулятивных практиках); в США — потенциально пересекается с законами штатов о защите голосового подобия (right of publicity).
Материалы по теме
Вставить свои 5 копеек: