Главная страница Новости Microsoft выпустил, испугался и перевыпустил: история VibeVoice — голосового ИИ, который слишком хорошо умеет клонировать голоса

Microsoft выпустил, испугался и перевыпустил: история VibeVoice — голосового ИИ, который слишком хорошо умеет клонировать голоса

02.04.2026

Артём

Шеф-редактор

Статьи автора

Microsoft выпустил, испугался и перевыпустил: история VibeVoice — голосового ИИ, который слишком хорошо умеет клонировать голоса

Инструмент работает локально на 7 ГБ VRAM, клонирует любой голос по 10 секундам и распространяется на MIT-лицензии — т.е. юридически почти без ограничений.

Содержание статьи

Что умеет VibeVoice
История исчезновений и возвращений
Проблема комплаенса для маркетологов

VibeVoice — open-source проект Microsoft Research для синтеза речи (TTS), распознавания речи (ASR) и клонирования голосов, работающий полностью локально без облака. Распространяется на MIT-лицензии, то есть может быть использован бесплатно в коммерческих целях — именно это и делает его потенциальной головной болью с точки зрения комплаенса.

Что умеет VibeVoice

Ключевые технические характеристики:

Клонирование голоса по аудиосэмплу всего от 10 секунд — zero-shot, без дообучения модели
Генерация аудио до 90 минут за один проход с поддержкой до 4 спикеров
Офлайн-работа на потребительских GPU (≈7 ГБ VRAM для модели 1.5B)
Задержка TTS в режиме реального времени — около 300 миллисекунд
Нативная поддержка английского и китайского, экспериментальная — других языков

История исчезновений и возвращений

Путь VibeVoice в открытом доступе оказался турбулентным. После первого релиза репозиторий внезапно исчез с GitHub в сентябре 2025 года с официальным объяснением: «Мы обнаружили случаи использования инструмента в целях, противоречащих заявленным намерениям». После доработки (добавление водяных знаков, safety-контролей) код был выпущен повторно.

Сообщество разработчиков отреагировало скептически: «MIT-лицензия означает, что кота обратно в мешок не засунешь» — коммьюнити успело сохранить веса модели до удаления.

Проблема комплаенса для маркетологов

Именно сочетание нулевого барьера использования + MIT-лицензия + голосовое клонирование создает юридические проблемы. На уровне карточки модели Hugging Face Microsoft сам перечисляет запрещенные сценарии:

Клонирование голоса реального человека без его явного задокументированного согласия
Создание дипфейк-аудио для рекламы, социальной инженерии или шантажа
Генерация контента, вводящего в заблуждение аудиторию

Однако MIT-лицензия не содержит технических механизмов принудительного исполнения этих ограничений. В ЕС это прямо нарушает AI Act (статьи о манипулятивных практиках); в США — потенциально пересекается с законами штатов о защите голосового подобия (right of publicity).

Чо, как вам статья?

Материалы по теме

Прыжки по аллигаторам в личке: TikTok запустил эмодзи-игры внутри личных сообщений

Новости

Чтобы начать, достаточно отправить любой эмодзи и нажать на него. Игрок должен перепрыгивать через реку по спинам анимированных аллигаторов, собирая бонусы.

Артём

02.04.2026

Meta докручивает рекламный ИИ: меньше compute, более релевантные показы и рост эффективности

Новости

Новая версия Adaptive Ranking Model снижает вычислительную нагрузку при отборе объявлений, одновременно повышая релевантность показов и помогая рекламодателям получать лучший ROAS.

Артём

01.04.2026

115