Главная страница Новости Microsoft выпустил, испугался и перевыпустил: история VibeVoice — голосового ИИ, который слишком хорошо умеет клонировать голоса
Microsoft выпустил, испугался и перевыпустил: история VibeVoice — голосового ИИ, который слишком хорошо умеет клонировать голоса

Microsoft выпустил, испугался и перевыпустил: история VibeVoice — голосового ИИ, который слишком хорошо умеет клонировать голоса

Инструмент работает локально на 7 ГБ VRAM, клонирует любой голос по 10 секундам и распространяется на MIT-лицензии — т.е. юридически почти без ограничений.

Содержание статьи

VibeVoice — open-source проект Microsoft Research для синтеза речи (TTS), распознавания речи (ASR) и клонирования голосов, работающий полностью локально без облака. Распространяется на MIT-лицензии, то есть может быть использован бесплатно в коммерческих целях — именно это и делает его потенциальной головной болью с точки зрения комплаенса.

Что умеет VibeVoice

Ключевые технические характеристики:

  • Клонирование голоса по аудиосэмплу всего от 10 секунд — zero-shot, без дообучения модели
  • Генерация аудио до 90 минут за один проход с поддержкой до 4 спикеров
  • Офлайн-работа на потребительских GPU (≈7 ГБ VRAM для модели 1.5B)
  • Задержка TTS в режиме реального времени — около 300 миллисекунд
  • Нативная поддержка английского и китайского, экспериментальная — других языков

История исчезновений и возвращений

Путь VibeVoice в открытом доступе оказался турбулентным. После первого релиза репозиторий внезапно исчез с GitHub в сентябре 2025 года с официальным объяснением: «Мы обнаружили случаи использования инструмента в целях, противоречащих заявленным намерениям». После доработки (добавление водяных знаков, safety-контролей) код был выпущен повторно.

Сообщество разработчиков отреагировало скептически: «MIT-лицензия означает, что кота обратно в мешок не засунешь» — коммьюнити успело сохранить веса модели до удаления.

Проблема комплаенса для маркетологов

Именно сочетание нулевого барьера использования + MIT-лицензия + голосовое клонирование создает юридические проблемы. На уровне карточки модели Hugging Face Microsoft сам перечисляет запрещенные сценарии:

  • Клонирование голоса реального человека без его явного задокументированного согласия
  • Создание дипфейк-аудио для рекламы, социальной инженерии или шантажа
  • Генерация контента, вводящего в заблуждение аудиторию

Однако MIT-лицензия не содержит технических механизмов принудительного исполнения этих ограничений. В ЕС это прямо нарушает AI Act (статьи о манипулятивных практиках); в США — потенциально пересекается с законами штатов о защите голосового подобия (right of publicity).

Чо, как вам статья?

Материалы по теме

Прыжки по аллигаторам в личке: TikTok запустил эмодзи-игры внутри личных сообщений
Чтобы начать, достаточно отправить любой эмодзи и нажать на него. Игрок должен перепрыгивать через реку по спинам анимированных аллигаторов, собирая бонусы.
Meta докручивает рекламный ИИ: меньше compute, более релевантные показы и рост эффективности
Новая версия Adaptive Ranking Model снижает вычислительную нагрузку при отборе объявлений, одновременно повышая релевантность показов и помогая рекламодателям получать лучший ROAS.
Хакеры Lapsus$ добрались до подрядчиков OpenAI и Anthropic через опенсорс-библиотеку LiteLLM
Популярный рекрутинговый ИИ-стартап Mercor (нанимает специалистов для обучения моделей OpenAI и Anthropic) стал жертвой атаки на цепочку поставок.

Вставить свои 5 копеек:

Awesome image
Awesome image
Awesome image Awesome image Awesome image Awesome image