Главная страница Новости Microsoft выпустил, испугался и перевыпустил: история VibeVoice — голосового ИИ, который слишком хорошо умеет клонировать голоса
Microsoft выпустил, испугался и перевыпустил: история VibeVoice — голосового ИИ, который слишком хорошо умеет клонировать голоса

Microsoft выпустил, испугался и перевыпустил: история VibeVoice — голосового ИИ, который слишком хорошо умеет клонировать голоса

Инструмент работает локально на 7 ГБ VRAM, клонирует любой голос по 10 секундам и распространяется на MIT-лицензии — т.е. юридически почти без ограничений.

Содержание статьи

VibeVoice — open-source проект Microsoft Research для синтеза речи (TTS), распознавания речи (ASR) и клонирования голосов, работающий полностью локально без облака. Распространяется на MIT-лицензии, то есть может быть использован бесплатно в коммерческих целях — именно это и делает его потенциальной головной болью с точки зрения комплаенса.

Что умеет VibeVoice

Ключевые технические характеристики:

  • Клонирование голоса по аудиосэмплу всего от 10 секунд — zero-shot, без дообучения модели
  • Генерация аудио до 90 минут за один проход с поддержкой до 4 спикеров
  • Офлайн-работа на потребительских GPU (≈7 ГБ VRAM для модели 1.5B)
  • Задержка TTS в режиме реального времени — около 300 миллисекунд
  • Нативная поддержка английского и китайского, экспериментальная — других языков

История исчезновений и возвращений

Путь VibeVoice в открытом доступе оказался турбулентным. После первого релиза репозиторий внезапно исчез с GitHub в сентябре 2025 года с официальным объяснением: «Мы обнаружили случаи использования инструмента в целях, противоречащих заявленным намерениям». После доработки (добавление водяных знаков, safety-контролей) код был выпущен повторно.

Сообщество разработчиков отреагировало скептически: «MIT-лицензия означает, что кота обратно в мешок не засунешь» — коммьюнити успело сохранить веса модели до удаления.

Проблема комплаенса для маркетологов

Именно сочетание нулевого барьера использования + MIT-лицензия + голосовое клонирование создает юридические проблемы. На уровне карточки модели Hugging Face Microsoft сам перечисляет запрещенные сценарии:

  • Клонирование голоса реального человека без его явного задокументированного согласия
  • Создание дипфейк-аудио для рекламы, социальной инженерии или шантажа
  • Генерация контента, вводящего в заблуждение аудиторию

Однако MIT-лицензия не содержит технических механизмов принудительного исполнения этих ограничений. В ЕС это прямо нарушает AI Act (статьи о манипулятивных практиках); в США — потенциально пересекается с законами штатов о защите голосового подобия (right of publicity).

Чо, как вам статья?

Материалы по теме

Amazon тихо забрал деньги у аффилиатов — и большинство не сразу это заметили
Amazon Associates без объявлений снизил комиссии в ряде категорий с 10% до 4–5%, отменил бонусы за объемы продаж и ограничил доступ к статистике — аффилиаты в шоке.
Суперкомпьютер за $4000 на подоконнике: AMD хочет сделать локальный ИИ доступным — и это почти получилось
AMD бросает вызов Nvidia: новый чип Ryzen AI Max+ Pro 495 заявлен как первый x86-процессор для 300-миллиардных AI-моделей, а мини-ПК Ryzen AI Halo за $4000 конкурирует с Nvidia DGX Spark — и работает на Windows.
Reddit становится серьезной рекламной платформой — и у него теперь есть цифры, чтобы это доказать
Reddit обновил рекламные инструменты: Max-кампании снижают CPA на 15%, App Event Optimization улучшает результаты на 22%, а новая атрибуция объединяет first-party и MMP-данные в одном интерфейсе.

Вставить свои 5 копеек:

Awesome image
Awesome image
Awesome image Awesome image Awesome image Awesome image
Awesome image