От простых ответов к полноценным голосовым агентам: OpenAI переосмысляет архитектуру голосового интерфейса
Голосовой интерфейс перестал быть игрушкой. GPT-Realtime-2, рассуждая на уровне GPT-5, синхронно переводит с 70 языков и расшифровывает речь в реальном времени. OpenAI открыл это через API, предоставив стартапам инфраструктуру для голосового агента корпоративного уровня.
OpenAI выпустил три новые голосовые модели в составе Realtime API, переводя голосовые интерфейсы из режима простых вопрос-ответ в класс инструментов, способных «слушать, рассуждать, переводить, расшифровывать и действовать по мере разговора».
Три новые модели: что умеет каждая
GPT-Realtime-2 — следующее поколение голосовой модели, построенной на базе логики уровня GPT-5. В отличие от предшественника GPT-Realtime-1.5, новая версия создана для обработки сложных, многошаговых запросов — не просто воспроизведение заготовленных ответов, а полноценное рассуждение в режиме диалога. Тарифицируется по потреблению токенов.
GPT-Realtime-Translate — модель синхронного перевода, которая «не отстает от собеседника» в темпе живой речи. Поддерживает более 70 входных языков (языки, которые модель воспринимает) и 13 выходных языков (языки, на которых дает ответ). Тарифицируется поминутно.
GPT-Realtime-Whisper — живая расшифровка речи в текст в момент произношения, без задержки на постобработку. Тарифицируется поминутно.
Кому адресованы обновления
OpenAI напрямую называет целевые отрасли:
- Обслуживание клиентов — голосовые агенты, способные вести сложный диалог и решать нестандартные запросы
- Образование — персонализированные голосовые наставники с возможностью перевода
- Медиа и мероприятия — синхронный перевод для трансляций и конференций
- Платформы для авторов контента — голосовые интерфейсы для взаимодействия с аудиторией
Защита от злоупотреблений
OpenAI признает очевидный риск: голосовые модели такого уровня могут использоваться для создания спама и телефонного мошенничества. В систему встроены триггеры, при срабатывании которых разговор автоматически прерывается, если обнаружено нарушение политики допустимого контента.
Для команд, строящих продукты в области обслуживания клиентов или образования, это обновление закрывает последний технический барьер для голосовых агентов корпоративного уровня. До сих пор главной проблемой голосовых ботов была неспособность обрабатывать нестандартные, многошаговые запросы — именно это закрывает GPT-Realtime-2 с логикой GPT-5. Синхронный перевод с 70 языков открывает отдельное направление: мультиязычные колл-центры без найма носителей языка. Если ваш продукт работает в любой из названных отраслей — сейчас подходящий момент протестировать Realtime API: тарификация поминутно и по токенам позволяет начать с минимальным бюджетом и сразу получить данные о качестве диалога.
Материалы по теме
Вставить свои 5 копеек: