Масштабное исследование логов: как OpenAI пылесосит интернет после релиза GPT-5
С момента выхода GPT-5 алгоритмы OpenAI начали сканировать сайты в три раза активнее. Масштабное исследование логов показало исторический сдвиг: теперь нейросеть чаще заходит на страницы за актуальной информацией для ответов в реальном времени, чем для пополнения своей базы
Об этом свидетельствуют результаты совместного исследования платформы Botify и консалтингового агентства Nectiv, которые проанализировали более 7 миллиардов записей в серверных логах с ноября 2024 по март 2026 года.
Исторический сдвиг: поиск важнее обучения
Главный вывод исследования — структурное изменение в том, как именно искусственный интеллект взаимодействует с открытым интернетом.
У OpenAI есть два основных автоматических бота:
- GPTBot — сканирует сайты, чтобы собирать данные для долгосрочного обучения будущих моделей.
- OAI-SearchBot — извлекает информацию с сайтов в реальном времени, когда пользователь просит ChatGPT найти что-то в интернете.
До выхода GPT-5 бот для обучения был активнее поискового (на один заход поисковика приходилось 1,05 захода для обучения). После релиза ситуация перевернулась: OAI-SearchBot показал взрывной рост на 350% (+2,2 млрд событий в базе Botify), обогнав GPTBot. Теперь OpenAI официально тратит больше ресурсов на поиск актуальной информации в моменте, чем на фоновое обучение.
Кого сканируют активнее всего
Рост поисковой активности распределился по отраслям неравномерно. Больше всего внимания OAI-SearchBot уделяет:
- Медицина и здравоохранение: рост активности на 740%
- СМИ и издательства: рост на 702% (при этом разрыв между поисковым и обучающим ботом здесь самый колоссальный — 256% в пользу поиска)
- Маркетплейсы, софт и ритейл: рост от 190% до 216%
Меньше всего изменился интерес к туристическим сайтам (рост всего на 30%). При этом в сферах здравоохранения и ритейла OpenAI по-прежнему предпочитает забирать данные для обучения, а не для поиска в реальном времени.
Сравнение с Google
Несмотря на троекратный рост, масштабы OpenAI все еще не сопоставимы с традиционными поисковиками. По данным за последние 30 дней исследования, Googlebot сгенерировал 18,2 миллиарда событий, тогда как все боты OpenAI вместе взятые — лишь 887 миллионов. Таким образом, объем сканирования OpenAI составляет всего около 4% от объемов Google.
Для SEO-специалистов и владельцев контентных проектов данные Botify подтверждают важнейший тезис: искусственный интеллект переходит от концепции «знать все» к концепции «уметь найти все». Резкий скачок активности OAI-SearchBot означает, что ChatGPT все чаще формирует ответы на основе свежего парсинга сайтов, а не полагается на заученные веса модели. Если вы хотите попадать в ответы ChatGPT, блокировать OAI-SearchBot в файле robots.txt — это выстрел себе в ногу. Особенно это критично для новостных изданий и медицинских порталов, где нейросеть теперь ищет ответы в 7–8 раз чаще, чем год назад.
Материалы по теме
Вставить свои 5 копеек: