Как GPT "видит" поиск: Техническая механикаGPT не браузит, не рендерит HTML и…
Как GPT "видит" поиск: Техническая механика
GPT не браузит, не рендерит HTML и не заглатывает документы целиком.
Он работает через ограниченную систему ретривала "скользящего окна" (sliding window) через Assistants API.
1. Начальный пэйлоад (Grounding)
GPT получает структурированный объект, а не веб-страницу.
— Данные: Тайтл, URL, Метаданные (Дата/Скор).
— Сниппет: Короткий блок текста (1–3 предложения).
— `ID`: Внутренняя ссылка (например, turn0search0).
2. Функции навигации
— `open(line_number)`: Тянет текстовое окно, центрированное вокруг конкретной строки. Это имитирует "скроллинг", но вытаскивает только ограниченный кусок плейнтекста/маркдауна.
— `click()`: Переходит по ссылке, чтобы сгенерить свежий сниппет по правилам оригинального поиска.
3. Скользящее окно
GPT строит контекст, делая последовательные вызовы open() (например, строка 1, 50, 120).
— Мало контекста: Минимальные отрывки.
— Много контекста: Большие блоки текста/соседние параграфы.
— Жесткие лимиты: Полная реконструкция страницы невозможна из-за фиксированных размеров окна, лимитов скорости тулзы и квот на аутпут.
Резюме: GPT парсит последовательные, оконные куски простого текста.
Он никогда не получает доступ к DOM, CSS или полной структуре сайта.
https://dejan.ai/blog/how-gpt-sees-the-web/
#ChatGPT #Crawling #Rendering
@MikeBlazerX
Но самое "мясо" — в @MikeBlazerPRO
Вставить свои 5 копеек: