Главная страница TG News Как боты читают страницу сайта
DrMax SEO
02.07.2026
DrMax SEO

Как боты читают страницу сайта

💡 Как боты читают страницу сайта

Googlebot с февраля 2026 читает только первые 2 МБ HTML-документа (ранее было 15 МБ), а всё остальное отбрасывает. В этот лимит входит HTML, вместе с инлайновыми стилями и инлайновыми скриптами (подгружаемые картинки/скрипты/стили сюда не входят).

Таким образом, если в начале документа стоят mega-menu, повторяющиеся ссылки, cookie-баннер, длинный header, inline-код и служебные блоки, они читаются раньше основного текста. Важный контент, schema, ссылки и даже куски тела страницы могут оказаться за пределом первых 2 МБ.

Еще хуже дело обстоит с LLM (кроме Gemini — там один и тот же бот и для LLM и для основного поиска).

LLM тратят токены контекста. Если страница раздута шаблонными блоками, модель тратит окно чтения не на ответ, а на навигацию, футер и обвязку.

Вот интересное исследование, откуда видно, как навигация может съедать “LLM reading budget”. На примере ChatGPT Deep Research показано, что система не просто читает страницу, а извлекает все HTML-ссылки, строит из них рабочий граф и использует внутренние ссылки для переходов без нового поиска. При этом чем больше навигации на странице, тем меньше этого бюджета остается для контента.

По данным исследования окно чтения фиксировано примерно в 5700 символов (что вообще ни о чем). Таким образом, для LLM бота навигация (a href ссылки) конкурирует с контентом за первые байты HTML и за первые токены контекста.

Если в цифрах, то ChatGPT извлекает 1 500–3 000 токенов контента со страницы для принятия решения о цитировании. При этом:

➡️Типичная HTML-страница весит 50 000–200 000 токенов в сыром виде

➡️Реальный полезный контент занимает 500–2000 токенов

➡️96% загружаемых токенов — шум: скрипты, навигация, футер, реклама, CSS

Так что, страница не будет цитироваться не из за плохого контента, а из за того, что LLM просто не доходит до самого контента.

Стандартные приемы преодоления это напасти понятны:

1. Пихаем главный ответ в первый абзац после H1.

2. Урезаем header на ключевых SEO-страницах (в том числе и mega-menu, которое тратит бюджет до основного текста). В идеале мегаменю с сотнями ссылок нужно перенести в отдельный <nav aria-label=»site-nav»> в конец <body>

3. Выносим второстепенные блоки ниже <article>.

4. Зачищаем inline CSS и JS из тела страницы.

5. Еще раз проверяем семантическую разметку: <main> или <article> для сути, <nav> для навигации, <aside> для второстепенного хлама.

Проверяем сырой HTML, а не только рендер. Смотрим размер документа, порядок блоков и объём кода до начала основного текста.

И изучите вопрос, как LLM реендерят страницу (например Клавдия вообще не обрабатывает скрипты

🔔 Узнайте как поддержать развитие канала вот здесь.

📔 DrMax: Доказательное SEO 2026 + Введение в Промптоведение

📚 25 PRO промптов + Pocketbook DrMax: Промптоведение для SEO-стратегов 2026

❄️Всяческая SEO халява

#DrMax #SEO #AIOverviews

Чо, как вам статья?

Материалы по теме

Binance так и не получил MiCA-лицензию в ЕС к 1 июля.По факту…
Binance так и не получил MiCA-лицензию в ЕС к 1 июля.По факту на сейчас: лицензии нет, новые регистрации и часть сервисов для EU-клиентов должны быть ограничены.Имейте в виду 🤝🥷 ADS NINJA👉 MDG Agency — топовые агенты от
Как гуглокарты заспамили гемблой под Африку
Как гуглокарты заспамили гемблой под Африку Каждый бренд потихоньку подкручивает отзывы на Google Maps или Яндекс.Картах. Иногда удается еще впихнуть ключи вроде «бонус при регистрации» (пример — скрин 1). Но сегодня речь о другом. Есть ГЕО, где…
с 1 июля ЕС закрыл de minimis. все, кто eвропе, влетят на денежку
с 1 июля ЕС закрыл de minimis. все, кто eвропе, влетят на денежку. бренды и мы с вами, простые смертные.раньше посылки до €150 из не-EU стран шли без таможни. теперь - €3 за каждую позицию в заказе. подробно тут.❏ заказал 3 разных SKU - плати €9…

Вставить свои 5 копеек:

Awesome image
Awesome image Awesome image Awesome image Awesome image
Awesome image