Анализ протокола GoogleApi.ContentWarehouse.V1.Model.ImageData из утечки данных Гугла 2024 года
Анализ протокола GoogleApi.ContentWarehouse.V1.Model.ImageData из утечки данных Гугла 2024 года показывает, как устроен современный поиск по картинкам.
Это не советы из SEO-блогов, а описание многоуровневого процесса, по которому Гугл индексирует, понимает и ранжирует визуал.
Для успеха в поиске по картинкам нужна комплексная стратегия, связывающая он-пейдж контекст, семантику внутри картинки, алгоритмические оценки качества и сигналы ПФ.
Топ-10 инсайтов из схемы ImageData
1. Определение первоисточника: Гугл юзает contentFirstCrawlTime, чтобы определить, когда впервые увидел контент картинки, отдавая приоритет оригиналам.
2. Алгоритмическая эстетика: Модель NIMA (Neural Image Assessment) алгоритмически оценивает картинки по техническому качеству (nimavq — фокус, свет) и эстетической привлекательности (nimaAva — композиция).
3. Оценка анти-кликбейта: clickMagnetScore пенальтит картинки за клики по нерелевантным «плохим запросам» для борьбы с визуальным кликбейтом, так как не все клики полезны.
4. Связка с сущностями: Объекты на картинке через multibangKgEntities линкуются с графом знаний, связывая изображение с реальными понятиями вроде «Эйфелевой башни».
5. Фильтр качества при индексации: Внутренняя система Amarna (corpusSelectionInfo) фильтрует качество, и визуал низкого уровня не попадает в основной индекс.
6. Индексация всего текста: Системы OCR (ocrGoodoc, ocrTaser) считывают и индексируют текст внутри изображений, делая слова на инфографике или товарах доступными для поиска.
7. Сигнал для товарных фото: whiteBackgroundScore — косвенный признак профессиональной товарной фотографии, сигнализирующий о коммерческом трасте.
8. Иерархия дублей: Даже одинаковые картинки ранжируются в кластере дублей, а rankInNeardupCluster отдает топ-позицию изображению на более авторитетной или качественной странице.
9. Лицензирование на основе метаданных: Бейдж «Лицензируемая» в выдаче подтягивается из атрибута imageLicenseInfo, который берется из метаданных IPTC в файле или из он-пейдж микроразметки.
10. Контекстно-зависимая безопасность: Финальный рейтинг SafeSearch (finalPornScore) — сводная оценка, объединяющая анализ пикселей с контекстными сигналами, включая запросы, по которым ранжируется изображение («navboost queries«).
Ключевые системы и процессы
— Архитектура и происхождение: Гугл для каждой картинки определяет источник правды. canonicalDocid — это канонический идентификатор, собирающий все факторы ранжирования. contentFirstCrawlTime — мощный сигнал для определения первоисточника. Движок Mustang ранжирует картинки и использует rankInNeardupCluster для построения иерархии даже среди идентичных изображений.
— Семантическое понимание: Гугл глубоко понимает содержание картинки: OCR извлекает текст, imageRegions определяет объекты, а multibangKgEntities связывает их с графом знаний, что является ядром SEO для картинок на основе сущностей. Специальные детекторы классифицируют изображения по типу (photoDetectorScore, clipartDetectorScore) для соответствия интенту пользователя.
— Качество и вовлеченность: Качество оценивается с двух сторон: внутреннее — алгоритмическими оценками NIMA за техничку и эстетику, а внешнее — сигналами ПФ, вроде h2c и h2i. По сути, это версия NavBoost для картинок.
— Коммерция и монетизация: Коммерческие фичи встроены в схему. Атрибут shoppingProductInformation — это богатая структура данных для товарных картинок, заполняемая структурированными данными продавцов. Поле imageLicenseInfo из IPTC или он-пейдж микроразметки отвечает за показ бейджа «Лицензируемая».
Вставить свои 5 копеек: