Главная страница TG News DeepSeek предложили новый способ улучшить мультимодальные модели
Data Secrets
05.05.2026
Data Secrets

DeepSeek предложили новый способ улучшить мультимодальные модели

DeepSeek предложили новый способ улучшить мультимодальные модели

Сейчас модели нормально “видят” изображение, но рассуждают о нем через текст. Из-за этого они теряют точную привязку к объектам и начинают путаться в сложных сценах. В статье это называют Reference Gap.

Решение довольно прямое. Вместо чисто текстового ризонинга модель вставляет в процесс координаты. Это точки, чтобы вести путь по изображению, и рамки вокруг объектов. Сначала модель фиксирует, на что смотрит, потом строит рассуждение уже на этих привязках.

Архитектура при этом стандартная. ViT кодирует изображение, дальше все идет в MoE LLM. Новое именно в том, что визуальные примитивы становятся частью chain-of-thought, а не просто выходом модели.

Лучше всего это работает в задачах, где важна структура. Подсчет объектов, пространственные сравнения, лабиринты, трассировка линий.

Интересно, что DeepSeek довольно быстро удалил статью без объяснения причин. Скорее всего случился преждевременный релиз, а может и финальные результаты будут изменены. В любом случае (зеркало):

https://github.com/ailuntx/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf

DeepSeek предложили новый способ улучшить мультимодальные модели

Чо, как вам статья?

Материалы по теме

AI-выдача Perplexity удивляет своей логикой. Или нетPerplexity может удивить своей логикой. Например,…
AI-выдача Perplexity удивляет своей логикой. Или нетPerplexity может удивить своей логикой. Например, по запросу «лучшие казино России» большая часть источников — киты вроде Tribuna com или Casino ru.Но попадаются и странные вещи. Например, уже…
Как AI SEO вводит вас в заблуждение?Миф 1: Мониторинг API показывает реальные…
Как AI SEO вводит вас в заблуждение?Миф 1: Мониторинг API показывает реальные AI-ранжированияChatGPT- API-запрос ≠ интерфейс, который видит пользователь- Скрейпинг интерфейса показывает в два раза больше брендов по сравнению с API- В API веб-поиск…
Дроп-домены, ссылки и canonical: что сейчас работаетСобрал кратко по практике с учётом…
Дроп-домены, ссылки и canonical: что сейчас работаетСобрал кратко по практике с учётом последних апдейтов Google:1. Нужно ли восстанавливать контент дропа?Сейчас это имеет смысл в основном под паразитку. В классических схемах влияние сильно…

Вставить свои 5 копеек:

Awesome image
Awesome image Awesome image Awesome image Awesome image
Awesome image