Тем временем на ARC-AGI-2 ИИ-системе впервые удалось превзойти уровень человека В лаборатории…
Тем временем на ARC-AGI-2 ИИ-системе впервые удалось превзойти уровень человека
В лаборатории Poetiq придумали, как можно соединять разные LLM так, чтобы в разы бустить их производительность (кому интересно, внизу оставим ссылку на код). И вот 20 ноября они заявили, что их подход – микс Gemini 3 и GPT-5.1 – впервые дал на бенчмарке результат, превосходящий человека.
Правда, это только на публичном evaluation-сете. При переносе на semi-private результат, скорее всего, ухудшится. Но учитывая, что по отдельности модели даже близко не дотягивают до 60% (у Gemini 3 45%, у GPT-5 около 20%), все равно новость занятная.
Еще пол года назад ARC-AGI-2 казался для ИИ вообще нерешаемым, а самые топовые модели выбивали на нем 1-2%.
Вставить свои 5 копеек: