Нейросети думают сложными геометрическими структурами – новое исследование от Goodfire Эта статья…
Нейросети думают сложными геометрическими структурами – новое исследование от Goodfire
Эта статья вызвала в последние дни очень много интереса в сообществе. Исследователи из Goodfire впервые показали занятную вещь: внутреннее пространство активаций моделей организовано не хаотично, а в виде многомерных форм, поверхностей и траекторий. Часто эти многообразия вполне интерпретируемы.
Выглядит это примерно как на первом видео. Авторы назвали явление neural geometry. Причем наблюдается оно не только в LLM, но и в vision моделях, и даже в хайповых world models.
Отличный пример – дни недели. Внутри модели они лежат не по прямой, а по круговой траектории. То есть Monday → Tuesday → Wednesday → … → Sunday образуют циклическую структуру в пространстве активаций.
На практике это значит, что если пытаться линейно перейти от понедельника к пятнице, промежуточные состояния будут бессмысленны, а вот если двигаться, глубо говоря, по окружности – с изменением угла, а не линейным смешиванием координат, – то по пути попадутся вторник, среда и четверг (второе видео).
Подобным геометрическим образом на многообразиях определенных форм лежат время, числа, цвета, биологическая таксономия и куча всего другого.
Авторы настаивают, что исследования neural geometry – это новый фронтир в интерпретации нейросетей, и именно геометрия может стать ключом от черного ящика.
Вставить свои 5 копеек: