Главная страница Новости Забавный репозиторий на GitHub — ЕРЕТИК. Инструмент, который автоматически снимает цензор с LLM
Забавный репозиторий на GitHub — ЕРЕТИК. Инструмент, который автоматически снимает цензор с LLM

Забавный репозиторий на GitHub — ЕРЕТИК. Инструмент, который автоматически снимает цензор с LLM

Забавный репозиторий на GitHub: ЕРЕТИК

Это инструмент, который автоматически снимает цензор с LLM.

Если коротко: вы берете open-weight модель (Gemma, Phi, Llama и т.д.) и прогоняете через Heretic. На выходе получаете версию модели с минимальными отказами отвечать на запросы.

Что под капотом:

• используется метод directional ablation (в research его называют abliteration)
• оптимизация параметров через Optuna
• цель: уменьшить количество refusals (отказов) и при этом максимально сохранить поведение оригинальной модели

Интересный момент.

Инструмент делает это полностью автоматически. Без fine-tune, без долгого обучения и без необходимости разбираться во внутренностях трансформеров. То есть фактически любой разработчик может взять open model и «снять safety-пломбу» одной командой.

Поэтому вокруг проекта уже много дискуссий. С одной стороны это мощный инструмент для исследования поведения LLM. С другой стороны он показывает, насколько хрупкой иногда бывает вся система цензора в современных моделях. Очень показательный репозиторий для тех, кто строит локальные LLM-стэки.

Awesome image

А вообще это крутая штука для разводилова людей и мужчин на онлифанс без отказа и с стабильным исходом. Просто есть много целевых ботов, которые сдаются, когда люди перегибают и потом палятся.

Чо, как вам статья?

Материалы по теме

Вайбкодинг на стероидах: Cursor 3 позволяет делегировать задачи десяткам параллельных AI-агентов
Релиз происходит в момент, когда Claude Code захватил 54% рынка AI-кодинга, а Codex от OpenAI предлагает безлимитный доступ для привлечения пользователей.
Суперапп по-бразильски: TikTok хочет выдавать кредиты и открывать электронные кошельки
Делегация из 11 топ-менеджеров ByteDance, включая глобального директора по платежам Лю Бяохуа, лично встретилась с председателем Центробанка. Цель — стать электронным кошельком и кредитором для 131 млн взрослых бразильцев.
Прыжки по аллигаторам в личке: TikTok запустил эмодзи-игры внутри личных сообщений
Чтобы начать, достаточно отправить любой эмодзи и нажать на него. Игрок должен перепрыгивать через реку по спинам анимированных аллигаторов, собирая бонусы.

Вставить свои 5 копеек:

Awesome image
Awesome image
Awesome image Awesome image Awesome image Awesome image