Главная страница TG News Забавный репозиторий на GitHub: ЕРЕТИКЭто инструмент, который автоматически снимает цензор с LLM.Если…

26.03.2026

Никита Ноет...

Забавный репозиторий на GitHub: ЕРЕТИКЭто инструмент, который автоматически снимает цензор с LLM.Если…

Забавный репозиторий на GitHub: ЕРЕТИК

Это инструмент, который автоматически снимает цензор с LLM.

Если коротко:
вы берете open-weight модель (Gemma, Phi, Llama и т.д.) и прогоняете через Heretic. На выходе получаете версию модели с минимальными отказами отвечать на запросы.

Что под капотом:

• используется метод directional ablation (в research его называют abliteration)
• оптимизация параметров через Optuna
• цель: уменьшить количество refusals (отказов) и при этом максимально сохранить поведение оригинальной модели

Интересный момент.
Инструмент делает это полностью автоматически. Без fine-tune, без долгого обучения и без необходимости разбираться во внутренностях трансформеров.

То есть фактически любой разработчик может взять open model и «снять safety-пломбу» одной командой.

Поэтому вокруг проекта уже много дискуссий.
С одной стороны это мощный инструмент для исследования поведения LLM.
С другой стороны он показывает, насколько хрупкой иногда бывает вся система цензора в современных моделях.

Очень показательный репозиторий для тех, кто строит локальные LLM-стэки.

А вообще это крутая штука для разводилова людей и мужчин на онлифанс без отказа и с стабильным исходом.
Просто есть много целевых ботов, которые сдаются, когда люди перегибают и потом палятся

Забавный репозиторий на GitHub: ЕРЕТИКЭто инструмент, который автоматически снимает цензор с LLM.Если…

Чо, как вам статья?

Материалы по теме

👄 Россиян обяжут подписывать каждый денежный переводС 1 апреля в реквизите «плательщик»:💜 юрлица и банки будут обязаны указывать полное или сокращённое наименование💜 физлица — ФИО полностью💜 ИП — ФИО и свой правовой статус💜 лица, занимающиеся…

💀 Всего ₽11,6 тысяч целевых отчислений букмекеров получила Федерация падел-тенниса России за 2025 год.G GATE CONF ⚫️ 26-27 июня ⚫️ 7000+ участниковiGaming PUSH

💥🇨🇾 На Кипре (Лимассол) утром 24 марта неизвестные взорвали вход в шаурмечную The SHAWARMA by PUNIN у старого порта, принадлежащую российскому предпринимателю Дмитрию Пунину, которого ряд источников называет владельцем крупного iGaming-холдинга.…