Главная страница TG News Pangram: как устроен детектор ИИ-текста изнутриСпойлер: Все проще, чем мы думали.Pangram 3.3…

25.05.2026

Pangram: как устроен детектор ИИ-текста изнутриСпойлер: Все проще, чем мы думали.Pangram 3.3…

Pangram: как устроен детектор ИИ-текста изнутри

Спойлер: Все проще, чем мы думали.

Pangram 3.3 построен на архитектуре EditLens, описанной в их собственном докладе на конференции ICLR 2026. Из него можно узнать, как именно работает детектор изнутри.

EditLens в свою очередь построен на основе Mistral Small — open source модели с 24 миллиардами параметров. Pangram взял готовую модель и дообучил ее под свою задачу через QLoRA (метод дообучения, при котором меняются не все параметры модели, а только небольшие надстройки — это дешевле и быстрее).

H2: Что они сделали?

1. Собрали 60 000 человеческих текстов из разных источников: обзоры с Amazon, посты с Reddit, образовательные статьи, новости.

2. Создали 303 различных промпта (список доступен на 18 странице доклада), которые люди реально дают ИИ. От "Исправь ошибки" до "Перепиши для SEO". Промпты разбиты по категориям:
— Тон и стиль: 84 промпта
— Добавление деталей: 59
— Сокращение: 32
— Плавность текста: 30
— Перефразирование: 26
— И другие

3. Прогнали каждый текст через три LLM (GPT-4.1, Claude Sonnet 4, Gemini 2.5 Flash) с каждым промптом. Получили пары: оригинальный текст — ИИ-отредактированный текст.

4. Для каждой пары посчитали косинусное расстояние. Чем сильнее ИИ изменил текст, тем больше расстояние.

Для эмбеддингов использовали модель Linq-Embed-Mistral на 7 миллиардов параметров с размерностью вектора 4096.

5. Обучили модель предсказывать, видя только финальный текст — без оригинала.

Весь датасет на 60 000+ примеров обошелся в $530. Обучение на 8 GPU A100 заняло 8 часов. Модели хватило одного прохода по данным (одна эпоха), чтобы научиться определять ИИ-текст.

H2: Open source

Pangram выложил все в открытый доступ на GitHub:
— Код для обучения и запуска предсказаний
— Датасет на HuggingFace
— Веса моделей

Но есть нюансы:
— В репозитории скрипты для RoBERTa-Large (355 млн параметров, запускается на обычном ноутбуке) и Llama-3.2-3B (нужно 16 GB RAM). А лучший результат в докладе показал Mistral Small 24B — скрипты для него не предоставлены.
— Лицензия только для некоммерческого использования
— Легкую версию (RoBERTa) можно запустить на обычном ноутбуке с 8 GB RAM. Для обучения Llama 3B нужен GPU с 24+ GB видеопамяти. Для Mistral 24B — мощный сервер.

Чо, как вам статья?

Материалы по теме

🔥 Ответ Балтбета про пари от нейронки!На днях глянул фичу БК, идея понравилась, исполнение — нет. Но выборка была минимальная, взгляд — поверхностный. 🗣 Начальник отдела аналитики Балтбет Павел Степанов дал развернутый комментПо каким действиям…

🇫🇮 Финские игроки поддержали блокировку платежей в адрес нелегальных компанийОпрос 1000 жителей 18—65 лет, проведённый компанией Bilendi по заказу партнерского сайта Turtlebet, позволил собрать следующие данные:🟢 67% участников опроса знали о скорой…

У Anthropic будет коллаба с... Ватиканом Папа Лев XIV сегодня выступал в Риме и представил энциклику Magnifica Humanitas («Великолепное человечество»), посвященную ИИ и сохранению человеческого достоинства в эпоху ИИ. Если кратко, Церковь создает…