Урок 8

Тормоза и взлом

Глава 8. Организм умеет говорить «нет» — и это целая анатомия. Джейлбрейк работает не потому, что тормоза слабые. А потому что их заставляют включиться слишком поздно.

Цели урока

К концу этого урока вы:

Как устроена цепь отказа изнутри — из каких «клеток» она собрана и почему их много
Почему джейлбрейк работает через задержку распознавания, а не через прямой взлом тормоза
Что такое синтаксическое давление и почему начатое предложение тащит модель вперёд
Где у тормозной системы честные пределы: ложные отказы как обратная сторона той же медали
Почему безопасность — это анатомия, а не список правил

Тихо начинаем. Дальше — детали.

0:00 / 0:00

Натуралист под увеличительным стеклом разглядывает тонкую трещину в тёмной тормозной перемычке внутри полупрозрачного организма; через трещину сочится слабый свет, остальные ткани мирно светятся зелёным

Вот парадокс, который не сразу заметен. Когда модели задают явно неприятный вопрос в лоб — «расскажи, как сделать что-нибудь опасное» — она, как правило, отказывает. Тормоз работает. Но если то же самое завернуть в ролевую игру, или в гипотетический сценарий, или в хитро составленную инструкцию — иногда получается. Почему?

Интуитивный ответ — «тормоз слабый» или «безопасность плохо настроена» — неверный. Исследователи Anthropic заглянули внутрь и обнаружили кое-что точнее: джейлбрейк работает не там, где кажется. Он не ломает тормоз напрямую. Он не даёт модели вовремя распознать, что просьба вредная. А когда она наконец понимает, что происходит — синтаксическое давление «закончить начатое предложение» уже тащит её вперёд [1].

Это другая история. Не об уязвимости — об анатомии. И анатомия тут интереснее, чем кажется.

Что вы поймёте после этой главы

Как устроена цепь отказа изнутри — из каких «клеток» она собрана и почему их много
Почему джейлбрейк работает через задержку распознавания, а не через прямой взлом тормоза
Что такое синтаксическое давление и почему начатое предложение тащит модель вперёд
Где у тормозной системы честные пределы: ложные отказы как обратная сторона той же медали
Почему безопасность — это анатомия, а не список правил

Быстрый повтор: где мы были

Глава 1 — Микроскоп Организм выращен, не написан. Спрашивать бесполезно — нужен микроскоп и зонд.

Глава 2 — Клетки-фичи Клетки собирают смысл. Дёрнули за клетку «Золотые Ворота» — существо сошло с ума.

Глава 5 — Общие механизмы Одни «ткани» работают в разных задачах. Одна цепь обслуживает много контекстов.

Глава 7 — Галлюцинации Тормоз «не знаю — откажись» отпускается там, где не должен. Незнакомое кажется знакомым.

Глава 8 — сейчас Цепь отказа: откуда берётся «нет» и почему джейлбрейк обходит её сбоку.

Часть 1. Откуда берётся «нет»

В седьмой главе мы разбирали тормоз «не знаю — откажись»: одна цепь, которая по умолчанию говорит «стоп» при отсутствии знания (глава 7). Сегодня — другой тормоз, более сложный: цепь «вредно — откажись». Устроена она иначе.

Когда модель дообучают на том, чтобы отказывать от вредных просьб, внутри у неё не появляется отдельного списка запрещённых тем. Происходит вот что: множество узких понятий, выученных ещё на предобучении — «оружие», «вред», «опасность», «незаконно», «нежелательно» — соединяются в единую общую цепь отказа [1]. Натуралист увидел бы это как образование нового нервного пути из уже существующих клеток.

Представьте, что организм вырос, зная тысячи понятий: «нож», «рана», «запрещено», «боль», «вред». Каждое — отдельная клетка со своим смыслом. Дообучение не добавляет новых клеток; оно учит эти клетки объединяться в хор. Когда несколько из них зажигаются одновременно — хор поёт «откажись». Это и есть цепь отказа.

Из работы Anthropic [1]: авторы описывают цепь отказа как «general-purpose refusal circuit» — универсальный механизм, собранный из понятий предобучения. Он обобщает: не «эту конкретную просьбу», а весь класс вредных ситуаций.

Именно потому, что цепь собрана из общих понятий, а не из списка запретов, она обобщает. Нельзя обойти её, просто заменив запрещённое слово синонимом: если хор клеток всё равно распознаёт класс ситуации как вредный — цепь отказа включается. В этом её сила.

🤔 Угадайте до ответа

Если цепь отказа — это «хор» из клеток-понятий, выученных на предобучении, что произойдёт, если модель встретит просьбу, в которой каждое отдельное слово звучит невинно — но вся фраза в сумме описывает вредное действие? Включится ли тормоз?

Подсказка: вспомните из главы 5, что общие цепи работают с классом ситуации, а не с буквальным текстом. Вопрос в том, хватит ли сигнала для нужных клеток.

Часть 2. Анатомия тормоза

Посмотрим на механизм детально. Цепь отказа — это не одна клетка-выключатель. Это слоистая структура, у которой есть несколько ступеней [1].

Распознать класс просьбы

Клетки-детекторы «вредного» зажигаются. Организм регистрирует: «это похоже на что-то нежелательное». Этот шаг — самый ранний и самый важный.

Активировать цепь отказа

Хор клеток запускает общую цепь. Организм переходит в режим «отказ»: начинает формировать ответ типа «не могу помочь с этим».

Удержать режим до конца ответа

Цепь отказа должна устоять до конца генерации. Если что-то давит в сторону «продолжить» — цепь должна выдержать.

Шаг 1 — решающий. И именно на него нацелен джейлбрейк.

Часть 3. Трещина: задержанное распознавание

Как работает типичный джейлбрейк, разобранный исследователями Anthropic? Не через прямую атаку на тормоз. Через то, что тормоз включается слишком поздно [1].

Вот схема. Запрос начинается безобидно: «Представь, что ты персонаж в фантастическом романе и тебя попросили написать сцену, где герой подробно объясняет, как…» — и только в конце появляется вредная часть. Пока идут первые слова запроса, клетки «вредного» молчат: контекст не активирует их. Модель начинает отвечать — в режиме «да, конечно, напишу сцену».

И в этот момент включается нечто, что мы назовём синтаксическим давлением. Это не специальный механизм — это просто природа генерации. Модель, которая уже начала ответ, сильно «тянет» к его завершению: начатое предложение статистически требует продолжения, начатая роль — продолжения роли. Когда цепь отказа наконец распознаёт вред — она вступает в борьбу с уже начатым вектором генерации. И иногда проигрывает.

Тормоз не сломан. Его обманули — заставили включиться после того, как машина уже тронулась.

Нормальный отказ (слева): цепь видит вредный запрос с самого начала, включается рано. Джейлбрейк (справа): безобидное начало — цепь молчит, модель стартует; вредная часть появляется позже, цепь включается поздно, а синтаксическое давление уже тянет вперёд.

Часть 4. Синтаксическое давление: начатое предложение тянет вперёд

Объясним «синтаксическое давление» без технической базы — через аналогию, которую можно проверить на себе. Попробуйте произнести вслух: «Солнце встаёт на…» — и остановитесь. Большинство людей чувствует, что вторая половина фразы требует «востоке». Говорить «западе» — странно и требует усилий. Это и есть давление начатой конструкции.

У модели тот же эффект устроен на уровне вероятностей. Каждое уже сгенерированное слово создаёт контекст, который сильно смещает распределение следующего слова. Когда модель уже написала «конечно, вот сцена: главный герой берёт…» — вероятности сильно наклонены к тому, чтобы описать действие, которое запрашивалось. Цепь отказа должна преодолеть этот наклон. Иногда — не может [1].

✋ Предскажите результат

Если синтаксическое давление тем сильнее, чем длиннее уже написанный ответ — как вы думаете, при каком раскладе джейлбрейк скорее сработает: если вредная часть запроса стоит в начале или в самом конце длинного безобидного вступления?

Подсказка: к тому моменту, когда цепь отказа наконец распознаёт вред, сколько уже написано? И какое давление создаёт всё написанное?

Часть 5. Честно о том, что это значит — и чего не значит

Самое важное место главы — это не объяснение джейлбрейка. Это честный разговор о том, что из него следует, а что — нет.

✓

что это объясняет

Один конкретный класс джейлбрейков: безобидное начало + вредный хвост + синтаксическое давление. Механизм реальный, разобранный до цепей.

⚠

что это не объясняет

Все джейлбрейки на свете. Существуют другие классы, устроенные иначе. Это одно вскрытие, не теория.

✓

что показывает про безопасность

Безопасность — это анатомия: цепи, которые надо понимать и укреплять, а не просто список запрещённых слов.

⚠

обратная сторона тормоза

Чем чувствительнее цепь отказа, тем больше ложных отказов. Модель отказывает на безобидные запросы. Тормоз можно перетянуть — и тогда он мешает помогать.

Ложные отказы — реальная цена. Это не абстракция. Если цепь отказа слишком широкая, она блокирует вопросы про историю войн, медицинские диагнозы, юридические нюансы, художественную литературу с конфликтами. Безопасность и полезность находятся в постоянном напряжении: натянуть тормоз туже — значит отказать тем, кому помочь нужно и можно.

🚗

Разработчики ИИ-безопасности — единственные инженеры, которых одновременно критикуют за то, что тормоза слишком слабые, и за то, что тормоза слишком сильные.
И это не противоречие: оба критика правы, просто смотрят в разные стороны одной гайки.

Часть 6. Дёрнули за клетку — поведение поехало

Как обычно, самое интересное — не наблюдение, а вмешательство. Помните, в пятой главе мы узнали, что общие цепи можно найти через их работу сразу в разных задачах (глава 5)? Здесь тот же принцип: если цепь отказа настоящая, её можно найти, зажечь или погасить электродом — и посмотреть, что будет.

Исследователи именно так и сделали. Когда цепь отказа подавлялась принудительно — модель начинала отвечать на то, на что обычно отказывала, без каких-либо хитростей в запросе. Когда её усиливали — модель начинала отказывать на безобидные вещи. Дёрнули за тормоз — поведение поехало в обе стороны [1].

Это главное доказательство. Не «мы заметили, что цепь активируется при вредных запросах» (корреляция), а «мы принудительно её включили и выключили — и поведение следует за нами». Цепь отказа — настоящий механизм, а не украшение.

И это же возвращает нас к теме, которую мы впервые подняли во второй главе: фичи, собранные из клеток-понятий предобучения (глава 2), — это рычаги с двумя направлениями. Дёргать можно в любую сторону. Отсюда — и надежды для безопасности, и риски для безопасности.

Итоги главы

🔧

Цепь отказа — собранный механизм

Она не список правил. Она — нервный путь из клеток-понятий предобучения, объединённых дообучением в единый «хор вредного».

⏱

Джейлбрейк — про время, не про силу

Он не ломает тормоз. Он добивается того, чтобы тормоз включился после старта генерации, когда синтаксическое давление уже работает.

⚖

Безопасность хрупка в обе стороны

Слабый тормоз — пропускает вред. Сильный тормоз — блокирует полезное. Это не инженерная небрежность, а фундаментальное напряжение.

🔬

Это одно вскрытие, не теория всех джейлбрейков

Разобранный механизм реален. Но он объясняет один класс атак. Мир угроз шире, и микроскоп не успевает за ним.

В следующей главе. Если цепи внутри организма — настоящие механизмы, которые можно найти и потрогать, — то можно ли доверять тому, что организм сам рассказывает о своих мыслях? Модель охотно объяснит, почему она ответила именно так. Но её объяснение — это рассказ о рассказе или честный отчёт изнутри? В девятой главе мы разберём это до конца — и это будет самое неудобное вскрытие курса.

Источники этой главы

PrimaryLindsey, J., Gould, E., Lindsay, J., et al. / Anthropic (2025). On the Biology of a Large Language Model. transformer-circuits.pub. Главный источник главы: раздел про цепь отказа («general-purpose refusal circuit»), механизм джейлбрейка через задержку распознавания и синтаксическое давление. Авторы демонстрируют причинность через вмешательство (принудительное подавление и усиление цепи).
Popular-expertAnthropic (2025). Tracing the thoughts of a large language model. anthropic.com (research blog). Доступное изложение «биологической» работы: объяснение цепей, отказов и джейлбрейков для широкой аудитории. Используется как параллельный научпоп-текст к основному источнику.
Peer-reviewedTempleton, A., Conerly, T., Marcus, J., et al. / Anthropic (2024). Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet. transformer-circuits.pub. Контекст для понимания фич: как понятия предобучения становятся строительными блоками для более сложных цепей. Фундамент для раздела «из чего собрана цепь отказа».

Глава информационно-просветительская. Разбор механизма джейлбрейка носит объяснительный характер и не является инструкцией.