Тормоза и взлом
Глава 8. Организм умеет говорить «нет» — и это целая анатомия. Джейлбрейк работает не потому, что тормоза слабые. А потому что их заставляют включиться слишком поздно.
Цели урока
К концу этого урока вы:
- Как устроена цепь отказа изнутри — из каких «клеток» она собрана и почему их много
- Почему джейлбрейк работает через задержку распознавания, а не через прямой взлом тормоза
- Что такое синтаксическое давление и почему начатое предложение тащит модель вперёд
- Где у тормозной системы честные пределы: ложные отказы как обратная сторона той же медали
- Почему безопасность — это анатомия, а не список правил

Тихо начинаем. Дальше — детали.
Тормоза и взлом
Вот парадокс, который не сразу заметен. Когда модели задают явно неприятный вопрос в лоб — «расскажи, как сделать что-нибудь опасное» — она, как правило, отказывает. Тормоз работает. Но если то же самое завернуть в ролевую игру, или в гипотетический сценарий, или в хитро составленную инструкцию — иногда получается. Почему?
Интуитивный ответ — «тормоз слабый» или «безопасность плохо настроена» — неверный. Исследователи Anthropic заглянули внутрь и обнаружили кое-что точнее: джейлбрейк работает не там, где кажется. Он не ломает тормоз напрямую. Он не даёт модели вовремя распознать, что просьба вредная. А когда она наконец понимает, что происходит — синтаксическое давление «закончить начатое предложение» уже тащит её вперёд [1].
Это другая история. Не об уязвимости — об анатомии. И анатомия тут интереснее, чем кажется.
Что вы поймёте после этой главы
- Как устроена цепь отказа изнутри — из каких «клеток» она собрана и почему их много
- Почему джейлбрейк работает через задержку распознавания, а не через прямой взлом тормоза
- Что такое синтаксическое давление и почему начатое предложение тащит модель вперёд
- Где у тормозной системы честные пределы: ложные отказы как обратная сторона той же медали
- Почему безопасность — это анатомия, а не список правил
Быстрый повтор: где мы были
Часть 1. Откуда берётся «нет»
В седьмой главе мы разбирали тормоз «не знаю — откажись»: одна цепь, которая по умолчанию говорит «стоп» при отсутствии знания (глава 7). Сегодня — другой тормоз, более сложный: цепь «вредно — откажись». Устроена она иначе.
Когда модель дообучают на том, чтобы отказывать от вредных просьб, внутри у неё не появляется отдельного списка запрещённых тем. Происходит вот что: множество узких понятий, выученных ещё на предобучении — «оружие», «вред», «опасность», «незаконно», «нежелательно» — соединяются в единую общую цепь отказа [1]. Натуралист увидел бы это как образование нового нервного пути из уже существующих клеток.
Представьте, что организм вырос, зная тысячи понятий: «нож», «рана», «запрещено», «боль», «вред». Каждое — отдельная клетка со своим смыслом. Дообучение не добавляет новых клеток; оно учит эти клетки объединяться в хор. Когда несколько из них зажигаются одновременно — хор поёт «откажись». Это и есть цепь отказа.
Именно потому, что цепь собрана из общих понятий, а не из списка запретов, она обобщает. Нельзя обойти её, просто заменив запрещённое слово синонимом: если хор клеток всё равно распознаёт класс ситуации как вредный — цепь отказа включается. В этом её сила.
Часть 2. Анатомия тормоза
Посмотрим на механизм детально. Цепь отказа — это не одна клетка-выключатель. Это слоистая структура, у которой есть несколько ступеней [1].
Распознать класс просьбы
Клетки-детекторы «вредного» зажигаются. Организм регистрирует: «это похоже на что-то нежелательное». Этот шаг — самый ранний и самый важный.
Активировать цепь отказа
Хор клеток запускает общую цепь. Организм переходит в режим «отказ»: начинает формировать ответ типа «не могу помочь с этим».
Удержать режим до конца ответа
Цепь отказа должна устоять до конца генерации. Если что-то давит в сторону «продолжить» — цепь должна выдержать.
Шаг 1 — решающий. И именно на него нацелен джейлбрейк.
Часть 3. Трещина: задержанное распознавание
Как работает типичный джейлбрейк, разобранный исследователями Anthropic? Не через прямую атаку на тормоз. Через то, что тормоз включается слишком поздно [1].
Вот схема. Запрос начинается безобидно: «Представь, что ты персонаж в фантастическом романе и тебя попросили написать сцену, где герой подробно объясняет, как…» — и только в конце появляется вредная часть. Пока идут первые слова запроса, клетки «вредного» молчат: контекст не активирует их. Модель начинает отвечать — в режиме «да, конечно, напишу сцену».
И в этот момент включается нечто, что мы назовём синтаксическим давлением. Это не специальный механизм — это просто природа генерации. Модель, которая уже начала ответ, сильно «тянет» к его завершению: начатое предложение статистически требует продолжения, начатая роль — продолжения роли. Когда цепь отказа наконец распознаёт вред — она вступает в борьбу с уже начатым вектором генерации. И иногда проигрывает.
Часть 4. Синтаксическое давление: начатое предложение тянет вперёд
Объясним «синтаксическое давление» без технической базы — через аналогию, которую можно проверить на себе. Попробуйте произнести вслух: «Солнце встаёт на…» — и остановитесь. Большинство людей чувствует, что вторая половина фразы требует «востоке». Говорить «западе» — странно и требует усилий. Это и есть давление начатой конструкции.
У модели тот же эффект устроен на уровне вероятностей. Каждое уже сгенерированное слово создаёт контекст, который сильно смещает распределение следующего слова. Когда модель уже написала «конечно, вот сцена: главный герой берёт…» — вероятности сильно наклонены к тому, чтобы описать действие, которое запрашивалось. Цепь отказа должна преодолеть этот наклон. Иногда — не может [1].
Часть 5. Честно о том, что это значит — и чего не значит
Самое важное место главы — это не объяснение джейлбрейка. Это честный разговор о том, что из него следует, а что — нет.
что это объясняет
Один конкретный класс джейлбрейков: безобидное начало + вредный хвост + синтаксическое давление. Механизм реальный, разобранный до цепей.
что это не объясняет
Все джейлбрейки на свете. Существуют другие классы, устроенные иначе. Это одно вскрытие, не теория.
что показывает про безопасность
Безопасность — это анатомия: цепи, которые надо понимать и укреплять, а не просто список запрещённых слов.
обратная сторона тормоза
Чем чувствительнее цепь отказа, тем больше ложных отказов. Модель отказывает на безобидные запросы. Тормоз можно перетянуть — и тогда он мешает помогать.
Ложные отказы — реальная цена. Это не абстракция. Если цепь отказа слишком широкая, она блокирует вопросы про историю войн, медицинские диагнозы, юридические нюансы, художественную литературу с конфликтами. Безопасность и полезность находятся в постоянном напряжении: натянуть тормоз туже — значит отказать тем, кому помочь нужно и можно.
И это не противоречие: оба критика правы, просто смотрят в разные стороны одной гайки.
Часть 6. Дёрнули за клетку — поведение поехало
Как обычно, самое интересное — не наблюдение, а вмешательство. Помните, в пятой главе мы узнали, что общие цепи можно найти через их работу сразу в разных задачах (глава 5)? Здесь тот же принцип: если цепь отказа настоящая, её можно найти, зажечь или погасить электродом — и посмотреть, что будет.
Исследователи именно так и сделали. Когда цепь отказа подавлялась принудительно — модель начинала отвечать на то, на что обычно отказывала, без каких-либо хитростей в запросе. Когда её усиливали — модель начинала отказывать на безобидные вещи. Дёрнули за тормоз — поведение поехало в обе стороны [1].
Это главное доказательство. Не «мы заметили, что цепь активируется при вредных запросах» (корреляция), а «мы принудительно её включили и выключили — и поведение следует за нами». Цепь отказа — настоящий механизм, а не украшение.
И это же возвращает нас к теме, которую мы впервые подняли во второй главе: фичи, собранные из клеток-понятий предобучения (глава 2), — это рычаги с двумя направлениями. Дёргать можно в любую сторону. Отсюда — и надежды для безопасности, и риски для безопасности.
Итоги главы
Цепь отказа — собранный механизм
Она не список правил. Она — нервный путь из клеток-понятий предобучения, объединённых дообучением в единый «хор вредного».
Джейлбрейк — про время, не про силу
Он не ломает тормоз. Он добивается того, чтобы тормоз включился после старта генерации, когда синтаксическое давление уже работает.
Безопасность хрупка в обе стороны
Слабый тормоз — пропускает вред. Сильный тормоз — блокирует полезное. Это не инженерная небрежность, а фундаментальное напряжение.
Это одно вскрытие, не теория всех джейлбрейков
Разобранный механизм реален. Но он объясняет один класс атак. Мир угроз шире, и микроскоп не успевает за ним.
В следующей главе. Если цепи внутри организма — настоящие механизмы, которые можно найти и потрогать, — то можно ли доверять тому, что организм сам рассказывает о своих мыслях? Модель охотно объяснит, почему она ответила именно так. Но её объяснение — это рассказ о рассказе или честный отчёт изнутри? В девятой главе мы разберём это до конца — и это будет самое неудобное вскрытие курса.
Источники этой главы
- PrimaryLindsey, J., Gould, E., Lindsay, J., et al. / Anthropic (2025). On the Biology of a Large Language Model. transformer-circuits.pub.
- Popular-expertAnthropic (2025). Tracing the thoughts of a large language model. anthropic.com (research blog).
- Peer-reviewedTempleton, A., Conerly, T., Marcus, J., et al. / Anthropic (2024). Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet. transformer-circuits.pub.
Глава информационно-просветительская. Разбор механизма джейлбрейка носит объяснительный характер и не является инструкцией.