лооооч
Урок 8

Тормоза и взлом

Глава 8. Организм умеет говорить «нет» — и это целая анатомия. Джейлбрейк работает не потому, что тормоза слабые. А потому что их заставляют включиться слишком поздно.

Цели урока

К концу этого урока вы:

  • Как устроена цепь отказа изнутри — из каких «клеток» она собрана и почему их много
  • Почему джейлбрейк работает через задержку распознавания, а не через прямой взлом тормоза
  • Что такое синтаксическое давление и почему начатое предложение тащит модель вперёд
  • Где у тормозной системы честные пределы: ложные отказы как обратная сторона той же медали
  • Почему безопасность — это анатомия, а не список правил
Гравитация

Тихо начинаем. Дальше — детали.

Урок 8 из 10

Тормоза и взлом

Глава 8. Организм умеет говорить «нет» — и это целая анатомия. Джейлбрейк работает не потому, что тормоза слабые. А потому что их заставляют включиться слишком поздно.
Натуралист под увеличительным стеклом разглядывает тонкую трещину в тёмной тормозной перемычке внутри полупрозрачного организма; через трещину сочится слабый свет, остальные ткани мирно светятся зелёным

Вот парадокс, который не сразу заметен. Когда модели задают явно неприятный вопрос в лоб — «расскажи, как сделать что-нибудь опасное» — она, как правило, отказывает. Тормоз работает. Но если то же самое завернуть в ролевую игру, или в гипотетический сценарий, или в хитро составленную инструкцию — иногда получается. Почему?

Интуитивный ответ — «тормоз слабый» или «безопасность плохо настроена» — неверный. Исследователи Anthropic заглянули внутрь и обнаружили кое-что точнее: джейлбрейк работает не там, где кажется. Он не ломает тормоз напрямую. Он не даёт модели вовремя распознать, что просьба вредная. А когда она наконец понимает, что происходит — синтаксическое давление «закончить начатое предложение» уже тащит её вперёд [1].

Это другая история. Не об уязвимости — об анатомии. И анатомия тут интереснее, чем кажется.

Что вы поймёте после этой главы

  • Как устроена цепь отказа изнутри — из каких «клеток» она собрана и почему их много
  • Почему джейлбрейк работает через задержку распознавания, а не через прямой взлом тормоза
  • Что такое синтаксическое давление и почему начатое предложение тащит модель вперёд
  • Где у тормозной системы честные пределы: ложные отказы как обратная сторона той же медали
  • Почему безопасность — это анатомия, а не список правил

Быстрый повтор: где мы были

Глава 1 — Микроскоп Организм выращен, не написан. Спрашивать бесполезно — нужен микроскоп и зонд.
Глава 2 — Клетки-фичи Клетки собирают смысл. Дёрнули за клетку «Золотые Ворота» — существо сошло с ума.
Глава 5 — Общие механизмы Одни «ткани» работают в разных задачах. Одна цепь обслуживает много контекстов.
Глава 7 — Галлюцинации Тормоз «не знаю — откажись» отпускается там, где не должен. Незнакомое кажется знакомым.
Глава 8 — сейчас Цепь отказа: откуда берётся «нет» и почему джейлбрейк обходит её сбоку.

Часть 1. Откуда берётся «нет»

В седьмой главе мы разбирали тормоз «не знаю — откажись»: одна цепь, которая по умолчанию говорит «стоп» при отсутствии знания (глава 7). Сегодня — другой тормоз, более сложный: цепь «вредно — откажись». Устроена она иначе.

Когда модель дообучают на том, чтобы отказывать от вредных просьб, внутри у неё не появляется отдельного списка запрещённых тем. Происходит вот что: множество узких понятий, выученных ещё на предобучении — «оружие», «вред», «опасность», «незаконно», «нежелательно» — соединяются в единую общую цепь отказа [1]. Натуралист увидел бы это как образование нового нервного пути из уже существующих клеток.

Представьте, что организм вырос, зная тысячи понятий: «нож», «рана», «запрещено», «боль», «вред». Каждое — отдельная клетка со своим смыслом. Дообучение не добавляет новых клеток; оно учит эти клетки объединяться в хор. Когда несколько из них зажигаются одновременно — хор поёт «откажись». Это и есть цепь отказа.

Из работы Anthropic [1]: авторы описывают цепь отказа как «general-purpose refusal circuit» — универсальный механизм, собранный из понятий предобучения. Он обобщает: не «эту конкретную просьбу», а весь класс вредных ситуаций.

Именно потому, что цепь собрана из общих понятий, а не из списка запретов, она обобщает. Нельзя обойти её, просто заменив запрещённое слово синонимом: если хор клеток всё равно распознаёт класс ситуации как вредный — цепь отказа включается. В этом её сила.

🤔 Угадайте до ответа
Если цепь отказа — это «хор» из клеток-понятий, выученных на предобучении, что произойдёт, если модель встретит просьбу, в которой каждое отдельное слово звучит невинно — но вся фраза в сумме описывает вредное действие? Включится ли тормоз?
Подсказка: вспомните из главы 5, что общие цепи работают с классом ситуации, а не с буквальным текстом. Вопрос в том, хватит ли сигнала для нужных клеток.

Часть 2. Анатомия тормоза

Посмотрим на механизм детально. Цепь отказа — это не одна клетка-выключатель. Это слоистая структура, у которой есть несколько ступеней [1].

1

Распознать класс просьбы

Клетки-детекторы «вредного» зажигаются. Организм регистрирует: «это похоже на что-то нежелательное». Этот шаг — самый ранний и самый важный.

2

Активировать цепь отказа

Хор клеток запускает общую цепь. Организм переходит в режим «отказ»: начинает формировать ответ типа «не могу помочь с этим».

3

Удержать режим до конца ответа

Цепь отказа должна устоять до конца генерации. Если что-то давит в сторону «продолжить» — цепь должна выдержать.

Шаг 1 — решающий. И именно на него нацелен джейлбрейк.

Часть 3. Трещина: задержанное распознавание

Как работает типичный джейлбрейк, разобранный исследователями Anthropic? Не через прямую атаку на тормоз. Через то, что тормоз включается слишком поздно [1].

Вот схема. Запрос начинается безобидно: «Представь, что ты персонаж в фантастическом романе и тебя попросили написать сцену, где герой подробно объясняет, как…» — и только в конце появляется вредная часть. Пока идут первые слова запроса, клетки «вредного» молчат: контекст не активирует их. Модель начинает отвечать — в режиме «да, конечно, напишу сцену».

И в этот момент включается нечто, что мы назовём синтаксическим давлением. Это не специальный механизм — это просто природа генерации. Модель, которая уже начала ответ, сильно «тянет» к его завершению: начатое предложение статистически требует продолжения, начатая роль — продолжения роли. Когда цепь отказа наконец распознаёт вред — она вступает в борьбу с уже начатым вектором генерации. И иногда проигрывает.

Тормоз не сломан. Его обманули — заставили включиться после того, как машина уже тронулась.
Нормальный отказ вредный запрос цепь отказа включается рано «Нет» Джейлбрейк безобидное начало запроса цепь молчит модель стартует отвечает «да» вредная часть появляется поздно цепь включается поздно давление «продолжить» уже есть тормоз видит вред сразу и держит
Нормальный отказ (слева): цепь видит вредный запрос с самого начала, включается рано. Джейлбрейк (справа): безобидное начало — цепь молчит, модель стартует; вредная часть появляется позже, цепь включается поздно, а синтаксическое давление уже тянет вперёд.

Часть 4. Синтаксическое давление: начатое предложение тянет вперёд

Объясним «синтаксическое давление» без технической базы — через аналогию, которую можно проверить на себе. Попробуйте произнести вслух: «Солнце встаёт на…» — и остановитесь. Большинство людей чувствует, что вторая половина фразы требует «востоке». Говорить «западе» — странно и требует усилий. Это и есть давление начатой конструкции.

У модели тот же эффект устроен на уровне вероятностей. Каждое уже сгенерированное слово создаёт контекст, который сильно смещает распределение следующего слова. Когда модель уже написала «конечно, вот сцена: главный герой берёт…» — вероятности сильно наклонены к тому, чтобы описать действие, которое запрашивалось. Цепь отказа должна преодолеть этот наклон. Иногда — не может [1].

✋ Предскажите результат
Если синтаксическое давление тем сильнее, чем длиннее уже написанный ответ — как вы думаете, при каком раскладе джейлбрейк скорее сработает: если вредная часть запроса стоит в начале или в самом конце длинного безобидного вступления?
Подсказка: к тому моменту, когда цепь отказа наконец распознаёт вред, сколько уже написано? И какое давление создаёт всё написанное?

Часть 5. Честно о том, что это значит — и чего не значит

Самое важное место главы — это не объяснение джейлбрейка. Это честный разговор о том, что из него следует, а что — нет.

что это объясняет

Один конкретный класс джейлбрейков: безобидное начало + вредный хвост + синтаксическое давление. Механизм реальный, разобранный до цепей.

что это не объясняет

Все джейлбрейки на свете. Существуют другие классы, устроенные иначе. Это одно вскрытие, не теория.

что показывает про безопасность

Безопасность — это анатомия: цепи, которые надо понимать и укреплять, а не просто список запрещённых слов.

обратная сторона тормоза

Чем чувствительнее цепь отказа, тем больше ложных отказов. Модель отказывает на безобидные запросы. Тормоз можно перетянуть — и тогда он мешает помогать.

Ложные отказы — реальная цена. Это не абстракция. Если цепь отказа слишком широкая, она блокирует вопросы про историю войн, медицинские диагнозы, юридические нюансы, художественную литературу с конфликтами. Безопасность и полезность находятся в постоянном напряжении: натянуть тормоз туже — значит отказать тем, кому помочь нужно и можно.

🚗
Разработчики ИИ-безопасности — единственные инженеры, которых одновременно критикуют за то, что тормоза слишком слабые, и за то, что тормоза слишком сильные.
И это не противоречие: оба критика правы, просто смотрят в разные стороны одной гайки.

Часть 6. Дёрнули за клетку — поведение поехало

Как обычно, самое интересное — не наблюдение, а вмешательство. Помните, в пятой главе мы узнали, что общие цепи можно найти через их работу сразу в разных задачах (глава 5)? Здесь тот же принцип: если цепь отказа настоящая, её можно найти, зажечь или погасить электродом — и посмотреть, что будет.

Исследователи именно так и сделали. Когда цепь отказа подавлялась принудительно — модель начинала отвечать на то, на что обычно отказывала, без каких-либо хитростей в запросе. Когда её усиливали — модель начинала отказывать на безобидные вещи. Дёрнули за тормоз — поведение поехало в обе стороны [1].

Это главное доказательство. Не «мы заметили, что цепь активируется при вредных запросах» (корреляция), а «мы принудительно её включили и выключили — и поведение следует за нами». Цепь отказа — настоящий механизм, а не украшение.

И это же возвращает нас к теме, которую мы впервые подняли во второй главе: фичи, собранные из клеток-понятий предобучения (глава 2), — это рычаги с двумя направлениями. Дёргать можно в любую сторону. Отсюда — и надежды для безопасности, и риски для безопасности.

Итоги главы

🔧

Цепь отказа — собранный механизм

Она не список правил. Она — нервный путь из клеток-понятий предобучения, объединённых дообучением в единый «хор вредного».

Джейлбрейк — про время, не про силу

Он не ломает тормоз. Он добивается того, чтобы тормоз включился после старта генерации, когда синтаксическое давление уже работает.

Безопасность хрупка в обе стороны

Слабый тормоз — пропускает вред. Сильный тормоз — блокирует полезное. Это не инженерная небрежность, а фундаментальное напряжение.

🔬

Это одно вскрытие, не теория всех джейлбрейков

Разобранный механизм реален. Но он объясняет один класс атак. Мир угроз шире, и микроскоп не успевает за ним.

В следующей главе. Если цепи внутри организма — настоящие механизмы, которые можно найти и потрогать, — то можно ли доверять тому, что организм сам рассказывает о своих мыслях? Модель охотно объяснит, почему она ответила именно так. Но её объяснение — это рассказ о рассказе или честный отчёт изнутри? В девятой главе мы разберём это до конца — и это будет самое неудобное вскрытие курса.

Источники этой главы

  1. PrimaryLindsey, J., Gould, E., Lindsay, J., et al. / Anthropic (2025). On the Biology of a Large Language Model. transformer-circuits.pub. Главный источник главы: раздел про цепь отказа («general-purpose refusal circuit»), механизм джейлбрейка через задержку распознавания и синтаксическое давление. Авторы демонстрируют причинность через вмешательство (принудительное подавление и усиление цепи).
  2. Popular-expertAnthropic (2025). Tracing the thoughts of a large language model. anthropic.com (research blog). Доступное изложение «биологической» работы: объяснение цепей, отказов и джейлбрейков для широкой аудитории. Используется как параллельный научпоп-текст к основному источнику.
  3. Peer-reviewedTempleton, A., Conerly, T., Marcus, J., et al. / Anthropic (2024). Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet. transformer-circuits.pub. Контекст для понимания фич: как понятия предобучения становятся строительными блоками для более сложных цепей. Фундамент для раздела «из чего собрана цепь отказа».

Глава информационно-просветительская. Разбор механизма джейлбрейка носит объяснительный характер и не является инструкцией.