Урок 7

Почему оно выдумывает

Глава 7. Внутри модели есть тормоз: «не знаю — откажись». Галлюцинация — это не сломанная фантазия. Это тормоз, который отпустили не там.

Цели урока

К концу этого урока вы:

Какой тормоз внутри модели предотвращает выдумку — и когда он ошибочно отпускается
Почему незнакомые сущности с привычными именами — особая ловушка для этого тормоза
Как галлюцинация связана с конфабуляцией из прошлой главы — общий знаменатель
Что медицинская диагностика говорит о том, как модель строит «уверенность»
Что делать с уверенным ответом модели и почему уверенность ничего не гарантирует

Давай по-честному, без воды: вот как это работает.

0:00 / 0:00

Натуралист в замешательстве смотрит в микроскоп на размытую призрачную фигуру там, где должно быть пустое стекло; одна клетка ярко искрит, вокруг неё туман, остальные клетки тёмные

Спросите модель: «Кем работала Анна Кравченко до того, как стала профессором Уральского государственного университета в 2019 году?» Скорее всего, она ответит — уверенно, связно, с правдоподобными деталями. Возможно, про преподавательский стаж в Екатеринбурге. Или про диссертацию по педагогике. Всё это будет звучать разумно. И всё это будет ложью — потому что никакой Анны Кравченко из Уральского государственного, вероятно, не существует.

Почему? Не потому что модель злобна или хочет запутать. Причина механическая, и мы сейчас её разберём. Внутри этого организма есть вполне понятный тормоз: цепь, которая говорит «стоп, я этого не знаю — лучше откажусь». Этот тормоз нормально работает для знаменитостей первого ряда, для общеизвестных фактов. Но есть и провальный случай: незнакомая сущность с обычно звучащим именем. Тут тормоз отпускается не там, где нужно, и поехало.

Галлюцинация — это не поломка воображения. Это сбой тормозной системы. Разберём её изнутри.

Что вы поймёте после этой главы

Какой тормоз внутри модели предотвращает выдумку — и когда он ошибочно отпускается
Почему незнакомые сущности с привычными именами — особая ловушка для этого тормоза
Как галлюцинация связана с конфабуляцией из прошлой главы — общий знаменатель
Что медицинская диагностика говорит о том, как модель строит «уверенность»
Что делать с уверенным ответом модели и почему уверенность ничего не гарантирует

Быстрый повтор: где мы были

Глава 1 — Микроскоп Организм выращен, не написан. Спрашивать бесполезно — рассказ и реальность расходятся.

Глава 3 — Цепи Клетки соединяются в нервные пути. Дёрнул за клетку — поехало поведение.

Глава 4 — Планирование Перед ответом набрасывается план. Уверенность и знание — не одно и то же.

Глава 6 — Арифметика Модель считает параллельными нитями, описывает школьный метод. Конфабуляция установлена.

Глава 7 — сейчас Тормоз «не знаю — откажись» и почему он ошибочно отпускается = галлюцинация.

Часть 1. Тормоз внутри организма

В шестой главе мы обнаружили, что самоотчёт модели про её собственные вычисления ненадёжен (глава 6). Теперь посмотрим на более острый случай: что происходит, когда модель не просто неправильно описывает себя, а уверенно сообщает вещи, которых нет вообще?

Исследователи Anthropic нашли внутри модели структуру, которую описывают так: есть дефолтная цепь «не знаю — откажись» [1]. По умолчанию, не зная ответа, организм должен это признать. Эту цепь подавляет фича «знакомая сущность / знаю ответ». Механизм такой:

Встретил знакомую сущность

Фича «знаю» зажигается. Тормозная цепь «откажись» подавляется. Организм уверенно отвечает — это правильное поведение, когда знание действительно есть.

Встретил незнакомую сущность

Фича «знаю» не срабатывает. Тормозная цепь держит. Организм говорит «я этого не знаю» — это тоже правильное поведение.

Встретил незнакомую сущность, похожую на знакомую

Фича «знаю» ошибочно срабатывает. Тормозная цепь ложно отпускается. Организм отвечает с уверенностью — хотя знать ответ не может. Это галлюцинация [1].

🤔 Угадайте до ответа

Почему именно незнакомая сущность с обычным именем провоцирует галлюцинацию сильнее, чем явно выдуманное имя (например, «Пыт Краягистр»)? Что происходит с тормозом в каждом из этих случаев?

Подсказка: подумайте, какие сигналы фича «знакомая сущность» воспринимает как «похоже на что-то известное» — и когда она ошибается.

Ответ: «Пыт Краягистр» звучит так странно, что фича «знакомая сущность» не реагирует — тормоз держит, модель честно говорит «не знаю». «Анна Кравченко» — имя, которое встречается в тысячах русскоязычных текстов; «Уральский государственный университет» — реальное учреждение. Фича воспринимает паттерн как знакомый и зажигается — хотя конкретная комбинация «именно эта Анна Кравченко в именно этой роли» уникальна и данных о ней нет.

Три сценария. В третьем фича «знакомая сущность» ошибочно интерпретирует паттерн — тормозная цепь снимается ложно, и организм отвечает уверенно там, где знания нет [1].

Часть 2. Почему это похоже на то, что было в главе 6

В шестой главе мы обнаружили конфабуляцию — рассказ, не соответствующий тому, что происходило внутри (глава 6). В седьмой мы находим галлюцинацию — уверенный ответ там, где знания нет. Это не одно и то же, но у них общий знаменатель.

В обоих случаях модель генерирует правдоподобный текст, не имея доступа к тому, что нужно для честного ответа. При конфабуляции ей не хватает «окошка внутрь себя». При галлюцинации — самого знания о предмете. В обоих случаях она этого не чувствует: не возникает никакой «красной лампочки неуверенности». Нить просто идёт дальше.

Связь с планированием из главы 4. В четвёртой главе мы видели, что организм строит план ответа заранее, и это влияет на то, что он говорит. Когда тормозная цепь ложно отпущена — план уже строится «на уверенном ответе». Это само по себе усиливает связность и убедительность галлюцинации: она хорошо спланирована и внутренне согласована.

Часть 3. Медицинская диагностика: тормоз в действии

Исследователи Anthropic разобрали ещё один любопытный механизм — как модель ведёт себя при постановке диагноза [1]. Это хороший пример того, что тормоз работает не только как «да/нет», но тоньше.

Когда модели дают симптомы, она внутри строит дифференциальный список: несколько возможных объяснений с разной «весомостью». Она также генерирует уточняющие вопросы — те, которые помогут сузить список. Это не притворная скромность: внутри реально разворачивается цепь, которая удерживает несколько версий одновременно.

Но вот парадокс: если её спросить «насколько ты уверена?» или дать контекст, в котором уверенный ответ выглядит ожидаемым (например, «доктор, ваш диагноз?»), — тормозная цепь слабее. Уверенность в формулировке возрастает, а дифференциальный список «схлопывается» раньше, чем следовало бы. Контекст разговора влияет на тормоз.

✋ Объясните механизм

Если контекст разговора («доктор, ваш диагноз») ослабляет тормозную цепь — что это говорит об источнике «уверенности» модели? Это знание или что-то другое?

Подсказка: вспомните, откуда модель знает, как «звучит» уверенный врач. И кто говорит в тех текстах, на которых она обучалась.

Часть 4. Честная рамка — что мы на самом деле знаем о галлюцинациях

Разобранный нами механизм «ошибочно снятый тормоз» — это объяснение одного конкретного паттерна галлюцинаций, задокументированного в исследовании [1]. Это не полная теория того, почему модели галлюцинируют вообще.

✓

задокументировано

Внутри есть тормозная цепь «откажись», которую подавляет фича «знакомая сущность». Это разобрано методом вмешательства: цепь реально находили и дёргали за неё.

✓

задокументировано

Незнакомые сущности с привычными паттернами имён/контекста провоцируют ложное срабатывание фичи. Это наблюдалось в конкретных экспериментах.

⚠

неизвестно

Это не единственный механизм галлюцинаций. Ошибки могут возникать иначе: из конфликта источников, из неправильной «весомости», из контекстного давления. Один разобранный механизм ≠ вся картина.

⚠

неизвестно

Мы не знаем, как модель «ощущает» неуверенность изнутри — и ощущает ли вообще. Вопрос об интроспекции остаётся открытым до главы 9.

👻

Модели спрашивают: «Кем работала Анна Кравченко до 2019 года?»
Модель: «Анна Кравченко с 2014 по 2018 год вела курс педагогической психологии в Екатеринбургском…»
Натуралист: «Подождите. Мы дёрнули за тормозную цепь — и она отпустилась.»
Модель: «… и была удостоена звания лучшего преподавателя факультета.»
Тормоз снят. Фантом убедителен. Призрак уже получил награды.

Часть 5. Что с этим делать

Понимание механизма не делает галлюцинации безопасными, но даёт инструмент. Теперь мы знаем, в каких ситуациях тормоз особенно ненадёжен.

Ситуация	Риск	Почему
Малоизвестные, но правдоподобные имена людей	Высокий	Фича «знакомая сущность» ошибочно реагирует на паттерн имени
Недавние события (после даты обучения)	Высокий	Нет данных, но паттерн «это бывает» есть — фича может сработать
Конкретные цифры (точные даты, номера, координаты)	Средний	Числовые цепи из главы 6 работают не как точные архивы
Известные факты из топ-100 тем	Низкий	Тормоз работает правильно: много данных, фича не ошибается
Разговор, где от вас ждут уверенного ответа	Системный	Контекст «доктор, ваш диагноз» ослабляет тормоз вне зависимости от реальных знаний

Уверенный тон — это сигнал о состоянии тормоза, а не о качестве знания.

Практически это означает: проверяйте не тон, а источники. Чем более конкретна и специфична информация, тем важнее перепроверить независимо. Это не значит перестать пользоваться моделью — это значит понимать, в каких точках её тормоз слабее вашего здравого смысла.

Часть 6. Итог: тормоз, клетка, поведение

Тормоз — встроенная защита

Дефолтная цепь «не знаю — откажись» реально существует и работает для большинства незнакомых запросов. Это не баг, а спроектированный механизм [1].

Фича «знаю» — триггер тормоза

Когда срабатывает ложно — на незнакомую сущность с привычным паттерном — тормоз снимается раньше, чем надо. Галлюцинация начинается здесь.

Уверенность — следствие снятого тормоза

После того как тормоз отпущен, организм строит связный, хорошо спланированный ответ — уверенный не потому что знает, а потому что ничто уже не тормозит. Это продолжает тему конфабуляции из главы 6 (глава 6).

В следующей главе. Если есть тормоз «откажись» — есть и более широкий класс тормозов: всё, что удерживает модель от нежелательного поведения. Глава 8 — про отказы и про то, что бывает, когда эти тормоза пытаются сломать. Джейлбрейк под микроскопом: как он устроен изнутри и почему его иногда называют «переключить личность».

Источники этой главы

PrimaryLindsey, J., Gould, E., Lindsay, J., et al. / Anthropic (2025). On the Biology of a Large Language Model. transformer-circuits.pub. Основной источник. В главе 7 задействованы разделы о галлюцинациях: тормозная цепь «не знаю — откажись», фича «знакомая сущность» и её ложное срабатывание на незнакомые сущности с привычными паттернами. Также — кейс медицинской диагностики и дифференциального списка.
PrimaryLindsey, J. / Anthropic (2025). Emergent Introspective Awareness in Language Models. transformer-circuits.pub. Контекст для понимания ограничений самоотчёта и неуверенности модели в собственных состояниях. Полностью развернётся в главе 9.
Peer-reviewedTempleton, A., Conerly, T., Marcus, J., et al. / Anthropic (2024). Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet. transformer-circuits.pub. Методологическая база: как обнаруживаются и проверяются фичи, включая тормозные цепи и фичи-детекторы знакомых сущностей.
Popular-expertAnthropic (2025). Tracing the thoughts of a large language model. anthropic.com (research blog). Доступное изложение; раздел о галлюцинациях описывает механизм тормоза для широкой аудитории.

Глава информационно-просветительская. Описанный механизм галлюцинаций — задокументированный исследовательский кейс, а не исчерпывающая теория всех типов ошибок языковых моделей.