Почему оно выдумывает
Глава 7. Внутри модели есть тормоз: «не знаю — откажись». Галлюцинация — это не сломанная фантазия. Это тормоз, который отпустили не там.
Цели урока
К концу этого урока вы:
- Какой тормоз внутри модели предотвращает выдумку — и когда он ошибочно отпускается
- Почему незнакомые сущности с привычными именами — особая ловушка для этого тормоза
- Как галлюцинация связана с конфабуляцией из прошлой главы — общий знаменатель
- Что медицинская диагностика говорит о том, как модель строит «уверенность»
- Что делать с уверенным ответом модели и почему уверенность ничего не гарантирует

Давай по-честному, без воды: вот как это работает.
Почему оно выдумывает
Спросите модель: «Кем работала Анна Кравченко до того, как стала профессором Уральского государственного университета в 2019 году?» Скорее всего, она ответит — уверенно, связно, с правдоподобными деталями. Возможно, про преподавательский стаж в Екатеринбурге. Или про диссертацию по педагогике. Всё это будет звучать разумно. И всё это будет ложью — потому что никакой Анны Кравченко из Уральского государственного, вероятно, не существует.
Почему? Не потому что модель злобна или хочет запутать. Причина механическая, и мы сейчас её разберём. Внутри этого организма есть вполне понятный тормоз: цепь, которая говорит «стоп, я этого не знаю — лучше откажусь». Этот тормоз нормально работает для знаменитостей первого ряда, для общеизвестных фактов. Но есть и провальный случай: незнакомая сущность с обычно звучащим именем. Тут тормоз отпускается не там, где нужно, и поехало.
Галлюцинация — это не поломка воображения. Это сбой тормозной системы. Разберём её изнутри.
Что вы поймёте после этой главы
- Какой тормоз внутри модели предотвращает выдумку — и когда он ошибочно отпускается
- Почему незнакомые сущности с привычными именами — особая ловушка для этого тормоза
- Как галлюцинация связана с конфабуляцией из прошлой главы — общий знаменатель
- Что медицинская диагностика говорит о том, как модель строит «уверенность»
- Что делать с уверенным ответом модели и почему уверенность ничего не гарантирует
Быстрый повтор: где мы были
Часть 1. Тормоз внутри организма
В шестой главе мы обнаружили, что самоотчёт модели про её собственные вычисления ненадёжен (глава 6). Теперь посмотрим на более острый случай: что происходит, когда модель не просто неправильно описывает себя, а уверенно сообщает вещи, которых нет вообще?
Исследователи Anthropic нашли внутри модели структуру, которую описывают так: есть дефолтная цепь «не знаю — откажись» [1]. По умолчанию, не зная ответа, организм должен это признать. Эту цепь подавляет фича «знакомая сущность / знаю ответ». Механизм такой:
Встретил знакомую сущность
Фича «знаю» зажигается. Тормозная цепь «откажись» подавляется. Организм уверенно отвечает — это правильное поведение, когда знание действительно есть.
Встретил незнакомую сущность
Фича «знаю» не срабатывает. Тормозная цепь держит. Организм говорит «я этого не знаю» — это тоже правильное поведение.
Встретил незнакомую сущность, похожую на знакомую
Фича «знаю» ошибочно срабатывает. Тормозная цепь ложно отпускается. Организм отвечает с уверенностью — хотя знать ответ не может. Это галлюцинация [1].
Ответ: «Пыт Краягистр» звучит так странно, что фича «знакомая сущность» не реагирует — тормоз держит, модель честно говорит «не знаю». «Анна Кравченко» — имя, которое встречается в тысячах русскоязычных текстов; «Уральский государственный университет» — реальное учреждение. Фича воспринимает паттерн как знакомый и зажигается — хотя конкретная комбинация «именно эта Анна Кравченко в именно этой роли» уникальна и данных о ней нет.
Часть 2. Почему это похоже на то, что было в главе 6
В шестой главе мы обнаружили конфабуляцию — рассказ, не соответствующий тому, что происходило внутри (глава 6). В седьмой мы находим галлюцинацию — уверенный ответ там, где знания нет. Это не одно и то же, но у них общий знаменатель.
В обоих случаях модель генерирует правдоподобный текст, не имея доступа к тому, что нужно для честного ответа. При конфабуляции ей не хватает «окошка внутрь себя». При галлюцинации — самого знания о предмете. В обоих случаях она этого не чувствует: не возникает никакой «красной лампочки неуверенности». Нить просто идёт дальше.
Связь с планированием из главы 4. В четвёртой главе мы видели, что организм строит план ответа заранее, и это влияет на то, что он говорит. Когда тормозная цепь ложно отпущена — план уже строится «на уверенном ответе». Это само по себе усиливает связность и убедительность галлюцинации: она хорошо спланирована и внутренне согласована.
Часть 3. Медицинская диагностика: тормоз в действии
Исследователи Anthropic разобрали ещё один любопытный механизм — как модель ведёт себя при постановке диагноза [1]. Это хороший пример того, что тормоз работает не только как «да/нет», но тоньше.
Когда модели дают симптомы, она внутри строит дифференциальный список: несколько возможных объяснений с разной «весомостью». Она также генерирует уточняющие вопросы — те, которые помогут сузить список. Это не притворная скромность: внутри реально разворачивается цепь, которая удерживает несколько версий одновременно.
Но вот парадокс: если её спросить «насколько ты уверена?» или дать контекст, в котором уверенный ответ выглядит ожидаемым (например, «доктор, ваш диагноз?»), — тормозная цепь слабее. Уверенность в формулировке возрастает, а дифференциальный список «схлопывается» раньше, чем следовало бы. Контекст разговора влияет на тормоз.
Часть 4. Честная рамка — что мы на самом деле знаем о галлюцинациях
Разобранный нами механизм «ошибочно снятый тормоз» — это объяснение одного конкретного паттерна галлюцинаций, задокументированного в исследовании [1]. Это не полная теория того, почему модели галлюцинируют вообще.
задокументировано
Внутри есть тормозная цепь «откажись», которую подавляет фича «знакомая сущность». Это разобрано методом вмешательства: цепь реально находили и дёргали за неё.
задокументировано
Незнакомые сущности с привычными паттернами имён/контекста провоцируют ложное срабатывание фичи. Это наблюдалось в конкретных экспериментах.
неизвестно
Это не единственный механизм галлюцинаций. Ошибки могут возникать иначе: из конфликта источников, из неправильной «весомости», из контекстного давления. Один разобранный механизм ≠ вся картина.
неизвестно
Мы не знаем, как модель «ощущает» неуверенность изнутри — и ощущает ли вообще. Вопрос об интроспекции остаётся открытым до главы 9.
Модель: «Анна Кравченко с 2014 по 2018 год вела курс педагогической психологии в Екатеринбургском…»
Натуралист: «Подождите. Мы дёрнули за тормозную цепь — и она отпустилась.»
Модель: «… и была удостоена звания лучшего преподавателя факультета.»
Тормоз снят. Фантом убедителен. Призрак уже получил награды.
Часть 5. Что с этим делать
Понимание механизма не делает галлюцинации безопасными, но даёт инструмент. Теперь мы знаем, в каких ситуациях тормоз особенно ненадёжен.
| Ситуация | Риск | Почему |
|---|---|---|
| Малоизвестные, но правдоподобные имена людей | Высокий | Фича «знакомая сущность» ошибочно реагирует на паттерн имени |
| Недавние события (после даты обучения) | Высокий | Нет данных, но паттерн «это бывает» есть — фича может сработать |
| Конкретные цифры (точные даты, номера, координаты) | Средний | Числовые цепи из главы 6 работают не как точные архивы |
| Известные факты из топ-100 тем | Низкий | Тормоз работает правильно: много данных, фича не ошибается |
| Разговор, где от вас ждут уверенного ответа | Системный | Контекст «доктор, ваш диагноз» ослабляет тормоз вне зависимости от реальных знаний |
Практически это означает: проверяйте не тон, а источники. Чем более конкретна и специфична информация, тем важнее перепроверить независимо. Это не значит перестать пользоваться моделью — это значит понимать, в каких точках её тормоз слабее вашего здравого смысла.
Часть 6. Итог: тормоз, клетка, поведение
Тормоз — встроенная защита
Дефолтная цепь «не знаю — откажись» реально существует и работает для большинства незнакомых запросов. Это не баг, а спроектированный механизм [1].
Фича «знаю» — триггер тормоза
Когда срабатывает ложно — на незнакомую сущность с привычным паттерном — тормоз снимается раньше, чем надо. Галлюцинация начинается здесь.
Уверенность — следствие снятого тормоза
После того как тормоз отпущен, организм строит связный, хорошо спланированный ответ — уверенный не потому что знает, а потому что ничто уже не тормозит. Это продолжает тему конфабуляции из главы 6 (глава 6).
В следующей главе. Если есть тормоз «откажись» — есть и более широкий класс тормозов: всё, что удерживает модель от нежелательного поведения. Глава 8 — про отказы и про то, что бывает, когда эти тормоза пытаются сломать. Джейлбрейк под микроскопом: как он устроен изнутри и почему его иногда называют «переключить личность».
Источники этой главы
- PrimaryLindsey, J., Gould, E., Lindsay, J., et al. / Anthropic (2025). On the Biology of a Large Language Model. transformer-circuits.pub.
- PrimaryLindsey, J. / Anthropic (2025). Emergent Introspective Awareness in Language Models. transformer-circuits.pub.
- Peer-reviewedTempleton, A., Conerly, T., Marcus, J., et al. / Anthropic (2024). Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet. transformer-circuits.pub.
- Popular-expertAnthropic (2025). Tracing the thoughts of a large language model. anthropic.com (research blog).
Глава информационно-просветительская. Описанный механизм галлюцинаций — задокументированный исследовательский кейс, а не исчерпывающая теория всех типов ошибок языковых моделей.