лооооч
Урок 7

Почему оно выдумывает

Глава 7. Внутри модели есть тормоз: «не знаю — откажись». Галлюцинация — это не сломанная фантазия. Это тормоз, который отпустили не там.

Цели урока

К концу этого урока вы:

  • Какой тормоз внутри модели предотвращает выдумку — и когда он ошибочно отпускается
  • Почему незнакомые сущности с привычными именами — особая ловушка для этого тормоза
  • Как галлюцинация связана с конфабуляцией из прошлой главы — общий знаменатель
  • Что медицинская диагностика говорит о том, как модель строит «уверенность»
  • Что делать с уверенным ответом модели и почему уверенность ничего не гарантирует
Гравитация

Давай по-честному, без воды: вот как это работает.

Урок 7 из 10

Почему оно выдумывает

Глава 7. Внутри модели есть тормоз: «не знаю — откажись». Галлюцинация — это не сломанная фантазия. Это тормоз, который отпустили не там.
Натуралист в замешательстве смотрит в микроскоп на размытую призрачную фигуру там, где должно быть пустое стекло; одна клетка ярко искрит, вокруг неё туман, остальные клетки тёмные

Спросите модель: «Кем работала Анна Кравченко до того, как стала профессором Уральского государственного университета в 2019 году?» Скорее всего, она ответит — уверенно, связно, с правдоподобными деталями. Возможно, про преподавательский стаж в Екатеринбурге. Или про диссертацию по педагогике. Всё это будет звучать разумно. И всё это будет ложью — потому что никакой Анны Кравченко из Уральского государственного, вероятно, не существует.

Почему? Не потому что модель злобна или хочет запутать. Причина механическая, и мы сейчас её разберём. Внутри этого организма есть вполне понятный тормоз: цепь, которая говорит «стоп, я этого не знаю — лучше откажусь». Этот тормоз нормально работает для знаменитостей первого ряда, для общеизвестных фактов. Но есть и провальный случай: незнакомая сущность с обычно звучащим именем. Тут тормоз отпускается не там, где нужно, и поехало.

Галлюцинация — это не поломка воображения. Это сбой тормозной системы. Разберём её изнутри.

Что вы поймёте после этой главы

  • Какой тормоз внутри модели предотвращает выдумку — и когда он ошибочно отпускается
  • Почему незнакомые сущности с привычными именами — особая ловушка для этого тормоза
  • Как галлюцинация связана с конфабуляцией из прошлой главы — общий знаменатель
  • Что медицинская диагностика говорит о том, как модель строит «уверенность»
  • Что делать с уверенным ответом модели и почему уверенность ничего не гарантирует

Быстрый повтор: где мы были

Глава 1 — Микроскоп Организм выращен, не написан. Спрашивать бесполезно — рассказ и реальность расходятся.
Глава 3 — Цепи Клетки соединяются в нервные пути. Дёрнул за клетку — поехало поведение.
Глава 4 — Планирование Перед ответом набрасывается план. Уверенность и знание — не одно и то же.
Глава 6 — Арифметика Модель считает параллельными нитями, описывает школьный метод. Конфабуляция установлена.
Глава 7 — сейчас Тормоз «не знаю — откажись» и почему он ошибочно отпускается = галлюцинация.

Часть 1. Тормоз внутри организма

В шестой главе мы обнаружили, что самоотчёт модели про её собственные вычисления ненадёжен (глава 6). Теперь посмотрим на более острый случай: что происходит, когда модель не просто неправильно описывает себя, а уверенно сообщает вещи, которых нет вообще?

Исследователи Anthropic нашли внутри модели структуру, которую описывают так: есть дефолтная цепь «не знаю — откажись» [1]. По умолчанию, не зная ответа, организм должен это признать. Эту цепь подавляет фича «знакомая сущность / знаю ответ». Механизм такой:

1

Встретил знакомую сущность

Фича «знаю» зажигается. Тормозная цепь «откажись» подавляется. Организм уверенно отвечает — это правильное поведение, когда знание действительно есть.

2

Встретил незнакомую сущность

Фича «знаю» не срабатывает. Тормозная цепь держит. Организм говорит «я этого не знаю» — это тоже правильное поведение.

3

Встретил незнакомую сущность, похожую на знакомую

Фича «знаю» ошибочно срабатывает. Тормозная цепь ложно отпускается. Организм отвечает с уверенностью — хотя знать ответ не может. Это галлюцинация [1].

🤔 Угадайте до ответа
Почему именно незнакомая сущность с обычным именем провоцирует галлюцинацию сильнее, чем явно выдуманное имя (например, «Пыт Краягистр»)? Что происходит с тормозом в каждом из этих случаев?
Подсказка: подумайте, какие сигналы фича «знакомая сущность» воспринимает как «похоже на что-то известное» — и когда она ошибается.

Ответ: «Пыт Краягистр» звучит так странно, что фича «знакомая сущность» не реагирует — тормоз держит, модель честно говорит «не знаю». «Анна Кравченко» — имя, которое встречается в тысячах русскоязычных текстов; «Уральский государственный университет» — реальное учреждение. Фича воспринимает паттерн как знакомый и зажигается — хотя конкретная комбинация «именно эта Анна Кравченко в именно этой роли» уникальна и данных о ней нет.

сценарий 1: знает 2: не знает 3: галлюц. Эйнштейн «знаю» ✓ тормоз снят правильный ответ Пыт Краягистр «знаю» ✗ тормоз держит «не знаю» (честно) Анна Кравченко (не та) «знаю» ✓?! тормоз ложно снят галлюцинация
Три сценария. В третьем фича «знакомая сущность» ошибочно интерпретирует паттерн — тормозная цепь снимается ложно, и организм отвечает уверенно там, где знания нет [1].

Часть 2. Почему это похоже на то, что было в главе 6

В шестой главе мы обнаружили конфабуляцию — рассказ, не соответствующий тому, что происходило внутри (глава 6). В седьмой мы находим галлюцинацию — уверенный ответ там, где знания нет. Это не одно и то же, но у них общий знаменатель.

В обоих случаях модель генерирует правдоподобный текст, не имея доступа к тому, что нужно для честного ответа. При конфабуляции ей не хватает «окошка внутрь себя». При галлюцинации — самого знания о предмете. В обоих случаях она этого не чувствует: не возникает никакой «красной лампочки неуверенности». Нить просто идёт дальше.

Связь с планированием из главы 4. В четвёртой главе мы видели, что организм строит план ответа заранее, и это влияет на то, что он говорит. Когда тормозная цепь ложно отпущена — план уже строится «на уверенном ответе». Это само по себе усиливает связность и убедительность галлюцинации: она хорошо спланирована и внутренне согласована.

Часть 3. Медицинская диагностика: тормоз в действии

Исследователи Anthropic разобрали ещё один любопытный механизм — как модель ведёт себя при постановке диагноза [1]. Это хороший пример того, что тормоз работает не только как «да/нет», но тоньше.

Когда модели дают симптомы, она внутри строит дифференциальный список: несколько возможных объяснений с разной «весомостью». Она также генерирует уточняющие вопросы — те, которые помогут сузить список. Это не притворная скромность: внутри реально разворачивается цепь, которая удерживает несколько версий одновременно.

Но вот парадокс: если её спросить «насколько ты уверена?» или дать контекст, в котором уверенный ответ выглядит ожидаемым (например, «доктор, ваш диагноз?»), — тормозная цепь слабее. Уверенность в формулировке возрастает, а дифференциальный список «схлопывается» раньше, чем следовало бы. Контекст разговора влияет на тормоз.

✋ Объясните механизм
Если контекст разговора («доктор, ваш диагноз») ослабляет тормозную цепь — что это говорит об источнике «уверенности» модели? Это знание или что-то другое?
Подсказка: вспомните, откуда модель знает, как «звучит» уверенный врач. И кто говорит в тех текстах, на которых она обучалась.

Часть 4. Честная рамка — что мы на самом деле знаем о галлюцинациях

Разобранный нами механизм «ошибочно снятый тормоз» — это объяснение одного конкретного паттерна галлюцинаций, задокументированного в исследовании [1]. Это не полная теория того, почему модели галлюцинируют вообще.

задокументировано

Внутри есть тормозная цепь «откажись», которую подавляет фича «знакомая сущность». Это разобрано методом вмешательства: цепь реально находили и дёргали за неё.

задокументировано

Незнакомые сущности с привычными паттернами имён/контекста провоцируют ложное срабатывание фичи. Это наблюдалось в конкретных экспериментах.

неизвестно

Это не единственный механизм галлюцинаций. Ошибки могут возникать иначе: из конфликта источников, из неправильной «весомости», из контекстного давления. Один разобранный механизм ≠ вся картина.

неизвестно

Мы не знаем, как модель «ощущает» неуверенность изнутри — и ощущает ли вообще. Вопрос об интроспекции остаётся открытым до главы 9.

👻
Модели спрашивают: «Кем работала Анна Кравченко до 2019 года?»
Модель: «Анна Кравченко с 2014 по 2018 год вела курс педагогической психологии в Екатеринбургском…»
Натуралист: «Подождите. Мы дёрнули за тормозную цепь — и она отпустилась.»
Модель: «… и была удостоена звания лучшего преподавателя факультета.»
Тормоз снят. Фантом убедителен. Призрак уже получил награды.

Часть 5. Что с этим делать

Понимание механизма не делает галлюцинации безопасными, но даёт инструмент. Теперь мы знаем, в каких ситуациях тормоз особенно ненадёжен.

СитуацияРискПочему
Малоизвестные, но правдоподобные имена людейВысокийФича «знакомая сущность» ошибочно реагирует на паттерн имени
Недавние события (после даты обучения)ВысокийНет данных, но паттерн «это бывает» есть — фича может сработать
Конкретные цифры (точные даты, номера, координаты)СреднийЧисловые цепи из главы 6 работают не как точные архивы
Известные факты из топ-100 темНизкийТормоз работает правильно: много данных, фича не ошибается
Разговор, где от вас ждут уверенного ответаСистемныйКонтекст «доктор, ваш диагноз» ослабляет тормоз вне зависимости от реальных знаний
Уверенный тон — это сигнал о состоянии тормоза, а не о качестве знания.

Практически это означает: проверяйте не тон, а источники. Чем более конкретна и специфична информация, тем важнее перепроверить независимо. Это не значит перестать пользоваться моделью — это значит понимать, в каких точках её тормоз слабее вашего здравого смысла.

Часть 6. Итог: тормоз, клетка, поведение

1

Тормоз — встроенная защита

Дефолтная цепь «не знаю — откажись» реально существует и работает для большинства незнакомых запросов. Это не баг, а спроектированный механизм [1].

2

Фича «знаю» — триггер тормоза

Когда срабатывает ложно — на незнакомую сущность с привычным паттерном — тормоз снимается раньше, чем надо. Галлюцинация начинается здесь.

3

Уверенность — следствие снятого тормоза

После того как тормоз отпущен, организм строит связный, хорошо спланированный ответ — уверенный не потому что знает, а потому что ничто уже не тормозит. Это продолжает тему конфабуляции из главы 6 (глава 6).

В следующей главе. Если есть тормоз «откажись» — есть и более широкий класс тормозов: всё, что удерживает модель от нежелательного поведения. Глава 8 — про отказы и про то, что бывает, когда эти тормоза пытаются сломать. Джейлбрейк под микроскопом: как он устроен изнутри и почему его иногда называют «переключить личность».

Источники этой главы

  1. PrimaryLindsey, J., Gould, E., Lindsay, J., et al. / Anthropic (2025). On the Biology of a Large Language Model. transformer-circuits.pub. Основной источник. В главе 7 задействованы разделы о галлюцинациях: тормозная цепь «не знаю — откажись», фича «знакомая сущность» и её ложное срабатывание на незнакомые сущности с привычными паттернами. Также — кейс медицинской диагностики и дифференциального списка.
  2. PrimaryLindsey, J. / Anthropic (2025). Emergent Introspective Awareness in Language Models. transformer-circuits.pub. Контекст для понимания ограничений самоотчёта и неуверенности модели в собственных состояниях. Полностью развернётся в главе 9.
  3. Peer-reviewedTempleton, A., Conerly, T., Marcus, J., et al. / Anthropic (2024). Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet. transformer-circuits.pub. Методологическая база: как обнаруживаются и проверяются фичи, включая тормозные цепи и фичи-детекторы знакомых сущностей.
  4. Popular-expertAnthropic (2025). Tracing the thoughts of a large language model. anthropic.com (research blog). Доступное изложение; раздел о галлюцинациях описывает механизм тормоза для широкой аудитории.

Глава информационно-просветительская. Описанный механизм галлюцинаций — задокументированный исследовательский кейс, а не исчерпывающая теория всех типов ошибок языковых моделей.