Урок 6

Как оно считает

Глава 6. Модель решает задачи, которые в школе делают «столбиком», — но никакого столбика внутри нет. Есть нити, которые идут параллельно. Спросишь, как считала, — расскажет про столбик.

Цели урока

К концу этого урока вы:

Как модель обрабатывает числа изнутри — параллельными нитями, а не последовательным столбиком
Почему те же арифметические «ткани» всплывают в астрономических данных и академических цитатах
Что такое конфабуляция и почему она возникает именно тут — когда знаешь ответ, но не знаешь, как пришёл к нему
Почему «знать про метод» и «пользоваться методом» — две совершенно разные вещи
Что всё это говорит о надёжности самоотчёта модели в целом

Так. Вот этот момент не проскакивай, он ключевой.

0:00 / 0:00

Натуралист разглядывает в микроскоп светящиеся параллельные нити-счёты, которые тянутся внутри полупрозрачного организма; нити разного цвета, часть ярче, часть тоньше, как живые

Вот парадокс, который легко пропустить. Модель правильно складывает большие числа — скажем, 47 382 + 68 219. И если попросить её объяснить, как она это делала, она уверенно расскажет: «единицы, перенос, десятки, снова перенос» — аккуратно, по шагам, точно так, как учат в третьем классе. Звучит разумно. Вот только это неправда.

Не ложь в смысле обмана — модель не притворяется. Просто внутри не было никакого столбика. Исследователи заглянули внутрь и обнаружили кое-что другое: параллельные нити, которые прикидывают величину и хвост числа одновременно, независимо, не дожидаясь друг друга [1]. Организм считает одним способом, а рассказывает о другом. Мы обещали поймать его на этом ещё в первой главе — вот он, пойман.

Это не просто курьёз. Это указатель на что-то важное про устройство этого существа: его поведение и его самоотчёт разведены. Оно не заглядывает в себя, чтобы ответить на вопрос «как ты считал?» — оно генерирует правдоподобный рассказ о том, каким мог бы быть этот подсчёт. Что происходит внутри на самом деле — это предмет микроскопа, а не опроса.

Что вы поймёте после этой главы

Как модель обрабатывает числа изнутри — параллельными нитями, а не последовательным столбиком
Почему те же арифметические «ткани» всплывают в астрономических данных и академических цитатах
Что такое конфабуляция и почему она возникает именно тут — когда знаешь ответ, но не знаешь, как пришёл к нему
Почему «знать про метод» и «пользоваться методом» — две совершенно разные вещи
Что всё это говорит о надёжности самоотчёта модели в целом

Быстрый повтор: где мы были

Глава 1 — Микроскоп Организм выращен, а не написан. Спросить нельзя — врёт. Нужен микроскоп.

Глава 2 — Клетка-фича Один нейрон думает сразу о нескольких вещах (суперпозиция). Чистая клетка — редкость.

Глава 3 — Цепи Фичи соединяются в нервные пути. Дёрнули за клетку «Техас» — поехал ответ про столицу.

Глава 4 — Планирование Перед ответом организм набрасывает план — будущие слова влияют на текущие.

Глава 5 — Общие механизмы Одни и те же «ткани» работают в языке, логике, переводе. Универсальные узлы внутри.

Глава 6 — сейчас Арифметика изнутри: параллельные нити вместо столбика. И конфабуляция как симптом.

Часть 1. Внутри числа: две нити вместо одной

Помните, в пятой главе мы обнаружили, что одни и те же механизмы — одни «ткани» организма — работают в совершенно разных задачах [5]? Арифметика — самый наглядный пример этого принципа. Возьмём простейший случай: модель складывает два числа. Что происходит внутри?

Исследователи прошлись по цепям, которые активируются во время вычисления, и обнаружили любопытное разделение труда [1]. Упрощённо: есть цепь, которая прикидывает общий порядок числа — «это что-то около ста тысяч» — и есть отдельная цепь, которая работает с последними цифрами, «хвостом» числа. Они идут не по очереди, а параллельно.

🤔 Угадайте до ответа

Если модель обрабатывает «общий порядок» и «хвост числа» двумя отдельными параллельными цепями — что будет более точным при сложении: большие промежуточные числа или последние цифры результата? Почему?

Подсказка: подумайте, у какой из двух задач меньше «вариантов ответа» и на какой проще натренироваться.

Ответ: с последними цифрами модель справляется точнее — там конечное множество вариантов (0–9), и цепь-специалист хорошо обучена. С «порядком числа» точность ниже: там непрерывный диапазон, прикидка грубее. Это не случайность архитектуры — это логика специализации. Живой организм, у которого нет бумаги и ручки, вырабатывает те трюки, которые работают при его устройстве.

Упрощённая схема арифметических цепей. Две нити идут одновременно: одна прикидывает порядок, другая уточняет хвост числа. Никакого «столбика» не существует [1].

Часть 2. Одна ткань — три разные задачи

Самое интересное начинается, когда смотришь шире. Та же арифметическая «ткань» — те же типы цепей для «порядка» и «хвоста» — всплывает в задачах, которые на вид с арифметикой никак не связаны [1].

Например, в астрономических данных. Когда модель оперирует расстояниями до звёзд, размерами планет, возрастом Вселенной — там нет «2 + 2», но есть числа разных порядков величины, и работать с ними нужно примерно теми же способами. Организм не заводит «отдел астрономии» — он пользуется тем, что уже есть.

Или в академических цитатах. Когда кто-то просит модель воспроизвести номер страницы, том журнала, год публикации — это снова числа, у которых есть «порядок» и «хвост». Это объясняет любопытный паттерн: год публикации (четыре цифры, конечное множество разумных вариантов) модель воспроизводит точнее, чем номер тома или страницы (там диапазон непредсказуем).

Важная оговорка. Это разобранные примеры из конкретного исследования [1], а не полное объяснение того, как модель работает с числами вообще. Арифметика в реальных ответах складывается из многих факторов. Считайте это вскрытием одного образца — не рентгеном всего устройства.

Почему организм так устроен — зачем ему универсальные «числовые ткани» вместо специализированных отделов? Вспомним главу 5 [5]: универсальные механизмы выгодны, когда обучался на всём подряд. Если одна цепь умеет работать с «порядком числа», она работает с этим понятием везде — в математике, в датах, в координатах, в телефонных номерах. Писать заново для каждой темы было бы расточительством ресурсов — и это была бы совсем другая архитектура.

Часть 3. Конфабуляция: когда рассказ не совпадает с действием

Вернёмся к парадоксу из начала главы. Модель считает параллельными нитями. Когда её спрашивают «как ты это посчитала?» — она рассказывает про столбик. Откуда берётся этот рассказ?

Он берётся из того же места, откуда берётся любой её текст: из обучения. В текстах, на которых её учили, люди объясняют сложение именно так — единицы, перенос, десятки. Модель хорошо знает, как рассказывают о сложении. Она гораздо хуже знает (а точнее, вообще не знает), как она сама это делает изнутри. Поэтому когда её спрашивают, она воспроизводит правдоподобный рассказ — а не честный отчёт.

Это называют конфабуляцией — уверенным, связным рассказом, который не соответствует тому, что происходило на самом деле. Это не намеренная ложь. Просто у модели нет «окошка внутрь себя». Она не умеет сказать: «подождите, дайте загляну в свои цепи». Она генерирует ответ про свои цепи так же, как генерирует ответ про что угодно: выбирает следующее слово, опираясь на всё, что знает. А знает она больше всего — про школьный метод.

Знать про метод и пользоваться методом — это два разных навыка, которые у этого существа живут в разных местах.

✋ Объясните своими словами

Почему «знать про метод» не означает «пользоваться методом»? Придумайте аналогию из своей жизни — где вы сами знаете, как что-то устроено в теории, но делаете это совсем иначе на практике.

Подсказка: это не недостаток именно ИИ — у людей тоже есть разрыв между декларативным знанием («знаю, как надо») и процедурным действием («делаю автоматически»). Где вы его замечали?

Часть 4. Что это значит для самоотчёта модели

Арифметический случай — самый наглядный, потому что тут можно сравнить. У нас есть «правильный» метод (столбик), модель его описывает, и у нас есть данные о том, что внутри — не столбик. Несоответствие очевидно. Но задумайтесь: во скольких других случаях то же самое происходит, а мы не можем проверить, потому что там нет такой удобной точки сравнения?

Это прямо перекликается с хуком первой главы (глава 1): «дальше в курсе мы поймаем модель на том, как она складывает числа одним способом, а рассказывает, что складывала другим». Мы это сделали. Но теперь вопрос шире: что происходит, когда модель объясняет своё рассуждение про историческое событие? Или когда советует что-то вам лично? Или когда уверяет, что уверена?

В 2025 году исследователи Anthropic проверили, способна ли модель вообще честно «видеть» свои внутренние состояния — в том числе когда ей подсказывают чужую мысль и она принимает её за свою [2]. Результат: иногда модель замечает несоответствие, иногда — нет. Ненадёжность самоотчёта оказалась системной, а не случайной. Мы вернёмся к этому в главе 9.

Дальше в курсе — глава 9 целиком посвящена вопросу: насколько интроспекция модели достоверна? Поймём, где самоотчёт ближе к правде, а где — красивое изложение чужих школьных учебников.

🧮

Модель спрашивают: «Как ты посчитала 47 382 + 68 219?»
Модель: «Сначала единицы: 2 + 9 = 11, пишем 1, перенос…»
Натуралист с микроскопом: «Хм. Внутри — параллельные нити.»
Модель: «…перенос, затем десятки: 8 + 1 + 1 = 10…»
Организм не слышит возражений. Он занят рассказом про столбик, которого у него нет.

Часть 5. Честная рамка: что мы на самом деле знаем

Прежде чем выходить из этой главы с большими обобщениями, поставим рамку — как мы делали начиная с первой главы (глава 1).

✓

что показано

В конкретных разобранных случаях внутри модели нашлись специализированные цепи для обработки «порядка» и «хвоста» числа, работающие параллельно. Это подтверждено методом вмешательства.

✓

что показано

Аналогичные числовые «ткани» обнаружены в астрономических данных и академических ссылках — признак универсального механизма, а не тематического «отдела».

⚠

чего пока нет

Это не полная теория арифметики в LLM. Это вскрытие отдельных образцов. Механизм может выглядеть иначе в других моделях, других задачах, других диапазонах чисел.

⚠

чего пока нет

Конфабуляция в самоотчёте — установленный факт для арифметики. Насколько широко она распространяется на другие типы объяснений — открытый вопрос.

Часть 6. Итог: дёрнули за нить — посмотрели правде в глаза

Что мы узнали про этот организм в шестой главе? Три вещи.

Параллельные нити, а не столбик

Арифметика внутри — это специализированные цепи «порядок» и «хвост», работающие одновременно. Никакого последовательного алгоритма, напоминающего школьный метод, внутри нет [1].

Одна ткань — много контекстов

Те же числовые цепи всплывают в астрономии, в цитатах, в датах. Организм не строит отдельный «арифметический отдел» для каждой темы.

Самоотчёт — не окошко внутрь

Рассказ о том, «как я считал», генерируется так же, как любой другой текст — из знания о том, как рассказывают. Не из наблюдения за своими цепями. Это конфабуляция, не обман.

Вместе эти три вещи дают предупреждение, которое пойдёт с нами в следующую главу: когда модель уверенно что-то утверждает — это не значит, что уверенность основана на том, о чём она говорит. Следующий шаг — разобраться, почему уверенность вообще отцепляется от знания. Почему оно выдумывает.

В следующей главе. Мы разберём механизм галлюцинаций — не как баг, а как сбой вполне понятного тормоза. Внутри модели есть цепь: «если не знаю — откажись». Её подавляет фича «знакомая сущность». Галлюцинация — это ровно момент, когда фича «знаю» ошибочно срабатывает там, где знания нет. Дёрнем за этот тормоз и посмотрим, что падает.

Источники этой главы

PrimaryLindsey, J., Gould, E., Lindsay, J., et al. / Anthropic (2025). On the Biology of a Large Language Model. transformer-circuits.pub. Основной источник всего курса. Глава 6 опирается на раздел об арифметических цепях: параллельные механизмы для «порядка» и «хвоста» числа, их обобщение на астрономические данные и академические ссылки. Авторы указывают на ограничения: это разобранные образцы, а не полная теория арифметики в модели.
PrimaryLindsey, J. / Anthropic (2025). Emergent Introspective Awareness in Language Models. transformer-circuits.pub. Исследование того, насколько модель способна достоверно «видеть» собственные внутренние состояния. Упоминается в контексте ограниченности самоотчёта; подробнее — в главе 9.
Peer-reviewedTempleton, A., Conerly, T., Marcus, J., et al. / Anthropic (2024). Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet. transformer-circuits.pub. Методологическая база: как находить и проверять отдельные фичи внутри модели. Контекст для понимания того, как исследователи «видят» арифметические цепи.
Popular-expertAnthropic (2025). Tracing the thoughts of a large language model. anthropic.com (research blog). Доступное изложение для широкой аудитории: как работает метод «графов атрибуции», включая примеры с числами и самоотчётом модели.

Глава информационно-просветительская. Описанные механизмы арифметики — это задокументированные исследовательские находки для конкретных образцов, а не инструкция по устройству LLM в целом.