Как оно считает
Глава 6. Модель решает задачи, которые в школе делают «столбиком», — но никакого столбика внутри нет. Есть нити, которые идут параллельно. Спросишь, как считала, — расскажет про столбик.
Цели урока
К концу этого урока вы:
- Как модель обрабатывает числа изнутри — параллельными нитями, а не последовательным столбиком
- Почему те же арифметические «ткани» всплывают в астрономических данных и академических цитатах
- Что такое конфабуляция и почему она возникает именно тут — когда знаешь ответ, но не знаешь, как пришёл к нему
- Почему «знать про метод» и «пользоваться методом» — две совершенно разные вещи
- Что всё это говорит о надёжности самоотчёта модели в целом

Так. Вот этот момент не проскакивай, он ключевой.
Как оно считает
Вот парадокс, который легко пропустить. Модель правильно складывает большие числа — скажем, 47 382 + 68 219. И если попросить её объяснить, как она это делала, она уверенно расскажет: «единицы, перенос, десятки, снова перенос» — аккуратно, по шагам, точно так, как учат в третьем классе. Звучит разумно. Вот только это неправда.
Не ложь в смысле обмана — модель не притворяется. Просто внутри не было никакого столбика. Исследователи заглянули внутрь и обнаружили кое-что другое: параллельные нити, которые прикидывают величину и хвост числа одновременно, независимо, не дожидаясь друг друга [1]. Организм считает одним способом, а рассказывает о другом. Мы обещали поймать его на этом ещё в первой главе — вот он, пойман.
Это не просто курьёз. Это указатель на что-то важное про устройство этого существа: его поведение и его самоотчёт разведены. Оно не заглядывает в себя, чтобы ответить на вопрос «как ты считал?» — оно генерирует правдоподобный рассказ о том, каким мог бы быть этот подсчёт. Что происходит внутри на самом деле — это предмет микроскопа, а не опроса.
Что вы поймёте после этой главы
- Как модель обрабатывает числа изнутри — параллельными нитями, а не последовательным столбиком
- Почему те же арифметические «ткани» всплывают в астрономических данных и академических цитатах
- Что такое конфабуляция и почему она возникает именно тут — когда знаешь ответ, но не знаешь, как пришёл к нему
- Почему «знать про метод» и «пользоваться методом» — две совершенно разные вещи
- Что всё это говорит о надёжности самоотчёта модели в целом
Быстрый повтор: где мы были
Часть 1. Внутри числа: две нити вместо одной
Помните, в пятой главе мы обнаружили, что одни и те же механизмы — одни «ткани» организма — работают в совершенно разных задачах [5]? Арифметика — самый наглядный пример этого принципа. Возьмём простейший случай: модель складывает два числа. Что происходит внутри?
Исследователи прошлись по цепям, которые активируются во время вычисления, и обнаружили любопытное разделение труда [1]. Упрощённо: есть цепь, которая прикидывает общий порядок числа — «это что-то около ста тысяч» — и есть отдельная цепь, которая работает с последними цифрами, «хвостом» числа. Они идут не по очереди, а параллельно.
Ответ: с последними цифрами модель справляется точнее — там конечное множество вариантов (0–9), и цепь-специалист хорошо обучена. С «порядком числа» точность ниже: там непрерывный диапазон, прикидка грубее. Это не случайность архитектуры — это логика специализации. Живой организм, у которого нет бумаги и ручки, вырабатывает те трюки, которые работают при его устройстве.
Часть 2. Одна ткань — три разные задачи
Самое интересное начинается, когда смотришь шире. Та же арифметическая «ткань» — те же типы цепей для «порядка» и «хвоста» — всплывает в задачах, которые на вид с арифметикой никак не связаны [1].
Например, в астрономических данных. Когда модель оперирует расстояниями до звёзд, размерами планет, возрастом Вселенной — там нет «2 + 2», но есть числа разных порядков величины, и работать с ними нужно примерно теми же способами. Организм не заводит «отдел астрономии» — он пользуется тем, что уже есть.
Или в академических цитатах. Когда кто-то просит модель воспроизвести номер страницы, том журнала, год публикации — это снова числа, у которых есть «порядок» и «хвост». Это объясняет любопытный паттерн: год публикации (четыре цифры, конечное множество разумных вариантов) модель воспроизводит точнее, чем номер тома или страницы (там диапазон непредсказуем).
Важная оговорка. Это разобранные примеры из конкретного исследования [1], а не полное объяснение того, как модель работает с числами вообще. Арифметика в реальных ответах складывается из многих факторов. Считайте это вскрытием одного образца — не рентгеном всего устройства.
Почему организм так устроен — зачем ему универсальные «числовые ткани» вместо специализированных отделов? Вспомним главу 5 [5]: универсальные механизмы выгодны, когда обучался на всём подряд. Если одна цепь умеет работать с «порядком числа», она работает с этим понятием везде — в математике, в датах, в координатах, в телефонных номерах. Писать заново для каждой темы было бы расточительством ресурсов — и это была бы совсем другая архитектура.
Часть 3. Конфабуляция: когда рассказ не совпадает с действием
Вернёмся к парадоксу из начала главы. Модель считает параллельными нитями. Когда её спрашивают «как ты это посчитала?» — она рассказывает про столбик. Откуда берётся этот рассказ?
Он берётся из того же места, откуда берётся любой её текст: из обучения. В текстах, на которых её учили, люди объясняют сложение именно так — единицы, перенос, десятки. Модель хорошо знает, как рассказывают о сложении. Она гораздо хуже знает (а точнее, вообще не знает), как она сама это делает изнутри. Поэтому когда её спрашивают, она воспроизводит правдоподобный рассказ — а не честный отчёт.
Это называют конфабуляцией — уверенным, связным рассказом, который не соответствует тому, что происходило на самом деле. Это не намеренная ложь. Просто у модели нет «окошка внутрь себя». Она не умеет сказать: «подождите, дайте загляну в свои цепи». Она генерирует ответ про свои цепи так же, как генерирует ответ про что угодно: выбирает следующее слово, опираясь на всё, что знает. А знает она больше всего — про школьный метод.
Часть 4. Что это значит для самоотчёта модели
Арифметический случай — самый наглядный, потому что тут можно сравнить. У нас есть «правильный» метод (столбик), модель его описывает, и у нас есть данные о том, что внутри — не столбик. Несоответствие очевидно. Но задумайтесь: во скольких других случаях то же самое происходит, а мы не можем проверить, потому что там нет такой удобной точки сравнения?
Это прямо перекликается с хуком первой главы (глава 1): «дальше в курсе мы поймаем модель на том, как она складывает числа одним способом, а рассказывает, что складывала другим». Мы это сделали. Но теперь вопрос шире: что происходит, когда модель объясняет своё рассуждение про историческое событие? Или когда советует что-то вам лично? Или когда уверяет, что уверена?
В 2025 году исследователи Anthropic проверили, способна ли модель вообще честно «видеть» свои внутренние состояния — в том числе когда ей подсказывают чужую мысль и она принимает её за свою [2]. Результат: иногда модель замечает несоответствие, иногда — нет. Ненадёжность самоотчёта оказалась системной, а не случайной. Мы вернёмся к этому в главе 9.
Модель: «Сначала единицы: 2 + 9 = 11, пишем 1, перенос…»
Натуралист с микроскопом: «Хм. Внутри — параллельные нити.»
Модель: «…перенос, затем десятки: 8 + 1 + 1 = 10…»
Организм не слышит возражений. Он занят рассказом про столбик, которого у него нет.
Часть 5. Честная рамка: что мы на самом деле знаем
Прежде чем выходить из этой главы с большими обобщениями, поставим рамку — как мы делали начиная с первой главы (глава 1).
что показано
В конкретных разобранных случаях внутри модели нашлись специализированные цепи для обработки «порядка» и «хвоста» числа, работающие параллельно. Это подтверждено методом вмешательства.
что показано
Аналогичные числовые «ткани» обнаружены в астрономических данных и академических ссылках — признак универсального механизма, а не тематического «отдела».
чего пока нет
Это не полная теория арифметики в LLM. Это вскрытие отдельных образцов. Механизм может выглядеть иначе в других моделях, других задачах, других диапазонах чисел.
чего пока нет
Конфабуляция в самоотчёте — установленный факт для арифметики. Насколько широко она распространяется на другие типы объяснений — открытый вопрос.
Часть 6. Итог: дёрнули за нить — посмотрели правде в глаза
Что мы узнали про этот организм в шестой главе? Три вещи.
Параллельные нити, а не столбик
Арифметика внутри — это специализированные цепи «порядок» и «хвост», работающие одновременно. Никакого последовательного алгоритма, напоминающего школьный метод, внутри нет [1].
Одна ткань — много контекстов
Те же числовые цепи всплывают в астрономии, в цитатах, в датах. Организм не строит отдельный «арифметический отдел» для каждой темы.
Самоотчёт — не окошко внутрь
Рассказ о том, «как я считал», генерируется так же, как любой другой текст — из знания о том, как рассказывают. Не из наблюдения за своими цепями. Это конфабуляция, не обман.
Вместе эти три вещи дают предупреждение, которое пойдёт с нами в следующую главу: когда модель уверенно что-то утверждает — это не значит, что уверенность основана на том, о чём она говорит. Следующий шаг — разобраться, почему уверенность вообще отцепляется от знания. Почему оно выдумывает.
В следующей главе. Мы разберём механизм галлюцинаций — не как баг, а как сбой вполне понятного тормоза. Внутри модели есть цепь: «если не знаю — откажись». Её подавляет фича «знакомая сущность». Галлюцинация — это ровно момент, когда фича «знаю» ошибочно срабатывает там, где знания нет. Дёрнем за этот тормоз и посмотрим, что падает.
Источники этой главы
- PrimaryLindsey, J., Gould, E., Lindsay, J., et al. / Anthropic (2025). On the Biology of a Large Language Model. transformer-circuits.pub.
- PrimaryLindsey, J. / Anthropic (2025). Emergent Introspective Awareness in Language Models. transformer-circuits.pub.
- Peer-reviewedTempleton, A., Conerly, T., Marcus, J., et al. / Anthropic (2024). Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet. transformer-circuits.pub.
- Popular-expertAnthropic (2025). Tracing the thoughts of a large language model. anthropic.com (research blog).
Глава информационно-просветительская. Описанные механизмы арифметики — это задокументированные исследовательские находки для конкретных образцов, а не инструкция по устройству LLM в целом.