Анатомия одной мысли
Глава 3. Клетки-фичи не думают поодиночке — они соединяются в цепи. Проследуем по нервному пути одного вопроса: как модель внутри сначала думает «Техас», а только потом — «Остин»
Цели урока
К концу этого урока вы:
- Что такое цепь (circuit) — нервный путь из фич, составляющий одно вычисление
- Как граф атрибуции рисует анатомический атлас конкретной мысли
- Как вмешательство в промежуточный шаг доказывает, что рассуждение настоящее, а не «шорткат»
- Почему шахматный ИИ Othello-GPT — идеальная контрольная группа для этого метода
- Где у метода честные границы: что граф упрощает и когда «шорткат» всё-таки побеждает

Сейчас объясню так, что станет очевидно. Слушай.
Анатомия одной мысли
Задайте модели вопрос: «В каком штате находится Даллас?» Она ответит: «Техас». Обычный ответ, ничего особенного. Но теперь спросите другое: что происходило внутри между вашим вопросом и её ответом? Не угадала ли она, не нашла ли в памяти — а именно: какие клетки зажглись, в каком порядке, и как одна передала эстафету другой?
Оказывается, это можно посмотреть. И то, что видно, — удивительно. Модель не просто выдаёт ответ: она, как настоящий детектив, делает промежуточный шаг. Внутри — последовательная цепь: сначала вспыхивает фича «Техас», и только потом — фича «Остин». Это настоящее двухэтапное рассуждение, и оно оставляет следы [1].
Что вы поймёте после этой главы
- Что такое цепь (circuit) — нервный путь из фич, составляющий одно вычисление
- Как граф атрибуции рисует анатомический атлас конкретной мысли
- Как вмешательство в промежуточный шаг доказывает, что рассуждение настоящее, а не «шорткат»
- Почему шахматный ИИ Othello-GPT — идеальная контрольная группа для этого метода
- Где у метода честные границы: что граф упрощает и когда «шорткат» всё-таки побеждает
Часть 1. От клеток — к цепи
В предыдущей главе мы нашли чистые клетки-фичи — каждая со своим понятием, каждая на своём предметном стекле [2]. Но клетки сами по себе — ещё не мышление. Сердечная клетка ничего не делает в одиночку; она работает, только когда соединена с соседями в ткань.
То же верно для модели. Между вопросом и ответом — не отдельные вспышки случайных клеток, а цепь (circuit): несколько фич, соединённых нервными путями, передающих сигнал от одного звена к другому. Первая фича загорается от вопроса. Её сигнал усиливает вторую. Вторая — третью. В конце цепи — ответ.
Карта этих связей называется граф атрибуции. Это анатомический атлас одной конкретной мысли: кто кого активировал, с какой силой, и кто в итоге принял решение о следующем слове. Представьте карту метро для одной поездки — не все линии, а только те, по которым реально прошёл сигнал.
Часть 2. Вопрос о Далласе — анатомия вживую
Главный пример этой главы — конкретный, простой и при этом показательный. Исследователи задали модели вопрос: «В каком штате находится Даллас?» А потом пошли смотреть граф атрибуции — анатомический атлас этого вопроса [1].
Вот что они увидели. Сначала зажигается кластер фич вокруг «Даллас/Техас». Потом активируется фича «Техас» — промежуточный узел. Только после этого, опираясь на «Техас», активируется фича «штат» и выходит ответ «Техас». Два шага. Не один.
Это само по себе интересно. Но граф — всё ещё только наблюдение, узор. А мы из первой главы знаем: наблюдения мало. Нужно вмешательство.
Исследователи взяли зонд и вклинились в цепь на промежуточном шаге: принудительно подменили активацию фичи «Техас» на «Калифорния». Это как перерезать нервный путь посередине и вставить другой сигнал.
Модель ответила: «Сакраменто» — столица Калифорнии.
Не запуталась, не выдала случайность, не выдала что-то про Даллас. Точно и аккуратно обработала подменный сигнал дальше по цепи. Это означает: промежуточный шаг «Техас» — не декорация. Это реальный нервный путь, по которому идёт вычисление [1].
Часть 3. Othello-GPT — контрольная группа из шахмат
Один пример — это красиво. Но наука любит контрольные группы. Как убедиться, что метод работает не только для вопросов про штаты?
Есть элегантная проверка — модель Othello-GPT [5]. Othello — настольная игра, в которой нужно расставлять фишки на доске 8×8 по определённым правилам. Исследователи обучили маленькую языковую модель только на записях ходов — последовательности позиций, без каких-либо явных инструкций о доске или её состоянии.
А потом проверили: развила ли модель внутреннее представление доски — то есть содержат ли её фичи информацию о том, что стоит в каждой клетке прямо сейчас?
Ответ: да. Исследователи нашли фичи, которые загорались в зависимости от состояния конкретных клеток доски. И сделали то же вмешательство: подменили активацию одной «клеточной» фичи — и следующий ход модели изменился именно так, как будто на доске теперь другая фигура.
Othello-GPT важен не потому, что это игра. Он важен потому, что здесь у нас есть внешняя истина: мы знаем, какая позиция на доске «правильная». Можно проверить, точно ли фичи кодируют состояние доски — а не что-то смутно похожее. Это редкая роскошь в интерпретируемости. В задаче про Даллас правда известна нам. В игре правда записана в правилах и доступна для проверки независимо.
Часть 4. Граф атрибуции — что это за инструмент
Пора дать формальное описание нашему анатомическому атласу. Граф атрибуции — это математический способ ответить на вопрос: «какие части модели повлияли на этот конкретный ответ и насколько сильно?»
Узлы
Каждый узел — это активация: фича, которая зажглась в процессе обработки вопроса. Узлы — клетки на нашем атласе.
Рёбра
Каждое ребро — это влияние: насколько сильно одна активация «двинула» другую. Рёбра — нервные пути, соединяющие клетки в цепь.
Направление
Граф направленный: сигнал течёт от ранних слоёв к поздним, от вопроса к ответу. Можно проследовать по любому маршруту.
Прореживание
Граф всегда неполный — оставляют только сильные влияния. Слабые рёбра отбрасывают, иначе атлас превращается в нечитаемую кашу.
Именно этот инструмент использовали в «биологической» работе Anthropic [1], чтобы разобрать несколько десятков примеров: вопросы о столицах, стихи, арифметику. Каждый раз рисовали атлас и проверяли его вмешательством.
Часть 5. Шорткаты — сосед настоящего рассуждения
Теперь честно о неудобном. Рядом с настоящей цепью в модели часто работает — параллельно — совсем другой механизм. Назовём его шорткат: прямое сопоставление «вопрос → ответ» без промежуточного шага.
На самом деле, шорткат и цепь дают одинаковый результат в обычных условиях — и именно поэтому они могут сосуществовать. Но когда мы вмешиваемся в промежуточный узел цепи, шорткат продолжает говорить «Техас», а цепь уже говорит «Калифорния». Итоговый ответ — это сумма обоих сигналов. Если шорткат сильнее, вмешательство не изменит ответ вовсе, и мы решим, что промежуточного шага нет.
Это значит, что наш атлас — это атлас тех примеров, где цепь достаточно сильна, чтобы вмешательство было заметным. Не всех примеров. И это нечестно скрывать [1].
когда метод работает
Цепь достаточно сильна и промежуточный узел явно интерпретируем. Вмешательство даёт предсказуемый результат — анатомия прочитана верно.
когда метод работает
Есть внешняя истина (как в Othello-GPT), с которой можно сравнить. Точность фич можно проверить независимо от поведения модели.
ограничения
Граф упрощает: рядом с цепью могут работать шорткаты и параллельные пути. Атлас показывает самые сильные нервные пути, а не все сразу.
ограничения
Метод срабатывает примерно для четверти разобранных примеров (по оценке самих авторов) [1]. Сложные многошаговые рассуждения пока не поддаются полному разбору.
Рядом — параллельный нейрон-шорткат «Даллас → Техас» без всяких промежуточных шагов.
Как в настоящем городе: рядом с официальной дорогой всегда есть тропинка через забор, которая срабатывает быстрее и ни на каком атласе не нарисована.
Итог: что читается на анатомическом атласе
Цепь = нервный путь мысли
Фичи из Главы 2 соединяются в цепи — последовательные нервные пути. Каждая цепь — это одно вычисление: вопрос превращается в ответ через промежуточные шаги.
Граф атрибуции = анатомический атлас
Граф показывает, кто на кого влиял. Но карта — не территория: рядом с настоящими нервными путями работают шорткаты и параллельные пути, которые на атласе не видны.
Вмешательство = доказательство
Наблюдение узла — корреляция. Подмена узла зондом и изменение ответа — причинность. Только это превращает красивый атлас в доказанный механизм.
В следующей главе. Мы видели, как модель рассуждает задним числом — о том, что уже известно (Даллас → Техас). Но умеет ли она планировать наперёд? Следующая глава — про существо, которое видит финал до того, как начало писать. Модель, пишущая стихи, уже «знает» рифму за несколько слов до того, как произнесёт её вслух. Это называется «планирование» — и оно тоже оставляет следы на анатомическом атласе.
Источники этой главы
- PrimaryLindsey, J., Gould, E., Lindsay, J., et al. / Anthropic (2025). On the Biology of a Large Language Model. transformer-circuits.pub.
- Peer-reviewedLi, K., Hopkins, A., Bau, D., et al. (2023). Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task. ICLR 2023.
- Peer-reviewedBricken, T., Templeton, A., Batson, J., et al. / Anthropic (2023). Towards Monosemanticity: Decomposing Language Models With Dictionary Learning. transformer-circuits.pub.
- FoundationalOlah, C., Cammarata, N., Schubert, L., et al. (2020). Zoom In: An Introduction to Circuits. Distill.
Глава информационно-просветительская. Это рассказ об идеях исследования, а не техническое руководство по машинному обучению.