лооооч
Урок 3

Анатомия одной мысли

Глава 3. Клетки-фичи не думают поодиночке — они соединяются в цепи. Проследуем по нервному пути одного вопроса: как модель внутри сначала думает «Техас», а только потом — «Остин»

Цели урока

К концу этого урока вы:

  • Что такое цепь (circuit) — нервный путь из фич, составляющий одно вычисление
  • Как граф атрибуции рисует анатомический атлас конкретной мысли
  • Как вмешательство в промежуточный шаг доказывает, что рассуждение настоящее, а не «шорткат»
  • Почему шахматный ИИ Othello-GPT — идеальная контрольная группа для этого метода
  • Где у метода честные границы: что граф упрощает и когда «шорткат» всё-таки побеждает
Гравитация

Сейчас объясню так, что станет очевидно. Слушай.

Урок 3 из 10

Анатомия одной мысли

Глава 3. Клетки-фичи не думают поодиночке — они соединяются в цепи. Проследуем по нервному пути одного вопроса: как модель внутри сначала думает «Техас», а только потом — «Остин»
Анатомический атлас нервных путей, нарисованный в старинном стиле: несколько светящихся нейронов соединены дугами разных цветов, образуя цепочку от вопроса к ответу, пергаментный фон, акварельная иллюстрация

Задайте модели вопрос: «В каком штате находится Даллас?» Она ответит: «Техас». Обычный ответ, ничего особенного. Но теперь спросите другое: что происходило внутри между вашим вопросом и её ответом? Не угадала ли она, не нашла ли в памяти — а именно: какие клетки зажглись, в каком порядке, и как одна передала эстафету другой?

Оказывается, это можно посмотреть. И то, что видно, — удивительно. Модель не просто выдаёт ответ: она, как настоящий детектив, делает промежуточный шаг. Внутри — последовательная цепь: сначала вспыхивает фича «Техас», и только потом — фича «Остин». Это настоящее двухэтапное рассуждение, и оно оставляет следы [1].

Глава 1 — микроскоп Метод вмешательства: дёрнул клетку — поведение поехало. Так узор становится доказанным механизмом
Глава 2 — клетки смысла Фича = клетка-детектор на одно понятие. Суперпозиция. Словарное обучение «распутывает» нейроны в чистые фичи
Глава 3 — сегодня Цепи соединяют фичи в вычисление. Граф атрибуции = анатомический атлас одной мысли. Вмешательство в промежуточный шаг — главное доказательство

Что вы поймёте после этой главы

  • Что такое цепь (circuit) — нервный путь из фич, составляющий одно вычисление
  • Как граф атрибуции рисует анатомический атлас конкретной мысли
  • Как вмешательство в промежуточный шаг доказывает, что рассуждение настоящее, а не «шорткат»
  • Почему шахматный ИИ Othello-GPT — идеальная контрольная группа для этого метода
  • Где у метода честные границы: что граф упрощает и когда «шорткат» всё-таки побеждает

Часть 1. От клеток — к цепи

В предыдущей главе мы нашли чистые клетки-фичи — каждая со своим понятием, каждая на своём предметном стекле [2]. Но клетки сами по себе — ещё не мышление. Сердечная клетка ничего не делает в одиночку; она работает, только когда соединена с соседями в ткань.

То же верно для модели. Между вопросом и ответом — не отдельные вспышки случайных клеток, а цепь (circuit): несколько фич, соединённых нервными путями, передающих сигнал от одного звена к другому. Первая фича загорается от вопроса. Её сигнал усиливает вторую. Вторая — третью. В конце цепи — ответ.

Карта этих связей называется граф атрибуции. Это анатомический атлас одной конкретной мысли: кто кого активировал, с какой силой, и кто в итоге принял решение о следующем слове. Представьте карту метро для одной поездки — не все линии, а только те, по которым реально прошёл сигнал.

🤔 Предскажите перед чтением
Допустим, вы видите граф атрибуции для вопроса «столица Техаса?» и в нём есть промежуточный узел «Техас», который стоит между вопросом и ответом «Остин». Чем нужно дополнить эту находку, чтобы доказать, что узел «Техас» действительно участвует в рассуждении, а не просто появляется рядом случайно?
Подсказка: вспомните главный принцип нашего микроскопа из Главы 1. Корреляция или причинность?

Часть 2. Вопрос о Далласе — анатомия вживую

Главный пример этой главы — конкретный, простой и при этом показательный. Исследователи задали модели вопрос: «В каком штате находится Даллас?» А потом пошли смотреть граф атрибуции — анатомический атлас этого вопроса [1].

Вот что они увидели. Сначала зажигается кластер фич вокруг «Даллас/Техас». Потом активируется фича «Техас» — промежуточный узел. Только после этого, опираясь на «Техас», активируется фича «штат» и выходит ответ «Техас». Два шага. Не один.

Модель сначала думает «Даллас → Техас», а потом уже «Техас → ответ». Это видно на атласе.

Это само по себе интересно. Но граф — всё ещё только наблюдение, узор. А мы из первой главы знаем: наблюдения мало. Нужно вмешательство.

Исследователи взяли зонд и вклинились в цепь на промежуточном шаге: принудительно подменили активацию фичи «Техас» на «Калифорния». Это как перерезать нервный путь посередине и вставить другой сигнал.

Модель ответила: «Сакраменто» — столица Калифорнии.

Не запуталась, не выдала случайность, не выдала что-то про Даллас. Точно и аккуратно обработала подменный сигнал дальше по цепи. Это означает: промежуточный шаг «Техас» — не декорация. Это реальный нервный путь, по которому идёт вычисление [1].

Граф атрибуции: анатомия одного вопроса нормально: вопрос «где Даллас?» фича Техас ответ «Техас» вмешательство: вопрос «где Даллас?» зонд: Калиф. ответ «Сакраменто» ← нормальный путь промеж. шаг работает ← подменили «Техас» на «Калифорния» → ответ сменился!
Сверху — нормальный нервный путь: вопрос о Далласе → промежуточная фича «Техас» → ответ «Техас». Снизу — вмешательство: та же фича принудительно заменена на «Калифорния» — ответ стал «Сакраменто». Промежуточный шаг причинно участвует в рассуждении.

Часть 3. Othello-GPT — контрольная группа из шахмат

Один пример — это красиво. Но наука любит контрольные группы. Как убедиться, что метод работает не только для вопросов про штаты?

Есть элегантная проверка — модель Othello-GPT [5]. Othello — настольная игра, в которой нужно расставлять фишки на доске 8×8 по определённым правилам. Исследователи обучили маленькую языковую модель только на записях ходов — последовательности позиций, без каких-либо явных инструкций о доске или её состоянии.

А потом проверили: развила ли модель внутреннее представление доски — то есть содержат ли её фичи информацию о том, что стоит в каждой клетке прямо сейчас?

Ответ: да. Исследователи нашли фичи, которые загорались в зависимости от состояния конкретных клеток доски. И сделали то же вмешательство: подменили активацию одной «клеточной» фичи — и следующий ход модели изменился именно так, как будто на доске теперь другая фигура.

Othello-GPT важен не потому, что это игра. Он важен потому, что здесь у нас есть внешняя истина: мы знаем, какая позиция на доске «правильная». Можно проверить, точно ли фичи кодируют состояние доски — а не что-то смутно похожее. Это редкая роскошь в интерпретируемости. В задаче про Даллас правда известна нам. В игре правда записана в правилах и доступна для проверки независимо.

Связь с Главой 2: фичи Othello-GPT — те самые клетки-детекторы. «Клетка доски E5 занята чёрной фишкой» — это моносемантичная фича. Распутывание дало чистый детектор состояния, и он работает как рычаг.

Часть 4. Граф атрибуции — что это за инструмент

Пора дать формальное описание нашему анатомическому атласу. Граф атрибуции — это математический способ ответить на вопрос: «какие части модели повлияли на этот конкретный ответ и насколько сильно?»

1

Узлы

Каждый узел — это активация: фича, которая зажглась в процессе обработки вопроса. Узлы — клетки на нашем атласе.

2

Рёбра

Каждое ребро — это влияние: насколько сильно одна активация «двинула» другую. Рёбра — нервные пути, соединяющие клетки в цепь.

3

Направление

Граф направленный: сигнал течёт от ранних слоёв к поздним, от вопроса к ответу. Можно проследовать по любому маршруту.

4

Прореживание

Граф всегда неполный — оставляют только сильные влияния. Слабые рёбра отбрасывают, иначе атлас превращается в нечитаемую кашу.

Именно этот инструмент использовали в «биологической» работе Anthropic [1], чтобы разобрать несколько десятков примеров: вопросы о столицах, стихи, арифметику. Каждый раз рисовали атлас и проверяли его вмешательством.

Часть 5. Шорткаты — сосед настоящего рассуждения

Теперь честно о неудобном. Рядом с настоящей цепью в модели часто работает — параллельно — совсем другой механизм. Назовём его шорткат: прямое сопоставление «вопрос → ответ» без промежуточного шага.

✋ Объясните
Как может существовать одновременно и настоящая цепь «Даллас → Техас → ответ», и шорткат «Даллас → сразу Техас»? Разве они не дают одинаковый результат? Чем вообще отличается их наличие?
Подсказка: подумайте о том, что происходит при вмешательстве. Если шорткат сильнее — что случится с ответом?

На самом деле, шорткат и цепь дают одинаковый результат в обычных условиях — и именно поэтому они могут сосуществовать. Но когда мы вмешиваемся в промежуточный узел цепи, шорткат продолжает говорить «Техас», а цепь уже говорит «Калифорния». Итоговый ответ — это сумма обоих сигналов. Если шорткат сильнее, вмешательство не изменит ответ вовсе, и мы решим, что промежуточного шага нет.

Это значит, что наш атлас — это атлас тех примеров, где цепь достаточно сильна, чтобы вмешательство было заметным. Не всех примеров. И это нечестно скрывать [1].

когда метод работает

Цепь достаточно сильна и промежуточный узел явно интерпретируем. Вмешательство даёт предсказуемый результат — анатомия прочитана верно.

когда метод работает

Есть внешняя истина (как в Othello-GPT), с которой можно сравнить. Точность фич можно проверить независимо от поведения модели.

ограничения

Граф упрощает: рядом с цепью могут работать шорткаты и параллельные пути. Атлас показывает самые сильные нервные пути, а не все сразу.

ограничения

Метод срабатывает примерно для четверти разобранных примеров (по оценке самих авторов) [1]. Сложные многошаговые рассуждения пока не поддаются полному разбору.

🗺️
Исследователи нарисовали анатомический атлас мысли «где Даллас?». На атласе оказался промежуточный нейрон «Техас».
Рядом — параллельный нейрон-шорткат «Даллас → Техас» без всяких промежуточных шагов.
Как в настоящем городе: рядом с официальной дорогой всегда есть тропинка через забор, которая срабатывает быстрее и ни на каком атласе не нарисована.

Итог: что читается на анатомическом атласе

Цепь = нервный путь мысли

Фичи из Главы 2 соединяются в цепи — последовательные нервные пути. Каждая цепь — это одно вычисление: вопрос превращается в ответ через промежуточные шаги.

🗺

Граф атрибуции = анатомический атлас

Граф показывает, кто на кого влиял. Но карта — не территория: рядом с настоящими нервными путями работают шорткаты и параллельные пути, которые на атласе не видны.

Вмешательство = доказательство

Наблюдение узла — корреляция. Подмена узла зондом и изменение ответа — причинность. Только это превращает красивый атлас в доказанный механизм.

В следующей главе. Мы видели, как модель рассуждает задним числом — о том, что уже известно (Даллас → Техас). Но умеет ли она планировать наперёд? Следующая глава — про существо, которое видит финал до того, как начало писать. Модель, пишущая стихи, уже «знает» рифму за несколько слов до того, как произнесёт её вслух. Это называется «планирование» — и оно тоже оставляет следы на анатомическом атласе.

Источники этой главы

  1. PrimaryLindsey, J., Gould, E., Lindsay, J., et al. / Anthropic (2025). On the Biology of a Large Language Model. transformer-circuits.pub. Основной источник этой главы: раздел о многошаговом рассуждении (Даллас→Техас→ответ), граф атрибуции как инструмент, эксперимент с подменой промежуточного узла. Честное перечисление ограничений: шорткаты, неполнота графа, четверть успешных примеров.
  2. Peer-reviewedLi, K., Hopkins, A., Bau, D., et al. (2023). Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task. ICLR 2023. Исследование Othello-GPT: модель, обученная только на записях ходов, развила внутреннее линейное представление игровой доски. Вмешательство в фичи состояния клеток доски предсказуемо изменяло следующие ходы. Контрольная группа для метода графов атрибуции.
  3. Peer-reviewedBricken, T., Templeton, A., Batson, J., et al. / Anthropic (2023). Towards Monosemanticity: Decomposing Language Models With Dictionary Learning. transformer-circuits.pub. Источник концепции фич-детекторов (Глава 2), на которых строятся цепи этой главы. Фичи, найденные словарным обучением, — узлы в графах атрибуции.
  4. FoundationalOlah, C., Cammarata, N., Schubert, L., et al. (2020). Zoom In: An Introduction to Circuits. Distill. Первые «circuits» в нейросетях: концепция нервных путей из фич, соединённых в вычисление. Ранний пример метода — кривая-детектор → детектор угла → детектор контура. Идейная основа «нервных путей» этой главы. DOI: 10.23915/distill.00024.001

Глава информационно-просветительская. Это рассказ об идеях исследования, а не техническое руководство по машинному обучению.