Урок 2

Клетки смысла

Глава 2. Парадокс: один нейрон модели думает о лягушках, Канаде и знаке вопроса одновременно — и это не баг, а конструктивная необходимость. Посмотрим, как из каши выделить чистые клетки

Цели урока

К концу этого урока вы:

Что такое фича — клетка-детектор на одно понятие — и чем она отличается от «сырого» нейрона
Почему один нейрон вспыхивает на несвязанные понятия (полисемантичность) и зачем модели вообще это нужно
Что такое суперпозиция и почему это геометрическая необходимость, а не ошибка
Как «словарное обучение» распутывает нейроны в чистые фичи
Где пределы этого метода — честно

Смотри сюда внимательно — вот тут вся соль.

0:00 / 0:00

Натуралист рассматривает под микроскопом предметное стекло с несколькими светящимися клетками разных цветов; каждая клетка выделяет один цветовой сигнал, старинная лаборатория, акварельная иллюстрация

Представьте: вы открываете атлас человеческого тела и видите клетку, которая одновременно отвечает за зрение, переваривание жиров и ориентацию в пространстве. Один клеточный тип — три несвязанные функции. Биолог бы решил, что атлас испорчен. Но именно так устроен мозг большой языковой модели: один нейрон загорается и на «лягушку», и на «Канаду», и на знак вопроса — понятия, между которыми нет ничего общего.

Это не ошибка в проектировании. Это следствие жёсткого ограничения: понятий в языке несравнимо больше, чем нейронов в сети. Чтобы поместить все смыслы в ограниченное число ячеек, природа (точнее, обучение) нашла хитрость: упаковать несколько понятий в один нейрон, используя их как разные направления в пространстве. В первой главе мы говорили о микроскопе [1]. Теперь посмотрим, что он показывает — и почему первая же клетка под стеклом оказалась совсем не такой простой, как ожидалось.

Глава 1 — микроскоп ИИ как неведомый организм; спросить нельзя — нужно вскрывать; метод вмешательства (дёрнул клетку — поведение поехало) отличает механизм от узора

Глава 2 — сегодня Что такое фича (клетка-детектор); проблема полисемантичности; суперпозиция; словарное обучение как метод «распутывания»

Что вы поймёте после этой главы

Что такое фича — клетка-детектор на одно понятие — и чем она отличается от «сырого» нейрона
Почему один нейрон вспыхивает на несвязанные понятия (полисемантичность) и зачем модели вообще это нужно
Что такое суперпозиция и почему это геометрическая необходимость, а не ошибка
Как «словарное обучение» распутывает нейроны в чистые фичи
Где пределы этого метода — честно

Часть 1. Что такое фича — и зачем она нужна

Возьмём конкретный образ из первой главы: фича — это клетка-детектор на одно понятие. Клетка зрительного нерва возбуждается на свет определённой длины волны. Клетка-детектор «Золотые Ворота» возбуждается, когда в тексте появляется этот мост, его фотография, его название. Она не реагирует на другие мосты, другие города, другие достопримечательности — только на свой объект. Одно понятие, один детектор.

Это идеал. Его называют моносемантичным нейроном: от греческого «моно» (один) и «семантика» (смысл). Такие клетки — мечта натуралиста: нашёл одну, понял, за что она отвечает, нанёс на анатомический атлас. Готово.

Проблема в том, что большинство нейронов модели — не такие. Исследователи из Anthropic, проверяя сырые нейроны, обнаружили, что один и тот же нейрон реагирует на совершенно несвязанные вещи: например, на «лягушек», «Канаду» и «знак вопроса» [2]. Не родственные понятия, не синонимы — просто три случайно соседствующих кластера. Такой нейрон называют полисемантичным: у него много значений, и они никак не связаны. Такую клетку в атлас не занесёшь.

🤔 Угадайте до чтения

Почему, как вы думаете, нейрон в модели вообще может загораться на несвязанные понятия? Что это говорит об устройстве сети?

Подсказка: подумайте о количестве. Нейронов — миллиарды. Но понятий, которые нужно хранить, — ещё больше. Куда их девать?

Часть 2. Суперпозиция — природная хитрость упаковки

Ответ на вопрос в жёлтой карточке выше — математический. Представьте комнату с тысячей полок. Вам нужно разместить миллион книг. Единственный выход — класть несколько книг на одну полку. Именно это делает нейронная сеть.

У модели Claude, с которой работали в Anthropic, примерно 4 тысячи нейронов в каждом слое. А различимых понятий, которые модель освоила из текстов всего интернета, — десятки миллионов. Разрыв в тысячи раз. Поместить каждое понятие в свой отдельный нейрон физически невозможно.

Решение, которое нашло обучение, называется суперпозиция [4]. Это геометрический трюк: в многомерном пространстве можно разместить много «почти-перпендикулярных» направлений, которые будут почти не мешать друг другу. Редкие понятия — те, которые в тексте встречаются редко и крайне редко стоят рядом, — можно запаковать в одно направление. Если «лягушки» и «Канада» в учебном тексте никогда не встречались вместе, то небольшое пересечение их направлений в нейроне почти не вредит качеству ответов.

Слева — идеал: перпендикулярные направления, каждое понятие в своём нейроне. Справа — реальность: четыре почти-перпендикулярных направления в двух нейронах. Каждый нейрон немного «слышит» несколько понятий — это и есть суперпозиция.

Эффект оказался не просто теоретической возможностью — он был предсказан и изучен в работе 2022 года [4]. Авторы показали: если понятий много, а нейронов мало, обучение само находит суперпозицию, потому что это лучший компромисс между ёмкостью и точностью. Полисемантичность нейрона — не глюк, а оптимальная упаковка.

Часть 3. «Распутывание» — как сделать чистые клетки из каши

Итак, у нас на стекле — клетки-каши. Один нейрон загорается на три несвязанных понятия. Как натуралисту разглядеть что-то осмысленное? Метод называется словарное обучение (dictionary learning).

Представьте, что вы приехали в библиотеку, где книги стоят вразнобой: детективы вперемешку с поваренными, учебники — с поэзией. Вам нужно разобраться, что где. Словарное обучение — это алгоритм, который берёт хаотичные активации нейронов и ищет в них скрытые направления, каждое из которых отвечает за одно понятие [2].

Результат называется разреженным автокодировщиком (sparse autoencoder). Он принимает шумный сигнал от тысяч нейронов и выдаёт набор фич — чистых клеток-детекторов. Каждая фича активируется редко и сильно: только когда её понятие действительно есть в тексте. Большинство времени она молчит. Это «разреженность» в её названии.

Пример, который вошёл в учебники. В 2024 году исследователи применили словарное обучение к модели Claude 3 Sonnet и нашли миллионы таких фич [3]. Одна из них — вы уже знаете какая: детектор «Золотые Ворота». Из каши активаций вырезалась чистая клетка — со своей специализацией, своим порогом, своей реакцией.

Связь с главой 1: именно эту чистую фичу потом взяли зондом и вывернули на максимум. Сначала надо найти клетку — для этого и нужно «распутывание». Потом можно за неё дёргать.

Одна полупрозрачная живая клетка, ярко светящаяся изнутри силуэтом большого подвесного моста, словно одна клетка одержима единственной идеей, тёмный созерцательный фон — Одна клетка, одержимая одним понятием. Усиль её принудительно — и всё существо начнёт думать только о мосте.

Часть 4. Разглядываем клетку вблизи

Что именно мы видим, когда нашли фичу? Посмотрим на структуру одной клетки-детектора — той, что оказалась самой знаменитой в истории интерпретируемости.

🌁

Объект реакции

Мост Золотые Ворота в Сан-Франциско — изображения, слова «Golden Gate», упоминания пролива и тумана над ним.

📊

Разреженность

Фича молчит почти всегда. Загорается только когда понятие действительно присутствует в тексте — не на все слова о мостах, не на все упоминания Калифорнии.

⚡

Причинность

Если зонд усиливает фичу принудительно — вся речь модели сворачивает к Золотым Воротам. Это не корреляция, а рычаг.

🔗

Связи с другими фичами

У фичи есть соседи: детекторы «Сан-Франциско», «туман», «мост». Вместе они образуют кластер — будущую цепь из Главы 3.

✋ Объясните своими словами

Чем чистая фича (после словарного обучения) лучше сырого нейрона для натуралиста-исследователя? Попробуйте сформулировать в 1–2 предложениях, не подглядывая наверх.

Подсказка: что было не так с полисемантичным нейроном с точки зрения анатомического атласа? Что теперь стало иначе?

Часть 5. Честно о пределах препарата

Фичи — это наша реконструкция, а не «настоящие клетки» модели. Вспомним из первой главы: препарат — это чучело, удобная копия [1]. Сама модель никогда не «думала» фичами как чем-то самостоятельным. Словарное обучение — это наш способ смотреть на неё, а не её способ думать. Важно не путать карту с территорией.

✓

что работает

Фичи причинно участвуют в поведении — это доказано вмешательством. Найденные детекторы читаемы человеком и воспроизводимы.

✓

что работает

Словарное обучение масштабируется: Templeton et al. 2024 нашли миллионы интерпретируемых фич в Claude 3 Sonnet [3].

⚠

ограничения

Не все найденные фичи интерпретируемы человеком. Часть остаётся «тёмной материей» — активируется на что-то, но на что именно — непонятно.

⚠

ограничения

Распутывание неполное. Суперпозиция убрана не вся: некоторые фичи всё ещё полисемантичны. Микроскоп грубоват — как в Главе 1.

🧫

Исследователи нашли нейрон, который реагирует и на «лягушек», и на «Канаду», и на «знак вопроса». Предложили три гипотезы: (а) лягушки канадские и риторические, (б) модель учила только один учебник из Квебека, (в) суперпозиция.
Правильный ответ — в, но гипотезу (а) никто формально не опроверг.

Итог: что мы нашли в клетках

Нейрон — не клетка. Клетка — фича. Нейроны полисемантичны по математической необходимости: понятий в языке неизмеримо больше, чем нейронов. Обучение упаковывает их в суперпозицию — почти-перпендикулярные направления в многомерном пространстве. Словарное обучение распутывает эту упаковку и выдаёт чистые клетки-детекторы — фичи, каждая со своей специализацией.

Эти фичи — первый уровень анатомии: отдельные клетки, каждая на своём предметном стекле. Но один детектор «Золотые Ворота» — ещё не мышление. Мышление начинается, когда клетки соединяются и работают цепью.

В следующей главе. Берём набор чистых фич и смотрим, как они соединяются в цепь — нервный путь одной мысли. Главный пример: вопрос «столица штата, где Даллас?» — как модель внутри сначала зажигает «Техас», потом «Остин», и как вмешательство в промежуточный шаг доказывает, что рассуждение настоящее. Это анатомический атлас одной мысли.

Источники этой главы

PrimaryLindsey, J., Gould, E., Lindsay, J., et al. / Anthropic (2025). On the Biology of a Large Language Model. transformer-circuits.pub. Главный источник всего курса. Разбор фич, цепей, графов атрибуции в Claude. Честный список ограничений метода.
Peer-reviewedBricken, T., Templeton, A., Batson, J., et al. / Anthropic (2023). Towards Monosemanticity: Decomposing Language Models With Dictionary Learning. transformer-circuits.pub. Работа, в которой словарное обучение (разреженный автокодировщик) применено к MLP-нейронам языковой модели. Доказано, что в одном нейроне упаковано множество несвязанных понятий (суперпозиция), и их можно «распутать» в моносемантичные фичи.
Peer-reviewedTempleton, A., Conerly, T., Marcus, J., et al. / Anthropic (2024). Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet. transformer-circuits.pub. Масштабирование метода на большую модель: миллионы фич, в том числе знаменитая фича «Золотые Ворота». Доказательство, что усиление фичи зондом изменяет поведение всей модели.
FoundationalElhage, N., Henighan, T., Joseph, N., et al. / Anthropic (2022). Toy Models of Superposition. transformer-circuits.pub. Теоретическое и экспериментальное исследование суперпозиции: почему нейронные сети упаковывают несколько понятий в одни и те же нейроны, как это зависит от разреженности понятий и ёмкости сети.

Глава информационно-просветительская. Это рассказ об идеях исследования, а не техническое руководство по машинному обучению.