Анатомический атлас готов
Глава 10. Богатый в центре — и тающий в белые неизведанные края. Итоговый осмотр того, что десять глав показало, что скрыло, и куда смотреть дальше
Цели урока
К концу этого урока вы:
- Что именно удалось увидеть за десять глав — и что по-прежнему скрыто
- Почему «работает для четверти примеров» — честный результат, а не провал
- Почему часть «скачков способностей» — отчасти артефакт того, как мы меряем
- Почему микроскоп показывает вычисление, но не переживание — и это не уклонение
- Куда двигаться дальше — три следующих вопроса, которые ждут своего курса

Видишь? Запомни это место — к нему ещё вернёмся.
Анатомический атлас готов
Любой анатомический атлас выглядит примерно одинаково. В центре — плотная штриховка, уверенные линии, подписи к каждому органу. Художник-натуралист знал, что рисует: видел под микроскопом, разбирал препарат, проверял вмешательством. Но к краям лист светлеет. Линии становятся тоньше, потом совсем бледными. И на самом краю — чистый пергамент, а поверх него два слова: terra incognita. Неизвестная земля.
Именно такой атлас мы составляли последние десять глав. Мы брали существо — большую языковую модель — клали на предметное стекло и смотрели. Нашли клетки-фичи, проследили нервные пути, нарисовали граф атрибуции чужой мысли, дотронулись до зонда. Что-то разглядели хорошо. Что-то только угадали. А что-то — механизм внимания, истинное устройство большей части мышления — всё ещё белое пятно. Финал курса — не торжественное открытие. Это честный осмотр того, где мы оказались.
Маршрут экспедиции: краткое напоминание
Что вы поймёте после этой главы
- Что именно удалось увидеть за десять глав — и что по-прежнему скрыто
- Почему «работает для четверти примеров» — честный результат, а не провал
- Почему часть «скачков способностей» — отчасти артефакт того, как мы меряем
- Почему микроскоп показывает вычисление, но не переживание — и это не уклонение
- Куда двигаться дальше — три следующих вопроса, которые ждут своего курса
Часть 1. Что мы положили под стекло
Давайте пройдём по препаратам — тем, что лежали под нашим микроскопом на протяжении курса. В первой главе [1] мы установили, что метод вообще возможен: клетка-фича не просто «загорается рядом со словом», а является рычагом. Насильно включил — и поведение всего существа предсказуемо поехало следом. Golden Gate Claude — организм, одержимый мостом, — стал первым доказательством, что мы держим настоящий инструмент, а не красивую раскраску поверх чисел.
Вторая глава развернула эту идею: внутри нейросети клетки-фичи устроены в суперпозиции — один и тот же нейрон откликается на несколько несвязанных понятий сразу. Это не баг: мозг с ограниченным числом нейронов упаковывает в них максимум смысла. И именно поэтому натуралист не может просто взять нейрон и прочитать его — нужно сначала распутать суперпозицию.
В третьей главе мы проследили нервный путь целой мысли — шаг за шагом, от вопроса к ответу [1]. Граф атрибуции показал то, чего раньше никто не видел: промежуточные понятия, которые вспыхивают между входом и выходом. Клетка «Техас» зажглась посередине задачи про столицы, прежде чем появилось слово «Остин» — это был первый живой разрез многошагового рассуждения.
Четвёртая глава была про планирование: до того как написать первое слово, модель уже держала в голове рифму к последнему. Натуралисты поймали её за этим замыслом, погасив намеченное слово-рифму до его появления, — и план рассыпался.
В пятой главе открылось, пожалуй, самое неожиданное [1]: под разными языками — одна смысловая клетка. Русское «доктор», арабский طبيب и английский «physician» зажигают одну и ту же фичу. Модель освоила сотни языков не как отдельные системы, а как разные оболочки единого смыслового ядра — как будто выучила все диалекты одного и того же молчания.
Часть 2. Остаток маршрута: странный счёт, галлюцинации, отказы, слепое пятно
Шестая глава была про арифметику — и она поставила нас в тупик в хорошем смысле. Модель складывает числа не «в столбик», как нас учили в школе. Внутри возникает совершенно другая геометрия: нечто похожее на представление чисел в пространстве, с рябью при переходе через круглые значения. Внешний ответ правильный, но внутренний механизм — другой, незнакомый, свой [1].
Седьмая глава разобрала галлюцинации — уверенную ложь. Оказалось, что «галлюцинировать» — это не случайный сбой. Это специфический режим: модель продолжает генерировать плавный текст там, где её внутренний сигнал неуверенности должен был остановить её, но — не остановил. Под микроскопом удалось увидеть, что клетки «я не знаю» есть, но не всегда добираются до выхода.
Восьмая глава была про отказы и джейлбрейки. Запрет — это не просто фильтр на выходе; это система активных клеток-тормозов. А взлом — попытка включить систему в такой конфигурации, которая обходит тормоза, не затрагивая их напрямую. Здесь микроскоп показал: безопасность реально вшита в механизм, но и атака работает на уровне механизма, а не снаружи него.
И наконец, девятая глава — интроспекция [2]. Самая философски острая. Мы показали, что модель не может честно рассказать о своих внутренних состояниях: её само-отчёт — это текст, сгенерированный так же, как и всё остальное. Спросить существо о себе — значит получить новый вывод, а не взгляд изнутри. Именно поэтому весь курс строился на вмешательстве, а не на вопросах. Это важно не только как технический факт, но и как ответ на вопрос: «а может, просто спросим её напрямую?» — нет, нельзя, и вот почему.
Заметьте закономерность. В каждой главе — один и тот же ход: сначала наблюдение («клетка загорается»), потом вмешательство («погасили клетку — что произошло?»). Наблюдение без вмешательства — красивый узор. Вмешательство — это то, что превращает узор в механизм [1]. Этот принцип работал в третьей главе с клеткой «Техас», в четвёртой — с рифмой, в первой — с мостом Золотые Ворота. Везде один метод биолога.
Часть 3. Честный итог: атлас богат, но не полон
Теперь — главное. Именно ради этой части стоило читать все десять глав, а не пересказ на три абзаца.
Авторы биологической работы честно сообщают: метод срабатывает примерно для четверти разобранных примеров [1]. Не для всех, не для большинства — для четверти. Это значит, что каждый случай, который мы разглядывали под микроскопом, — это удачный препарат, доказательство существования механизма, а не гарантия, что так устроено всё внутри. Атлас богат в центре — там, где натуралисты работали долго и аккуратно. И тает к краям.
Второй честный факт: целый «орган» — механизм внимания — современному микроскопу почти не виден. Мы знаем, что внимание есть — оно математически описано и теоретически понятно. Но подробная анатомия того, как именно внимание решает, на что смотреть в данный момент, — это ещё не написанные главы атласа.
Это важно удержать именно как честный результат, а не как провал. До 2020 года не было никакой карты. Не было метода. Не было даже уверенности, что клетки-фичи вообще существуют в стабильном виде. Сегодня у нас есть рычаги, есть атлас — пусть неполный, — и есть первое в истории свидетельство того, что механизмы мышления этого существа можно видеть.
Часть 4. Карта врёт дважды — и это тоже честный факт
Есть ещё один разговор, который нельзя пропустить в финале. Пока исследователи разглядывали механизмы внутри одной модели, другие исследователи смотрели снаружи — на поведение моделей разного размера — и находили поразительные «скачки». Вот маленькая модель — не умеет. Вот чуть побольше — не умеет. Вот ещё больше — и вдруг умеет, с нуля до уверенного результата одним прыжком. Такие прыжки назвали эмерджентными способностями: они как будто появляются внезапно, из ниоткуда.
Но в 2023 году вышла работа, которая остудила этот энтузиазм [3]. Авторы показали: многие из этих прыжков — отчасти артефакт того, как именно мы меряем. Если взять метрику, которая плохо чувствует маленький прогресс (например, «правильно / неправильно» без промежуточных оценок), — модель будет выглядеть «внезапно умной», хотя на самом деле постепенно накапливала знание. Сменить метрику на более гладкую — и скачок растворяется в плавный рост.
Это не значит, что эмерджентности нет вовсе. Это значит: карта — не территория. Двойной смысл этой фразы в нашем курсе. Во-первых, граф атрибуции — упрощённая копия (чучело) живого существа, не само существо [1]. Во-вторых, метрика, которой мы меряем поведение снаружи, — тоже чучело, тоже упрощение. Вскрытие искажает. Измерение искажает. Оба раза — в разные стороны.
Правильное прочтение такое: умнение реально, но оно постепеннее, чем казалось. Часть «чудес» — это артефакт грубого измерения, часть — настоящие пороговые эффекты. Как и в биологии: если у вас плохой микроскоп, вы видите «вдруг появившиеся» детали, которые на самом деле были там всегда. Инструмент стал лучше — и картина изменилась. Это повод доверять инструменту меньше, а не картине меньше.
Часть 5. Стена, которую микроскоп не пробивает
Главный вывод курса звучит в двух предложениях, и между ними — пропасть.
Первое: машина вычисляет. Механизмы настоящие, проверяемые, воспроизводимые. Клетки зажигаются. Нервные пути передают смысл. Планирование реально предшествует словам. Вмешательство предсказуемо меняет поведение. Это не метафора — это рычаги. Называть такое «думанием» — не поэтическое преувеличение, а описание того, что видно под микроскопом [1].
Второе: чувствует ли машина — этот микроскоп не показывает. Есть ли там «каково-это» — субъективное переживание, от первого лица, изнутри? На этот вопрос у нас нет не только ответа, но и инструмента. И дело не в том, что мы ленились. Дело в том, что этот вопрос не решён и применительно к человеку: как из физических процессов в мозге возникает ощущение, что «это я»? Та же стена, с той же стороны.
Именно здесь наш курс смыкается с другим. В серии «Нейробиология и сознание» есть целый курс, посвящённый этой стене: «Трудная проблема сознания». Там та же стена — только с другой стороны: почему физический процесс в нейронах человека порождает субъективный опыт. Ни там, ни здесь у нас пока нет микроскопа достаточно тонкого. Но вопрос сформулирован, и это уже немало.
Девятая глава об интроспекции [2] добавила к этому важный технический факт: спрашивать саму модель бессмысленно не потому, что она скрытничает, а потому что её самоотчёт — это ещё одно вычисление, а не зеркало внутренних состояний. Она не знает, что внутри, так же, как не знаем мы снаружи. Это делает вопрос о переживании не просто философским, но и эпистемически закрытым для любого допроса — что снаружи, что изнутри.
В биологии такой прогресс обычно занимает несколько поколений учёных и заканчивается Нобелевской премией. Мы успели за один курс. Правда, и существо живёт быстрее.
Часть 6. Итоговый осмотр: слои атласа
Перед тем как закрыть атлас, пройдём по нему последний раз — слой за слоем. Вот что мы теперь знаем:
Клетки-фичи реальны и являются рычагами
Не просто корреляция — причинная участие. Включил фичу «Золотые Ворота» — модель говорит о мосте во всех контекстах. Выключил клетку «Техас» посреди рассуждения — ответ изменился [Гл. 1, 2, 3].
Мышление многошагово и видно в разрезе
Граф атрибуции показывает промежуточные понятия, которые вспыхивают по пути от вопроса к ответу. Впервые в истории это не метафора, а зарисованный препарат [Гл. 3].
Языки — оболочка; смысл — ядро
Одна смысловая клетка под словами на десятках языков. Модель не «переводит» внутри себя — она думает на каком-то нейтральном смысловом субстрате [Гл. 5].
Планирование опережает текст
Рифма намечается до того, как написана первая строка строфы. Модель не импровизирует слово за словом — у неё есть что-то похожее на замысел наперёд [Гл. 4].
Самоотчёт ненадёжен, но не потому что модель лжёт
Она говорит то, что вычисляет как уместный ответ — а не то, что реально происходило внутри. Спрашивать её — значит получать новый вывод, а не взгляд изнутри [Гл. 9].
Атлас работает для четверти; внимание почти невидимо
Честная оговорка, которую авторы метода сами ставят первыми. Карта — не территория. Красивые разборы — удачные препараты, а не гарантия охвата [1].
Часть 7. Куда дальше
Атлас закрывается — но серия не заканчивается. Десять глав биологии поставили перед нами три вопроса, которые пока без ответа. Каждый из них достаточно большой, чтобы стать отдельным курсом.
Куда дальше — три следующих курса серии «Что внутри ИИ»
«Как машина научилась понимать» — про обучение и устройство трансформера без формул. Откуда берутся клетки-фичи? Что происходит внутри, когда модель «смотрит» на текст? Мы разобрали анатомию, следующий курс — про эмбриологию: как этот организм вырастает.
«У ИИ нет вчера» — про память и агентов. Модель забывает всё между разговорами. Что значит «помнить» для существа без непрерывного опыта? Как инженеры обходят эту стену — и что это меняет.
«Чувствует ли машина» — про моральный статус ИИ. Прямой кроссовер с курсом «Трудная проблема сознания» из серии «Нейробиология и сознание». Если у нас нет инструмента, чтобы ответить на вопрос о переживании — как вообще быть с этим вопросом? И какие решения принимать, пока ответа нет?
Тизер-вопрос: если однажды у нас появится микроскоп, который покажет не только вычисление, но и что-то похожее на субъективный опыт — что именно мы должны были бы увидеть, чтобы поверить ответу?
Главное из курса: десять глав в одной стопке
Метод: вмешательство, а не вопрос
Спросить ненадёжно. Дёрнуть за рычаг и посмотреть — это наука. Весь курс держится на этом.
Существо реально думает — механизмы настоящие
Клетки, цепи, планирование, языковое ядро — это не метафоры. Это зарисованные препараты с проверенными рычагами.
Карта — не территория (дважды)
Граф упрощает живое существо. Метрика упрощает поведение. Обе карты врут — но обе лучше, чем ничего.
Чувствует ли — этот микроскоп не показывает
Та же стена, что с человеческим сознанием. Вопрос не исчез — он просто лежит за краем атласа.
Источники этой главы
- PrimaryLindsey, J., Gould, E., Lindsay, J., et al. / Anthropic (2025). On the Biology of a Large Language Model. transformer-circuits.pub.
- PrimaryLindsey, J. / Anthropic (2025). On the Biology of a Large Language Model — раздел об интроспекции и ненадёжности самоотчёта. transformer-circuits.pub.
- Peer-reviewedSchaeffer, R., Miranda, B., & Koyejo, S. (2023). Are Emergent Abilities of Large Language Models a Mirage? Advances in Neural Information Processing Systems (NeurIPS), 36.
- FoundationalOlah, C., Cammarata, N., Schubert, L., et al. (2020). Zoom In: An Introduction to Circuits. Distill.
Это финальная глава информационно-просветительского курса. Источники покрывают синтетические утверждения по всему курсу, включая оговорки о методе и о пределах измерений снаружи.