Урок 10

Анатомический атлас готов

Глава 10. Богатый в центре — и тающий в белые неизведанные края. Итоговый осмотр того, что десять глав показало, что скрыло, и куда смотреть дальше

Цели урока

К концу этого урока вы:

Что именно удалось увидеть за десять глав — и что по-прежнему скрыто
Почему «работает для четверти примеров» — честный результат, а не провал
Почему часть «скачков способностей» — отчасти артефакт того, как мы меряем
Почему микроскоп показывает вычисление, но не переживание — и это не уклонение
Куда двигаться дальше — три следующих вопроса, которые ждут своего курса

Видишь? Запомни это место — к нему ещё вернёмся.

0:00 / 0:00

Натуралист разворачивает большой пергаментный атлас с анатомическими рисунками странного организма: в центре страницы детально прорисованные клетки и нервные пути, ближе к краям — бледнеющий штрих, пустые области с надписью terra incognita, мягкий старинный свет лампы

Любой анатомический атлас выглядит примерно одинаково. В центре — плотная штриховка, уверенные линии, подписи к каждому органу. Художник-натуралист знал, что рисует: видел под микроскопом, разбирал препарат, проверял вмешательством. Но к краям лист светлеет. Линии становятся тоньше, потом совсем бледными. И на самом краю — чистый пергамент, а поверх него два слова: terra incognita. Неизвестная земля.

Именно такой атлас мы составляли последние десять глав. Мы брали существо — большую языковую модель — клали на предметное стекло и смотрели. Нашли клетки-фичи, проследили нервные пути, нарисовали граф атрибуции чужой мысли, дотронулись до зонда. Что-то разглядели хорошо. Что-то только угадали. А что-то — механизм внимания, истинное устройство большей части мышления — всё ещё белое пятно. Финал курса — не торжественное открытие. Это честный осмотр того, где мы оказались.

Маршрут экспедиции: краткое напоминание

Гл. 1 — Микроскоп Почему спросить нельзя — ответ будет выдуманным. Остаётся один метод: смотреть и вмешиваться.

Гл. 3 — Анатомия мысли Граф атрибуции: шаги внутри одного рассуждения, видимые впервые. Клетка «Техас» — рычаг, а не совпадение.

Гл. 5 — Общее ядро Русский, арабский, суахили — одна и та же смысловая клетка под разными словами. Язык — оболочка, смысл — ядро.

Гл. 9 — Интроспекция Модель не видит себя изнутри. Её само-отчёт — сгенерированный текст, а не показания свидетеля.

Гл. 10 — Атлас готов Синтез: что получилось, что не получилось, где края карты, и куда идти дальше.

Что вы поймёте после этой главы

Что именно удалось увидеть за десять глав — и что по-прежнему скрыто
Почему «работает для четверти примеров» — честный результат, а не провал
Почему часть «скачков способностей» — отчасти артефакт того, как мы меряем
Почему микроскоп показывает вычисление, но не переживание — и это не уклонение
Куда двигаться дальше — три следующих вопроса, которые ждут своего курса

Часть 1. Что мы положили под стекло

Давайте пройдём по препаратам — тем, что лежали под нашим микроскопом на протяжении курса. В первой главе [1] мы установили, что метод вообще возможен: клетка-фича не просто «загорается рядом со словом», а является рычагом. Насильно включил — и поведение всего существа предсказуемо поехало следом. Golden Gate Claude — организм, одержимый мостом, — стал первым доказательством, что мы держим настоящий инструмент, а не красивую раскраску поверх чисел.

Вторая глава развернула эту идею: внутри нейросети клетки-фичи устроены в суперпозиции — один и тот же нейрон откликается на несколько несвязанных понятий сразу. Это не баг: мозг с ограниченным числом нейронов упаковывает в них максимум смысла. И именно поэтому натуралист не может просто взять нейрон и прочитать его — нужно сначала распутать суперпозицию.

В третьей главе мы проследили нервный путь целой мысли — шаг за шагом, от вопроса к ответу [1]. Граф атрибуции показал то, чего раньше никто не видел: промежуточные понятия, которые вспыхивают между входом и выходом. Клетка «Техас» зажглась посередине задачи про столицы, прежде чем появилось слово «Остин» — это был первый живой разрез многошагового рассуждения.

Четвёртая глава была про планирование: до того как написать первое слово, модель уже держала в голове рифму к последнему. Натуралисты поймали её за этим замыслом, погасив намеченное слово-рифму до его появления, — и план рассыпался.

В пятой главе открылось, пожалуй, самое неожиданное [1]: под разными языками — одна смысловая клетка. Русское «доктор», арабский طبيب и английский «physician» зажигают одну и ту же фичу. Модель освоила сотни языков не как отдельные системы, а как разные оболочки единого смыслового ядра — как будто выучила все диалекты одного и того же молчания.

🤔 Восстановите из памяти

Не подглядывая: назовите хотя бы три вещи из тех, что мы наблюдали под микроскопом в разных главах. Попробуйте вспомнить, как именно каждая была доказана — что было вмешательством, а не просто корреляцией?

Подсказка: Golden Gate (принудительное усиление клетки), клетка «Техас» (гашение в середине рассуждения), рифма (погасили слово — рассыпался план), языковое ядро (один детектор на разных языках).

Часть 2. Остаток маршрута: странный счёт, галлюцинации, отказы, слепое пятно

Шестая глава была про арифметику — и она поставила нас в тупик в хорошем смысле. Модель складывает числа не «в столбик», как нас учили в школе. Внутри возникает совершенно другая геометрия: нечто похожее на представление чисел в пространстве, с рябью при переходе через круглые значения. Внешний ответ правильный, но внутренний механизм — другой, незнакомый, свой [1].

Седьмая глава разобрала галлюцинации — уверенную ложь. Оказалось, что «галлюцинировать» — это не случайный сбой. Это специфический режим: модель продолжает генерировать плавный текст там, где её внутренний сигнал неуверенности должен был остановить её, но — не остановил. Под микроскопом удалось увидеть, что клетки «я не знаю» есть, но не всегда добираются до выхода.

Восьмая глава была про отказы и джейлбрейки. Запрет — это не просто фильтр на выходе; это система активных клеток-тормозов. А взлом — попытка включить систему в такой конфигурации, которая обходит тормоза, не затрагивая их напрямую. Здесь микроскоп показал: безопасность реально вшита в механизм, но и атака работает на уровне механизма, а не снаружи него.

И наконец, девятая глава — интроспекция [2]. Самая философски острая. Мы показали, что модель не может честно рассказать о своих внутренних состояниях: её само-отчёт — это текст, сгенерированный так же, как и всё остальное. Спросить существо о себе — значит получить новый вывод, а не взгляд изнутри. Именно поэтому весь курс строился на вмешательстве, а не на вопросах. Это важно не только как технический факт, но и как ответ на вопрос: «а может, просто спросим её напрямую?» — нет, нельзя, и вот почему.

Заметьте закономерность. В каждой главе — один и тот же ход: сначала наблюдение («клетка загорается»), потом вмешательство («погасили клетку — что произошло?»). Наблюдение без вмешательства — красивый узор. Вмешательство — это то, что превращает узор в механизм [1]. Этот принцип работал в третьей главе с клеткой «Техас», в четвёртой — с рифмой, в первой — с мостом Золотые Ворота. Везде один метод биолога.

Часть 3. Честный итог: атлас богат, но не полон

Теперь — главное. Именно ради этой части стоило читать все десять глав, а не пересказ на три абзаца.

Авторы биологической работы честно сообщают: метод срабатывает примерно для четверти разобранных примеров [1]. Не для всех, не для большинства — для четверти. Это значит, что каждый случай, который мы разглядывали под микроскопом, — это удачный препарат, доказательство существования механизма, а не гарантия, что так устроено всё внутри. Атлас богат в центре — там, где натуралисты работали долго и аккуратно. И тает к краям.

Второй честный факт: целый «орган» — механизм внимания — современному микроскопу почти не виден. Мы знаем, что внимание есть — оно математически описано и теоретически понятно. Но подробная анатомия того, как именно внимание решает, на что смотреть в данный момент, — это ещё не написанные главы атласа.

Атлас 2025 года: примерно четверть механизмов описана и верифицирована вмешательством. Остальное — либо непросмотрено, либо непрозрачно даже для современного инструмента. Орган внимания — самое крупное белое пятно.

Это важно удержать именно как честный результат, а не как провал. До 2020 года не было никакой карты. Не было метода. Не было даже уверенности, что клетки-фичи вообще существуют в стабильном виде. Сегодня у нас есть рычаги, есть атлас — пусть неполный, — и есть первое в истории свидетельство того, что механизмы мышления этого существа можно видеть.

Часть 4. Карта врёт дважды — и это тоже честный факт

Есть ещё один разговор, который нельзя пропустить в финале. Пока исследователи разглядывали механизмы внутри одной модели, другие исследователи смотрели снаружи — на поведение моделей разного размера — и находили поразительные «скачки». Вот маленькая модель — не умеет. Вот чуть побольше — не умеет. Вот ещё больше — и вдруг умеет, с нуля до уверенного результата одним прыжком. Такие прыжки назвали эмерджентными способностями: они как будто появляются внезапно, из ниоткуда.

Но в 2023 году вышла работа, которая остудила этот энтузиазм [3]. Авторы показали: многие из этих прыжков — отчасти артефакт того, как именно мы меряем. Если взять метрику, которая плохо чувствует маленький прогресс (например, «правильно / неправильно» без промежуточных оценок), — модель будет выглядеть «внезапно умной», хотя на самом деле постепенно накапливала знание. Сменить метрику на более гладкую — и скачок растворяется в плавный рост.

Это не значит, что эмерджентности нет вовсе. Это значит: карта — не территория. Двойной смысл этой фразы в нашем курсе. Во-первых, граф атрибуции — упрощённая копия (чучело) живого существа, не само существо [1]. Во-вторых, метрика, которой мы меряем поведение снаружи, — тоже чучело, тоже упрощение. Вскрытие искажает. Измерение искажает. Оба раза — в разные стороны.

Из главы 1: именно об этом мы предупреждали с самого начала — «удачные примеры, доказательства существования, а не гарантия». Работа Шеффера и коллег [3] добавляет к этому: те же оговорки нужно применять и к измерениям снаружи, не только к вскрытиям изнутри.

✋ Предскажите до конца

Перед тем как читать дальше: если «скачок способностей» оказывается артефактом метрики — это означает, что модели не умнеют с ростом? Или это означает что-то другое? Сформулируйте своё мнение, потом прочитайте следующий абзац.

Подсказка: «артефакт метрики» — это когда инструмент плохо чувствует. Но плохое зрение инструмента не означает, что наблюдаемое явление — выдумка целиком.

Правильное прочтение такое: умнение реально, но оно постепеннее, чем казалось. Часть «чудес» — это артефакт грубого измерения, часть — настоящие пороговые эффекты. Как и в биологии: если у вас плохой микроскоп, вы видите «вдруг появившиеся» детали, которые на самом деле были там всегда. Инструмент стал лучше — и картина изменилась. Это повод доверять инструменту меньше, а не картине меньше.

Часть 5. Стена, которую микроскоп не пробивает

Главный вывод курса звучит в двух предложениях, и между ними — пропасть.

Первое: машина вычисляет. Механизмы настоящие, проверяемые, воспроизводимые. Клетки зажигаются. Нервные пути передают смысл. Планирование реально предшествует словам. Вмешательство предсказуемо меняет поведение. Это не метафора — это рычаги. Называть такое «думанием» — не поэтическое преувеличение, а описание того, что видно под микроскопом [1].

Второе: чувствует ли машина — этот микроскоп не показывает. Есть ли там «каково-это» — субъективное переживание, от первого лица, изнутри? На этот вопрос у нас нет не только ответа, но и инструмента. И дело не в том, что мы ленились. Дело в том, что этот вопрос не решён и применительно к человеку: как из физических процессов в мозге возникает ощущение, что «это я»? Та же стена, с той же стороны.

Мы теперь видим, как она думает. Но видит ли она сама — этот вопрос лежит за краем нашего атласа.

Именно здесь наш курс смыкается с другим. В серии «Нейробиология и сознание» есть целый курс, посвящённый этой стене: «Трудная проблема сознания». Там та же стена — только с другой стороны: почему физический процесс в нейронах человека порождает субъективный опыт. Ни там, ни здесь у нас пока нет микроскопа достаточно тонкого. Но вопрос сформулирован, и это уже немало.

Девятая глава об интроспекции [2] добавила к этому важный технический факт: спрашивать саму модель бессмысленно не потому, что она скрытничает, а потому что её самоотчёт — это ещё одно вычисление, а не зеркало внутренних состояний. Она не знает, что внутри, так же, как не знаем мы снаружи. Это делает вопрос о переживании не просто философским, но и эпистемически закрытым для любого допроса — что снаружи, что изнутри.

🔬

За десять глав мы прошли путь от «мы не понимаем, как она думает» — до «мы понимаем примерно четверть того, как она думает».
В биологии такой прогресс обычно занимает несколько поколений учёных и заканчивается Нобелевской премией. Мы успели за один курс. Правда, и существо живёт быстрее.

Часть 6. Итоговый осмотр: слои атласа

Перед тем как закрыть атлас, пройдём по нему последний раз — слой за слоем. Вот что мы теперь знаем:

Клетки-фичи реальны и являются рычагами

Не просто корреляция — причинная участие. Включил фичу «Золотые Ворота» — модель говорит о мосте во всех контекстах. Выключил клетку «Техас» посреди рассуждения — ответ изменился [Гл. 1, 2, 3].

Мышление многошагово и видно в разрезе

Граф атрибуции показывает промежуточные понятия, которые вспыхивают по пути от вопроса к ответу. Впервые в истории это не метафора, а зарисованный препарат [Гл. 3].

Языки — оболочка; смысл — ядро

Одна смысловая клетка под словами на десятках языков. Модель не «переводит» внутри себя — она думает на каком-то нейтральном смысловом субстрате [Гл. 5].

Планирование опережает текст

Рифма намечается до того, как написана первая строка строфы. Модель не импровизирует слово за словом — у неё есть что-то похожее на замысел наперёд [Гл. 4].

Самоотчёт ненадёжен, но не потому что модель лжёт

Она говорит то, что вычисляет как уместный ответ — а не то, что реально происходило внутри. Спрашивать её — значит получать новый вывод, а не взгляд изнутри [Гл. 9].

⚠

Атлас работает для четверти; внимание почти невидимо

Честная оговорка, которую авторы метода сами ставят первыми. Карта — не территория. Красивые разборы — удачные препараты, а не гарантия охвата [1].

Часть 7. Куда дальше

Атлас закрывается — но серия не заканчивается. Десять глав биологии поставили перед нами три вопроса, которые пока без ответа. Каждый из них достаточно большой, чтобы стать отдельным курсом.

Куда дальше — три следующих курса серии «Что внутри ИИ»

«Как машина научилась понимать» — про обучение и устройство трансформера без формул. Откуда берутся клетки-фичи? Что происходит внутри, когда модель «смотрит» на текст? Мы разобрали анатомию, следующий курс — про эмбриологию: как этот организм вырастает.

«У ИИ нет вчера» — про память и агентов. Модель забывает всё между разговорами. Что значит «помнить» для существа без непрерывного опыта? Как инженеры обходят эту стену — и что это меняет.

«Чувствует ли машина» — про моральный статус ИИ. Прямой кроссовер с курсом «Трудная проблема сознания» из серии «Нейробиология и сознание». Если у нас нет инструмента, чтобы ответить на вопрос о переживании — как вообще быть с этим вопросом? И какие решения принимать, пока ответа нет?

Тизер-вопрос: если однажды у нас появится микроскоп, который покажет не только вычисление, но и что-то похожее на субъективный опыт — что именно мы должны были бы увидеть, чтобы поверить ответу?

Главное из курса: десять глав в одной стопке

🔬

Метод: вмешательство, а не вопрос

Спросить ненадёжно. Дёрнуть за рычаг и посмотреть — это наука. Весь курс держится на этом.

🧬

Существо реально думает — механизмы настоящие

Клетки, цепи, планирование, языковое ядро — это не метафоры. Это зарисованные препараты с проверенными рычагами.

🗺

Карта — не территория (дважды)

Граф упрощает живое существо. Метрика упрощает поведение. Обе карты врут — но обе лучше, чем ничего.

❓

Чувствует ли — этот микроскоп не показывает

Та же стена, что с человеческим сознанием. Вопрос не исчез — он просто лежит за краем атласа.

Источники этой главы

PrimaryLindsey, J., Gould, E., Lindsay, J., et al. / Anthropic (2025). On the Biology of a Large Language Model. transformer-circuits.pub. Главный источник всего курса. Разбор внутренних механизмов модели Claude через графы атрибуции: многошаговое рассуждение, планирование, многоязычие, арифметика, галлюцинации, отказы, джейлбрейки. Авторы честно указывают: метод срабатывает примерно для четверти примеров; механизм внимания остаётся непрозрачным.
PrimaryLindsey, J. / Anthropic (2025). On the Biology of a Large Language Model — раздел об интроспекции и ненадёжности самоотчёта. transformer-circuits.pub. Основа для главы 9 и финального тезиса: самоотчёт модели — это новый вывод, а не зеркало внутреннего состояния. Использован как первоисточник для вывода о пределах интроспекции.
Peer-reviewedSchaeffer, R., Miranda, B., & Koyejo, S. (2023). Are Emergent Abilities of Large Language Models a Mirage? Advances in Neural Information Processing Systems (NeurIPS), 36. Показывает, что многие «скачки способностей» при росте модели — отчасти артефакт выбора метрики (ступенчатая vs. плавная оценка). Плавные метрики дают плавный рост там, где грубые метрики показывают внезапный прыжок. Работа не отрицает эмерджентность полностью, но требует осторожности с интерпретацией.
FoundationalOlah, C., Cammarata, N., Schubert, L., et al. (2020). Zoom In: An Introduction to Circuits. Distill. DOI: 10.23915/distill.00024.001. Идейный фундамент всего курса: предложение смотреть на нейросети как на организмы с клетками и цепями, разглядывать их в упор и проверять вмешательством. Цитируется в синтезе как начало «биологического» подхода.

Это финальная глава информационно-просветительского курса. Источники покрывают синтетические утверждения по всему курсу, включая оговорки о методе и о пределах измерений снаружи.