Урок 1

Микроскоп для мысли

Глава 1. Мы построили существо, которое думает — и не понимаем как. Спросить его нельзя: оно ответит, но соврёт. Остаётся одно — взять микроскоп

Цели урока

К концу этого урока вы:

Почему мы не понимаем собственное создание — и почему «выращено» не то же самое, что «построено»
Почему нельзя просто спросить ИИ, как он думает, и поверить ответу
Что такое интерпретируемость и почему она похожа на биологию под микроскопом
Что такое фича (клетка-детектор смысла) на примере модели, одержимой мостом Золотые Ворота
Где у этого микроскопа границы — честно, с самого начала

Ну наконец-то! Заходи, я как раз тебя ждала. Погнали.

0:00 / 0:00

Натуралист при мягком свете смотрит в большой латунный микроскоп на светящийся полупрозрачный неведомый организм на предметном стекле, ощущение удивления перед чем-то невиданным, старинная лаборатория

Вот странность, к которой мы как-то слишком быстро привыкли. Человечество построило машину, которая пишет стихи, ставит диагнозы, переводит с языка, которого её не учили, и спорит о смысле жизни. И при этом ни один человек на Земле не знает, как именно она это делает. Не в общих чертах — в общих чертах знают многие. А по-настоящему, шаг за шагом: вот пришёл вопрос, вот внутри зажглось одно, потом другое, и поэтому получился такой ответ.

Это не лень инженеров и не секрет корпораций. Большую языковую модель никто не писал, как пишут программу, строка за строкой. Её вырастили. Показали ей чудовищное количество текста и заставили миллиарды раз угадывать следующее слово, чуть-чуть подправляя внутренние связи после каждой ошибки. В конце получилась сеть из сотен миллиардов чисел, которая работает — но устроена так, как сложилась сама, а не так, как удобно человеку.

Мы оказались в положении биолога, которому принесли живой организм невиданного вида и сказали: разберись, как он устроен.

И вот тут возникает соблазн, который мы сразу отметём: а давайте просто спросим её саму. Спросим: «как ты решила эту задачу?» Она охотно ответит. Беда в том, что её ответ — это ещё один сгенерированный текст, а не честный отчёт изнутри. Дальше в курсе мы поймаем модель на том, как она складывает числа одним способом, а рассказывает, что складывала совсем другим — тем, которому учат в школе. Спрашивать бесполезно. Остаётся одно: смотреть внутрь. Как биологи.

Что вы поймёте после этой главы

Почему мы не понимаем собственное создание — и почему «выращено» не то же самое, что «построено»
Почему нельзя просто спросить ИИ, как он думает, и поверить ответу
Что такое интерпретируемость и почему она похожа на биологию под микроскопом
Что такое фича (клетка-детектор смысла) на примере модели, одержимой мостом Золотые Ворота
Где у этого микроскопа границы — честно, с самого начала

Часть 1. Выращенное, а не построенное

Обычная программа прозрачна по построению. Кто-то её написал, значит, кто-то знает, что делает каждая строчка: если налогов больше нуля — добавить к сумме, иначе пропустить. Можно открыть код и прочитать замысел.

Большая языковая модель устроена иначе. Внутри неё нет строчек с замыслом. Есть слои — как ткани в организме, — а в них сотни миллиардов весов: просто чисел, которые говорят, насколько сильно один крошечный узел влияет на другой. Никто эти числа не расставлял вручную. Их настроило само обучение, понемногу сдвигая после каждой из триллионов попыток угадать следующее слово. Результат работает поразительно хорошо — и абсолютно непрозрачен. Это как геном: записано всё, но прочитать с листа, почему существо получилось именно таким, нельзя.

Почему это вообще проблема? Потому что мы доверяем этим системам всё более серьёзные вещи — медицину, тексты, решения. А доверять тому, чьё устройство ты не понимаешь, — рискованно. Если модель иногда уверенно врёт, мы хотим знать почему и когда, а не разводить руками. Понять, как она устроена внутри, — это не любопытство ради любопытства. Это техника безопасности.

🤔 Угадайте до ответа

Если спросить ИИ напрямую: «как ты только что решил эту задачу?» — можно ли доверять его ответу как честному отчёту о том, что происходило внутри?

Подсказка: вспомните, чем вообще является любой ответ модели. Это рассказ, сгенерированный так же, как и всё остальное, — а не показания свидетеля, который заглянул себе внутрь.

Часть 2. Метод биолога

Раз спросить нельзя, наука пошла другим путём — тем же, каким шла биология. Биолог не спрашивает у клетки, как она работает. Он берёт микроскоп, краситель, тонкий нож — и смотрит. Разглядывает ткани, прослеживает, какой сигнал куда идёт, аккуратно отключает одну часть и смотрит, что сломается.

Это направление называется интерпретируемость (по-английски interpretability). В 2025 году исследователи компании Anthropic выпустили работу с говорящим названием: «О биологии большой языковой модели» [1]. Само название — программа. Они впрямую предлагают изучать ИИ как невиданный организм: искать в нём «органы», «клетки» и «нервные пути», зарисовывать анатомию его мыслей. Этот курс — десять глав по мотивам их вскрытия, рассказанных по-человечески.

У микроскопа для мысли долгая родословная. Ещё в 2020 году Крис Олах и коллеги в манифесте «Zoom In» предложили смотреть на нейросети как на организмы, у которых есть свои «клетки» и «органы», и разглядывать их в упор [2]. Прошло пять лет — и из мечты это стало рабочим инструментом.

Нельзя допросить мысль. Но можно её препарировать.

Часть 3. Организм под микроскопом

Введём наш главный образ, который будет с нами все десять глав. Мы — натуралисты. Перед нами на стекле — странный полупрозрачный организм: большая языковая модель. Мы будем разглядывать его клетки, прослеживать нервные пути, рисовать анатомические атласы его мыслей и тыкать в него зондом, чтобы посмотреть, что дёрнется. Вот словарь, которым мы будем пользоваться весь курс.

В нашем микромире (биология)	В модели	Что это делает
Натуралист с микроскопом	Исследователь интерпретируемости	Смотрит внутрь живого мышления, а не спрашивает существо
Клетка-детектор	Фича (feature)	Загорается на одно понятие: «Золотые Ворота», «доллар», «лесть»
Нервный путь	Цепь (circuit)	Соединяет клетки-фичи в вычисление — анатомия одной мысли
Анатомический атлас	Граф атрибуции	Карта: кто на кого влияет внутри одной мысли
Препарат / чучело	Модель-заместитель	Упрощённая прозрачная копия, на которой удобно изучать живого зверя
Электрод / зонд	Активация и стиринг	Включаем или гасим фичу и смотрим, что меняется в поведении

Самое важное в этой таблице — четвёртая и пятая строки, потому что в них спрятан настоящий научный метод. Граф атрибуции показывает, что на что влияет. Но карта может и наврать. Поэтому решающий ход — вмешательство: если мы думаем, что вот эта клетка отвечает за «Техас», мы её насильно гасим или зажигаем и смотрим, поедет ли ответ следом. Поехал — значит, мы поняли правильно. Это разница между «увидел узор» и «доказал, что узор работает».

Две позиции наблюдателя. Снаружи видно только вопрос и ответ. Под микроскопом — цепочку клеток-фич, которые зажглись по дороге от вопроса к ответу.

Часть 4. Первая клетка: организм, одержимый мостом

Хватит теории — посмотрим в окуляр на настоящую клетку. В 2024 году исследователи нашли внутри модели Claude фичу — крошечный детектор, — которая зажигалась всякий раз, когда речь заходила о мосте Золотые Ворота в Сан-Франциско [3]. На картинке моста, на слове «Golden Gate», на упоминании Сан-Франциско — клетка вспыхивала.

А потом они сделали то, что биолог сделать не может, а анатом мысли — может: взяли зонд и насильно вывернули этой клетке яркость на максимум. И организм сошёл с ума самым трогательным образом. На вопрос «как дела?» он отвечал что-то про туман над пролётами моста. Просили рецепт — получался рецепт с видом на Золотые Ворота. Модель буквально стала одержима мостом: куда ни ткни, мысль сворачивала к нему. Эту версию в шутку назвали Golden Gate Claude.

Это маленькое хулиганство — на самом деле сильнейшее доказательство. Оно показывает, что фича — не наша выдумка, не красивая раскраска поверх чисел. Это рычаг: дёрнул — и поведение всего существа предсказуемо изменилось. Клетка-детектор реально участвует в мышлении, а не просто коррелирует с ним. Весь курс держится на этом приёме: не «мы заметили узор», а «мы дёрнули за него, и узор сработал».

Дальше в курсе мы дёрнем за клетку «Техас» посреди задачи про столицы (Глава 3), погасим намеченное слово-рифму в стихе (Глава 4) и подсунем модели чужую мысль, чтобы проверить, заметит ли она её в себе (Глава 9).

Часть 5. Честно о границах микроскопа

Прежде чем восхищаться, поставим рамку — в этой серии так заведено. Микроскоп для мысли пока грубоват, и сами авторы биологической работы первыми об этом говорят [1].

✓

что уже есть

Внутри реально находятся понятные клетки-фичи и цепи; вмешательство в них предсказуемо меняет поведение. Это не метафора, это рычаги.

✓

что уже есть

Впервые видно отдельные шаги мысли — промежуточные понятия, планирование, — а не только вход и выход.

⚠

чего пока нет

Метод срабатывает примерно для четверти разобранных примеров. Это не рентген всего подряд, а аккуратные вскрытия отдельных образцов.

⚠

чего пока нет

Граф — упрощённая копия (чучело), а не сам зверь. И целый «орган» — механизм внимания — современному микроскопу почти не виден.

Держите это в голове все десять глав: мы будем показывать красивые, разобранные до конца случаи — но это удачные примеры, доказательства существования, а не гарантия, что так устроено всё и всегда. Карта — не территория. И всё же впервые в истории у нас вообще есть карта.

А дальше — вглубь. Со второй главы мы возьмём в руки первый по-настоящему важный инструмент и разберёмся, что такое клетка-фича и почему один и тот же нейрон модели умеет думать сразу о множестве несвязанных вещей.

✋ Self-check

Сформулируйте в одном-двух предложениях: почему интерпретируемость изучает ИИ «как биолог под микроскопом», а не просто спрашивает его, как он думает? И что превращает замеченный узор в доказанный механизм?

Подсказка: первое слово — «отчёт ненадёжен». Второе — «вмешательство»: погасил клетку, и ответ поехал следом.

🔬

Большая языковая модель — единственный организм в истории биологии, который во время собственного вскрытия продолжает бодро давать советы по саморазвитию.
И на вопрос «что ты сейчас чувствуешь?» уверенно отвечает — вот только заглянуть в себя и проверить не может ровно так же, как и мы снаружи.

В следующей главе. Возьмём в руки первую клетку и разглядим её как следует. Что такое фича? Почему один-единственный нейрон модели зажигается и на «лягушек», и на «Канаду», и на знак вопроса — то есть думает о трёх несвязанных вещах сразу? И как из этой каши исследователи научились выделять чистые клетки-детекторы, каждая со своим единственным смыслом. Это называется суперпозиция, и без неё дальше не двинуться.

Источники этой главы

PrimaryLindsey, J., Gould, E., Lindsay, J., et al. / Anthropic (2025). On the Biology of a Large Language Model. transformer-circuits.pub. Главный источник всего курса. Разбор внутренних механизмов модели Claude через «графы атрибуции»: многошаговое рассуждение, планирование, многоязычие, арифметика, галлюцинации, отказы, джейлбрейки. Авторы честно перечисляют ограничения метода (работает для части примеров, упрощает, не видит внимание).
FoundationalOlah, C., Cammarata, N., Schubert, L., et al. (2020). Zoom In: An Introduction to Circuits. Distill. Манифест механистической интерпретируемости: предложение смотреть на нейросети как на организмы с «клетками» (features) и «цепями» (circuits) и разглядывать их в упор. Идейная основа «биологического» подхода. DOI: 10.23915/distill.00024.001
Peer-reviewedTempleton, A., Conerly, T., Marcus, J., et al. / Anthropic (2024). Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet. transformer-circuits.pub. Откуда взят пример с фичей «Золотые Ворота» и Golden Gate Claude: усиление одной фичи делает модель одержимой одним понятием — доказательство, что фичи причинно участвуют в мышлении.
Popular-expertAnthropic (2025). Tracing the thoughts of a large language model. anthropic.com (research blog). Доступное популярное изложение «биологической» работы для широкой аудитории, с наглядными примерами и оговорками о границах метода. Хороший вход в тему без специального образования.

Глава информационно-просветительская. Это рассказ о том, как устроено исследование ИИ, а не техническая инструкция и не руководство по машинному обучению.