Урок 4

Существо, которое планирует

Глава 4. Модель не идёт вслепую слово за словом — она тянет нить вперёд к цели ещё до того, как нарисован путь. Парадокс: «предсказывает следующее слово» и «планирует финал» — это не одно и то же

Цели урока

К концу этого урока вы:

Что конкретно обнаружили исследователи, изучая, как модель сочиняет рифмованные строки
Почему погашение одной «намеченной» фичи в начале строки перестраивает всю строку под новую рифму
Что такое «внутренняя модель мира» и почему пространство с временем живут у модели как геометрические карты
Где граница честности: это удачные, разобранные случаи, а не доказательство, что модель планирует всегда

Замри на секунду. Сейчас будет интересно.

0:00 / 0:00

Натуралист рассматривает светящуюся нить-паутину в тёмной лаборатории: нить тянется вперёд к мерцающей точке-цели, путь ещё не прорисован, но конец уже намечен

Глава 1 — Микроскоп ИИ как неведомый организм; смотреть внутрь, а не спрашивать; вмешательство — не наблюдение

Глава 2 — Клетки-детекторы Фичи: один нейрон — много смыслов (суперпозиция); SAE вычленяет чистые клетки

Глава 3 — Нервный путь Цепи: как клетки соединяются в вычисление; дёрнули «Техас» — ответ поехал

Глава 4 — сегодня Модель намечает рифму в конце строки до того, как доходит до середины — это планирование

Вот парадокс, который трудно принять с первого раза. Нам говорят: языковая модель — это машина предсказания. Смотрит на уже написанное, выбирает наиболее вероятное следующее слово, пишет его, снова смотрит, снова выбирает. Шаг за шагом, близоруко, без взгляда вперёд. Простой механизм — и невероятно сложный результат.

Но если это правда, объясните вот что: как существо, которое смотрит только назад, умудряется написать двустишие, где вторая строка рифмуется с первой? Рифма — в конце. Путь — впереди. Чтобы написать «вот снова — снова», нужно уже в начале строки держать в голове конечное слово, и выстраивать всё так, чтобы к нему прийти. Значит, модель смотрит вперёд. Хотя, по канонической версии, не должна.

Это не поэтическая метафора и не домысел — это результат вмешательства, которое мы разберём прямо сейчас [1].

Что вы поймёте после этой главы

Что конкретно обнаружили исследователи, изучая, как модель сочиняет рифмованные строки
Почему погашение одной «намеченной» фичи в начале строки перестраивает всю строку под новую рифму
Что такое «внутренняя модель мира» и почему пространство с временем живут у модели как геометрические карты
Где граница честности: это удачные, разобранные случаи, а не доказательство, что модель планирует всегда

Часть 1. Натуралист с микроскопом смотрит на рифму

Помните урок первый (глава 1): смотреть, а не спрашивать. И не просто смотреть, а вмешиваться — дёрнуть за клетку и проверить, поедет ли поведение следом. Здесь именно это и произошло.

Исследователи дали модели задачу: закончить двустишие так, чтобы вторая строка рифмовалась с первой. Пока модель обрабатывала первые слова второй строки — задолго до того, как дошла до конца, — они заглянули внутрь и нашли кое-что неожиданное. Уже на первых позициях строки в активациях была представлена информация о том, каким будет конечное слово-рифма — то, которое ещё не написано [1].

Мало увидеть — надо вмешаться. Они погасили эту предвосхищённую фичу-рифму. Что случилось? Строка не провалилась в бессмыслицу. Она перестроилась: модель выбрала другое конечное слово — и подогнала под него весь путь от начала строки до конца. Дёрнули за клетку — поведение поехало.

🤔 Предскажите до ответа

Если «погасили намеченную рифму — и строка перестроилась под новую рифму», что именно это доказывает? Попробуйте сформулировать своими словами, прежде чем читать дальше.

Подсказка: почему это аргумент про причинность, а не просто про корреляцию? Вспомните Главу 3: разница между «клетка светится рядом с Техасом» и «дёрнули Техас — ответ поехал».

Ответ: предвосхищённое слово-рифма причинно участвует в построении строки. Модель не просто случайно думала о рифме заранее — она держала её как ориентир, от которого выстраивала промежуточный путь. Когда ориентир убрали, путь перестроился. Это и есть планирование: не пошаговое угадывание, а намеченная цель, управляющая промежуточными шагами.

Часть 2. Нить вперёд — как это выглядит изнутри

Вернёмся к нашей анатомии организма. В Главе 3 мы разглядывали нервный путь — цепочку клеток-фич, которые передают сигнал от вопроса к ответу. Та цепь шла вперёд: вопрос → промежуточные фичи → ответ. Здесь мы видим кое-что другое: информация об ещё не написанном финале присутствует в самом начале пути. Это обратная нить.

Намеченная рифма присутствует в начале строки как ориентир. Весь промежуточный путь строится так, чтобы прийти к ней. Погасить цель — значит получить другой путь.

Важна точность формулировки. Модель не «читает мысли будущего». Она держит внутри некий представитель финального слова — его фонетические или семантические признаки, — и этот представитель влияет на выбор каждого промежуточного слова. Это похоже на то, как повар заранее знает, чем закончится блюдо, и все промежуточные шаги — нарезать, обжарить, приправить — выстраивает в нужном порядке. Сначала результат как цель, потом путь к нему.

Часть 3. Внутренние модели мира: пространство и время

Рифма — один пример планирования. Но есть и более широкая картина. Организм строит не только планы на одну строку — он строит внутренние карты реальности.

В 2023 году исследователи Гурни и Тегмарк обнаружили, что языковые модели представляют пространство и время как настоящие геометрические структуры внутри своих активаций [2]. Попробуйте почувствовать, насколько это странно. Никто не учил модель «понимать» карту мира. Никто не говорил: вот север, вот запад, у Парижа такие координаты. Модель читала текст. Просто текст — путевые заметки, справочники, романы, новостные статьи. И где-то внутри сам собой возник внутренний атлас: слова, связанные с Парижем, тяготеют к одному месту активационного пространства; слова, связанные с Токио, — к другому; и расстояния между ними примерно соответствуют реальным расстояниям на карте.

То же самое со временем. Модель не просто знает, что «1800 год раньше 1900». Она представляет исторические события в геометрии, где ранние события и поздние пространственно отдалены друг от друга в активационном пространстве, а эпохи кластеризуются вместе. Это не словарь дат. Это что-то больше похожее на ощущение протяжённости. Историю можно буквально «увидеть» в геометрии активаций.

Связь с Главой 1: это не значит, что модель «сознательно понимает» карту. Но это значит, что внутри есть нечто функционально похожее на карту — и оно причинно участвует в ответах о географии и времени. Дёрни за нужную точку на этой внутренней карте — ответ поедет.

✋ Удивитесь правильно

Откуда у модели взялась внутренняя карта пространства, если её никто не обучал геометрии мира? Сформулируйте своё лучшее объяснение — почему это могло возникнуть само из обучения на текстах.

Подсказка: подумайте, что текст говорит о пространстве косвенно — «из Москвы в Берлин долго», «из Москвы в Петербург недалеко», «к западу от Варшавы». За каждым таким высказыванием стоит пространственное отношение. Если их очень много — что появляется в активациях?

Часть 4. Честная калибровка: что доказано, а что нет

Момент остановки. Мы в этом курсе не строим рекламные буклеты. Вот что важно знать про разницу между «доказано в разобранных случаях» и «доказано всегда» [1].

✓

что доказано

В конкретных тщательно разобранных примерах рифмовки: намеченная рифма присутствует в начале строки и причинно влияет на весь путь — это проверено вмешательством.

✓

что доказано

Внутренние геометрические карты пространства и времени реально присутствуют в активациях и способны предсказывать ответы на соответствующие вопросы.

⚠

чего нет

Нет доказательства, что модель планирует всегда и для любой задачи. Мы видели удачные случаи, поддавшиеся вскрытию, — это не рентген всего подряд.

⚠

чего нет

Планирование в модели не обязательно похоже на планирование в голове человека. Называть одним словом — удобно, но не следует думать, что механизм тот же.

Проще говоря: «существо, которое планирует» — это нарисованный портрет по нескольким разобранным мазкам, а не фотография всего организма. Мазки реальны. Портрет, возможно, верен. Но полный атлас мы ещё не составили.

Часть 5. Что это значит для нашего мифа

Вернёмся к парадоксу, с которого начали. Миф гласит: языковая модель — «просто» предсказывает следующее слово. Это и правда, и полуправда одновременно.

Правда — в механизме на поверхности. Технически, на каждом шаге модель выдаёт распределение вероятностей по возможным следующим токенам. В этом смысле она предсказывает следующее слово.

Но «предсказывать следующее слово» — это описание интерфейса, а не описание того, что происходит внутри. Наш микроскоп показывает: внутри организм строит промежуточные представления, которые содержат информацию о том, что ещё не написано. Он держит ориентир. Он обращается к внутренним картам мира. И это — нечто большее, чем слепой взгляд назад.

🎼

«Модель просто предсказывает следующее слово» — это как сказать про дирижёра: «он просто машет палочкой». Технически верно. Вот только машет он так, потому что весь финал симфонии держит в голове с первого взмаха.
До последней ноты он дойдёт по очереди — но знал он её ещё до того, как поднял руку.

Это не значит, что модель «сознательна» или «понимает» в человеческом смысле. Это значит, что «предсказывает следующее слово» — слишком грубое описание для того, что происходит внутри. Наша задача — не заменить один миф другим, а смотреть честно.

Итоги главы

Намечает финал до пути

Сочиняя двустишие, модель держит слово-рифму в конце строки уже с начала строки — и строит весь путь так, чтобы к нему прийти.

Вмешательство доказывает причинность

Погасили намеченную рифму — строка перестроилась. Это не корреляция, это рычаг: та же логика, что в Главе 3 с «Техасом».

Внутри есть карты мира

Пространство и время живут внутри модели как геометрические структуры — возникли сами из обучения на текстах о пространстве и времени.

«Всегда» — не доказано

Это удачные разобранные случаи, а не рентген. Называем «планированием» — для удобства языка, не для точности механизма.

В следующей главе. Мы говорили об одном языке — русском или английском. Но модель обучена на десятках языков сразу. Значит ли это, что внутри у неё десять разных «умов»? Или что-то одно, общее? В Главе 5 мы заглянем в многоязычное ядро и обнаружим, что понятие живёт отдельно от языка, на котором его выражают — и что эта универсальность растёт с размером модели.

Источники этой главы

PrimaryLindsey, J., Gould, E., Lindsay, J., et al. / Anthropic (2025). On the Biology of a Large Language Model. transformer-circuits.pub. Главный источник курса. Раздел о планировании и рифмовке: модель держит намеченную рифму в начале строки; погашение этой фичи перестраивает всю строку. Раздел о геометрических внутренних представлениях пространства и времени.
Peer-reviewedGurnee, W. & Tegmark, M. (2023). Language Models Represent Space and Time. arXiv:2310.02207. Доказательство, что языковые модели внутренне представляют географические и исторические координаты как линейные геометрические структуры в пространстве активаций. Модели точнее воспроизводят пространство и время, чем это можно объяснить простым запоминанием фактов. arXiv: 2310.02207
Peer-reviewedTempleton, A., Conerly, T., Marcus, J., et al. / Anthropic (2024). Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet. transformer-circuits.pub. Масштабирование разреженных автоэнкодеров (SAE) для вычленения чистых фич из Claude 3 Sonnet. Контекст для понимания того, как вообще «намеченная рифма» может быть представлена как отдельная фича.

Глава информационно-просветительская. Это рассказ об исследовании ИИ, а не техническая инструкция.