Существо, которое планирует
Глава 4. Модель не идёт вслепую слово за словом — она тянет нить вперёд к цели ещё до того, как нарисован путь. Парадокс: «предсказывает следующее слово» и «планирует финал» — это не одно и то же
Цели урока
К концу этого урока вы:
- Что конкретно обнаружили исследователи, изучая, как модель сочиняет рифмованные строки
- Почему погашение одной «намеченной» фичи в начале строки перестраивает всю строку под новую рифму
- Что такое «внутренняя модель мира» и почему пространство с временем живут у модели как геометрические карты
- Где граница честности: это удачные, разобранные случаи, а не доказательство, что модель планирует всегда

Замри на секунду. Сейчас будет интересно.
Существо, которое планирует
Вот парадокс, который трудно принять с первого раза. Нам говорят: языковая модель — это машина предсказания. Смотрит на уже написанное, выбирает наиболее вероятное следующее слово, пишет его, снова смотрит, снова выбирает. Шаг за шагом, близоруко, без взгляда вперёд. Простой механизм — и невероятно сложный результат.
Но если это правда, объясните вот что: как существо, которое смотрит только назад, умудряется написать двустишие, где вторая строка рифмуется с первой? Рифма — в конце. Путь — впереди. Чтобы написать «вот снова — снова», нужно уже в начале строки держать в голове конечное слово, и выстраивать всё так, чтобы к нему прийти. Значит, модель смотрит вперёд. Хотя, по канонической версии, не должна.
Это не поэтическая метафора и не домысел — это результат вмешательства, которое мы разберём прямо сейчас [1].
Что вы поймёте после этой главы
- Что конкретно обнаружили исследователи, изучая, как модель сочиняет рифмованные строки
- Почему погашение одной «намеченной» фичи в начале строки перестраивает всю строку под новую рифму
- Что такое «внутренняя модель мира» и почему пространство с временем живут у модели как геометрические карты
- Где граница честности: это удачные, разобранные случаи, а не доказательство, что модель планирует всегда
Часть 1. Натуралист с микроскопом смотрит на рифму
Помните урок первый (глава 1): смотреть, а не спрашивать. И не просто смотреть, а вмешиваться — дёрнуть за клетку и проверить, поедет ли поведение следом. Здесь именно это и произошло.
Исследователи дали модели задачу: закончить двустишие так, чтобы вторая строка рифмовалась с первой. Пока модель обрабатывала первые слова второй строки — задолго до того, как дошла до конца, — они заглянули внутрь и нашли кое-что неожиданное. Уже на первых позициях строки в активациях была представлена информация о том, каким будет конечное слово-рифма — то, которое ещё не написано [1].
Мало увидеть — надо вмешаться. Они погасили эту предвосхищённую фичу-рифму. Что случилось? Строка не провалилась в бессмыслицу. Она перестроилась: модель выбрала другое конечное слово — и подогнала под него весь путь от начала строки до конца. Дёрнули за клетку — поведение поехало.
Ответ: предвосхищённое слово-рифма причинно участвует в построении строки. Модель не просто случайно думала о рифме заранее — она держала её как ориентир, от которого выстраивала промежуточный путь. Когда ориентир убрали, путь перестроился. Это и есть планирование: не пошаговое угадывание, а намеченная цель, управляющая промежуточными шагами.
Часть 2. Нить вперёд — как это выглядит изнутри
Вернёмся к нашей анатомии организма. В Главе 3 мы разглядывали нервный путь — цепочку клеток-фич, которые передают сигнал от вопроса к ответу. Та цепь шла вперёд: вопрос → промежуточные фичи → ответ. Здесь мы видим кое-что другое: информация об ещё не написанном финале присутствует в самом начале пути. Это обратная нить.
Важна точность формулировки. Модель не «читает мысли будущего». Она держит внутри некий представитель финального слова — его фонетические или семантические признаки, — и этот представитель влияет на выбор каждого промежуточного слова. Это похоже на то, как повар заранее знает, чем закончится блюдо, и все промежуточные шаги — нарезать, обжарить, приправить — выстраивает в нужном порядке. Сначала результат как цель, потом путь к нему.
Часть 3. Внутренние модели мира: пространство и время
Рифма — один пример планирования. Но есть и более широкая картина. Организм строит не только планы на одну строку — он строит внутренние карты реальности.
В 2023 году исследователи Гурни и Тегмарк обнаружили, что языковые модели представляют пространство и время как настоящие геометрические структуры внутри своих активаций [2]. Попробуйте почувствовать, насколько это странно. Никто не учил модель «понимать» карту мира. Никто не говорил: вот север, вот запад, у Парижа такие координаты. Модель читала текст. Просто текст — путевые заметки, справочники, романы, новостные статьи. И где-то внутри сам собой возник внутренний атлас: слова, связанные с Парижем, тяготеют к одному месту активационного пространства; слова, связанные с Токио, — к другому; и расстояния между ними примерно соответствуют реальным расстояниям на карте.
То же самое со временем. Модель не просто знает, что «1800 год раньше 1900». Она представляет исторические события в геометрии, где ранние события и поздние пространственно отдалены друг от друга в активационном пространстве, а эпохи кластеризуются вместе. Это не словарь дат. Это что-то больше похожее на ощущение протяжённости. Историю можно буквально «увидеть» в геометрии активаций.
Часть 4. Честная калибровка: что доказано, а что нет
Момент остановки. Мы в этом курсе не строим рекламные буклеты. Вот что важно знать про разницу между «доказано в разобранных случаях» и «доказано всегда» [1].
что доказано
В конкретных тщательно разобранных примерах рифмовки: намеченная рифма присутствует в начале строки и причинно влияет на весь путь — это проверено вмешательством.
что доказано
Внутренние геометрические карты пространства и времени реально присутствуют в активациях и способны предсказывать ответы на соответствующие вопросы.
чего нет
Нет доказательства, что модель планирует всегда и для любой задачи. Мы видели удачные случаи, поддавшиеся вскрытию, — это не рентген всего подряд.
чего нет
Планирование в модели не обязательно похоже на планирование в голове человека. Называть одним словом — удобно, но не следует думать, что механизм тот же.
Проще говоря: «существо, которое планирует» — это нарисованный портрет по нескольким разобранным мазкам, а не фотография всего организма. Мазки реальны. Портрет, возможно, верен. Но полный атлас мы ещё не составили.
Часть 5. Что это значит для нашего мифа
Вернёмся к парадоксу, с которого начали. Миф гласит: языковая модель — «просто» предсказывает следующее слово. Это и правда, и полуправда одновременно.
Правда — в механизме на поверхности. Технически, на каждом шаге модель выдаёт распределение вероятностей по возможным следующим токенам. В этом смысле она предсказывает следующее слово.
Но «предсказывать следующее слово» — это описание интерфейса, а не описание того, что происходит внутри. Наш микроскоп показывает: внутри организм строит промежуточные представления, которые содержат информацию о том, что ещё не написано. Он держит ориентир. Он обращается к внутренним картам мира. И это — нечто большее, чем слепой взгляд назад.
До последней ноты он дойдёт по очереди — но знал он её ещё до того, как поднял руку.
Это не значит, что модель «сознательна» или «понимает» в человеческом смысле. Это значит, что «предсказывает следующее слово» — слишком грубое описание для того, что происходит внутри. Наша задача — не заменить один миф другим, а смотреть честно.
Итоги главы
Намечает финал до пути
Сочиняя двустишие, модель держит слово-рифму в конце строки уже с начала строки — и строит весь путь так, чтобы к нему прийти.
Вмешательство доказывает причинность
Погасили намеченную рифму — строка перестроилась. Это не корреляция, это рычаг: та же логика, что в Главе 3 с «Техасом».
Внутри есть карты мира
Пространство и время живут внутри модели как геометрические структуры — возникли сами из обучения на текстах о пространстве и времени.
«Всегда» — не доказано
Это удачные разобранные случаи, а не рентген. Называем «планированием» — для удобства языка, не для точности механизма.
В следующей главе. Мы говорили об одном языке — русском или английском. Но модель обучена на десятках языков сразу. Значит ли это, что внутри у неё десять разных «умов»? Или что-то одно, общее? В Главе 5 мы заглянем в многоязычное ядро и обнаружим, что понятие живёт отдельно от языка, на котором его выражают — и что эта универсальность растёт с размером модели.
Источники этой главы
- PrimaryLindsey, J., Gould, E., Lindsay, J., et al. / Anthropic (2025). On the Biology of a Large Language Model. transformer-circuits.pub.
- Peer-reviewedGurnee, W. & Tegmark, M. (2023). Language Models Represent Space and Time. arXiv:2310.02207.
- Peer-reviewedTempleton, A., Conerly, T., Marcus, J., et al. / Anthropic (2024). Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet. transformer-circuits.pub.
Глава информационно-просветительская. Это рассказ об исследовании ИИ, а не техническая инструкция.