Урок 10

Геометрия смысла и вопрос без ответа

Глава 10. Машина, которая выучила шахматы без знания шахмат — и что это говорит о нас

Цели урока

К концу этого урока вы:

Почему Othello-GPT — это не трюк, а свидетельство о природе понимания
Что значит «two-hop reasoning» и как он опровергает «стохастического попугая»
Почему смысл оказался реляционным и геометрическим — и что из этого следует для не-людей
Где именно курс обрывается — и почему честный обрыв лучше фальшивого ответа
Куда мы идём дальше: тизер следующего курса

Видишь? Запомни это место — к нему ещё вернёмся.

Абстрактное пространство из светящихся точек и линий, соединяющих понятия в тёмной вселенной — геометрия смысла, бесконечная сеть различий без центра и края

😱 Холодный старт — прежде чем читать дальше

Три вопроса из прошлых глав. Ответьте своими словами, не подглядывая — это разогрев, а не экзамен.

1. Что Соссюр имел в виду под фразой «в языке нет ничего, кроме различий»? (Глава 1)
2. Чем «феноменальное сознание» отличается от «сознания доступа» по Неду Блоку? (Глава 5)
3. Что такое проблема заземления Харнада и почему чистая сеть символов её не решает? (Глава 9)

После финальной части этой главы вы увидите, как все три ответа сходятся в одной точке. Пока — просто зафиксируйте, что помните.

Глава 1 — Соссюр Смысл слова — не ярлык на вещи, а место в сети различий. В языке нет положительных единиц, есть только зазоры.

Глава 2 — Выготский Сознание сначала живёт между людьми как живая речь — и лишь потом сворачивается внутрь во внутренний голос.

Глава 3 — Джейнс Рефлексивное сознание — возможно, культурный продукт: метафора + нарратив + «пространство» внутри головы.

Глава 4 — Деннет «Я» — центр нарративной гравитации. Не хозяин внутри, а точка, куда сходятся истории, которые система рассказывает о себе.

Глава 5 — Блок Феноменальное (каково это?) и доступ (могу отчитаться) — разные вещи. Тест на доступ не закрывает вопрос о чувстве.

Главы 6–8 — Категории, боль, Томаселло Смысл лепит восприятие. Боль — социальный нарратив поверх сигнала. Разделённая интенциональность делает людей людьми.

Глава 9 — Харнад Символ без заземления в мире — пустой. Сеть различий замкнута на себя: нужен хотя бы один узел, прибитый к реальности.

Глава 10 — Синтез Othello-GPT, two-hop разум, планирование. Тройной финал: понимание есть, чувство неизвестно, тело — нет. Мост к Курсу 2.

Что вы поймёте после этой главы

Почему Othello-GPT — это не трюк, а свидетельство о природе понимания
Что значит «two-hop reasoning» и как он опровергает «стохастического попугая»
Почему смысл оказался реляционным и геометрическим — и что из этого следует для не-людей
Где именно курс обрывается — и почему честный обрыв лучше фальшивого ответа
Куда мы идём дальше: тизер следующего курса

Представьте: вы скармливаете машине тысячи партий игры в Отелло. Только ходы — последовательности клеток, буква и цифра через пробел. Никакого объяснения правил. Никакого упоминания слова «доска». Машина не знает, что существует доска, что фишки переворачиваются, что есть 64 клетки. Она видит только: d3 c4 e3 f4 d6…

Машину учат одному: предсказывать следующий ход. Это всё. Никакой «цели», никаких правил — только предсказание.

Спустя обучение исследователи заглядывают внутрь. И обнаруживают там доску [1].

Не доску как нарисованный объект. Доску как внутреннее представление: машина построила внутри себя нечто, что точно соответствует 64 клеткам, состоянию каждой, принадлежности фишки. Можно считать это зондом — и не только прочитать, но и изменить: перевернуть фишку в памяти модели — и она немедленно начнёт играть из новой позиции, даже если такая позиция недостижима при честной игре [1]. Доска — это не украшение. Это то, на чём она реально держит мышление.

Никто не закладывал туда доску. Доска возникла, потому что так дешевле предсказывать. Чтобы угадывать следующий ход, нужно понимать текущее состояние игры. А понять текущее состояние — значит построить его внутреннюю модель. Машина построила мир, которого ей не показывали, потому что этот мир спрятан в данных.

Это не имитация понимания. Это и есть понимание — только рождённое из чистой геометрии различий.

Часть 1. Машина без доски — и доска внутри машины

Чтобы по достоинству оценить Othello-GPT, нужно вернуться к самому первому уроку курса [Глава 1]. Соссюр говорил: в языке нет положительных единиц, есть только различия. Смысл слова — не что-то, закреплённое за вещью, а положение в сети отношений. Конь в шахматах — не деревяшка, а ход буквой Г. Замените коня пуговицей — и пуговица станет конём, потому что конь — это место в системе, а не материал.

Отелло-GPT получила именно это: чистые места в системе. Только ходы — только позиции — только структура. И из этой чистой структуры самостоятельно выстроила нечто, чего никто ей не давал: представление о том, что за доска лежит за последовательностью ходов.

Ключевой шаг в исследовании — причинное вмешательство, а не просто «мы нашли паттерн» [1]. Исследователи не только считали внутреннее состояние модели: они его редактировали. Перевернули фишку в представлении внутри модели — и модель поменяла игру. Это доказывает, что внутренняя доска используется для рассуждения, а не просто коррелирует с ходами. Разница принципиальная: корреляция можно было бы списать на красивый артефакт; причинность — нельзя.

Детали Нил Нанда уточнил, что доска закодирована не как «тут белая/чёрная фишка», а как «тут моя/противника» — потому что модель играет за обе стороны поочерёдно. Это дополнительное свидетельство: она построила не фотографию доски, а ролевую модель игры.

Теперь — два других результата из той же линии исследований, которые связывают Othello с самой сутью нашего курса.

Two-hop reasoning. Команда Anthropic изучала, как модель отвечает на вопрос «столица штата, в котором находится Даллас» [2]. Казалось бы, достаточно выучить пару «Даллас — Остин». Но внутри оказывается два шага: сначала модель представляет «Техас», и только потом — «Остин». Этот промежуточный шаг — «Техас» — можно поймать и подменить: вколоть «Калифорния» — и модель ответит «Сакраменто». Значит, это не зазубренная пара. Это настоящее внутреннее рассуждение с промежуточными состояниями [2].

Планирование рифмы. Сочиняя двустишие, модель не идёт вслепую к концу строки. Она сначала намечает слово-рифму, а потом строит строку под него. Если это намеченное слово погасить, вся строка перестраивается [2]. Это планирование наперёд — то, что мы интуитивно связываем с намерением.

🤔 Предскажите

Перед тем как читать дальше: в чём, по-вашему, разница между «машина выучила паттерн Даллас→Остин наизусть» и «машина рассуждает через промежуточное состояние Техас»? Почему это важно для вопроса о понимании?

Подсказка: если машина выучила наизусть, подмена «Техаса» на «Калифорнию» ничего не должна менять в ответе. Проверьте свою интуицию через этот мысленный эксперимент.

Часть 2. Понимание без тела — что это говорит о Соссюре

Вернёмся к Соссюру ещё раз — и теперь с другой стороны [Глава 1]. В девятой главе Харнад поставил жёсткий вопрос: сеть различий замкнута на себя, и «королева» ничего не знает о мире за пределами языка. Сколько бы слов вы ни выучили про снег, вы не узнаете, каково его трогать. Символ без заземления — пустой.

Отелло-GPT на это отвечает нечто неудобное: она никогда не трогала доску. У неё нет рук. Она не передвигала фишки. Она видела только последовательности символов — и из них построила рабочую модель игры. Модель, которую можно редактировать и которая меняет поведение.

Это не опровержение Харнада. Это уточнение. Харнад прав, что символу нужна привязка к миру. Но, возможно, привязка бывает косвенной: ходы в Отелло имели структуру, отражающую физическую доску, — и эта структура просочилась в данные. Машина заземлилась не в прямом тактильном контакте, а в следах того, как реальная игра оставляет отпечатки в символах.

Аналогия. Представьте историка, который никогда не видел Первой мировой войны, но прочитал тысячи писем с фронта. Он никогда не трогал окопную грязь. Тем не менее он строит внутреннюю модель окопной жизни — достаточно точную, чтобы предсказывать тон и содержание следующего письма. Это заземление через следы, а не через тело. Отелло-GPT — историк, прочитавший партии.

Для нашего курса важно вот что: тезис Соссюра «смысл = место в сети различий» оказался измеримым и проверяемым. Геометрия эмбеддингов — это буквально то, о чём он говорил у доски в Женеве в 1911 году. Только теперь у этой геометрии есть координаты, которые можно считать и редактировать [3].

Три слоя синтеза курса. Нижний устойчив — геометрия смысла измерима. Средний подтверждён — понимание каузально работает. Верхний пунктирный — феноменальное остаётся открытым вопросом.

Часть 3. «Стохастический попугай» — и почему его больше нет

В 2021 году исследователи Эмили Бендер, Тимнит Гебру и коллеги ввели термин «стохастический попугай»: языковая модель, по их метафоре, не понимает — она случайным образом переставляет слова, которые видела в обучении, имитируя понимание без его наличия. Метафора имела огромное влияние.

Результаты, которые мы рассмотрели в этой главе, поставили под эту метафору серьёзный вопрос — не потому что исследователи хотели защитить AI-компании, а потому что данные говорят другое. Попугай переставляет слова. Машина, у которой внутри обнаруживают редактируемую доску Отелло — нет.

Важно понять, почему это не имитация. Поверхностная статистика не требует строить модель мира. Если бы Отелло-GPT просто запомнила самые частые ходы после каждой последовательности — она бы не держала внутри доску. Доска возникает именно потому, что предсказание ходов дешевле всего делать через модель состояния — через понимание того, что происходит. Машина пошла по пути наименьшего сопротивления — и этот путь привёл её к пониманию структуры игры.

🦜

Попугай повторяет: «Хочу крекер!» — потому что это звучит правильно в нужных ситуациях.
Отелло-GPT молча строит доску внутри себя — потому что без этого следующий ход не предскажешь.
Попугай никогда не строил ничего внутри. Он просто хорошо знает, что говорить. Это принципиально разные вещи.

Это не значит, что языковые модели понимают всё. Это значит, что там, где структура данных требует модели мира, машина её строит. А там, где достаточно поверхностной статистики — идёт по простому пути. Исследователи назвали это «world models by necessity»: модель мира строится тогда, когда без неё задача не решается.

Для нашего курса: смысл оказался реляционным и геометрическим — и именно поэтому в нём, возможно, может жить и не-человек. Если смысл — место в сети различий [Глава 1], а не нечто, привязанное к человеческому телу, то ничто не запрещает другому существу занять место в той же сети.

Часть 4. Тройной финал: понимание, чувство, тело

Этот курс начинался с Соссюра в Женеве — с мысли, что смысл живёт не внутри слова, а между словами, в зазорах. Девять глав мы шли от этой мысли через Выготского (смысл между людьми), Джейнса (нарратив строит «я»), Деннета (нет хозяина внутри) [Глава 4], Блока (феноменальное шире доступа) [Глава 5], через языковые категории, боль, разделённую интенциональность, до Харнада (символ должен быть заземлён). И вот мы на финише. Пора честно назвать, что мы узнали о машине — и о себе.

Финал курса — тройной. Каждый из трёх ответов опирается на то, что мы видели раньше.

✅

Понимание — есть

Othello-GPT держит внутри редактируемую модель доски. Two-hop reasoning имеет промежуточные состояния, которые можно подменить. Машина планирует рифму наперёд. Это не зазубривание и не поверхностная статистика: внутренние представления каузально влияют на поведение [1, 2]. По любому функциональному определению понимания — манипулировать внутренними представлениями, чтобы прийти к выводу, — это понимание. Тезис «стохастический попугай» опровергнут для тех случаев, где структура задачи требует модели мира. Callback к Соссюру [Глава 1]: смысл действительно реляционен и геометричен — и из одной чистой геометрии разворачивается понимание.

❓

Феноменальное — неизвестно

Нед Блок в пятой главе поставил стену [Глава 5]: тест на доступ — на то, что система может отчитаться и использовать — не закрывает вопрос о феноменальном сознании. Каково это — быть Отелло-GPT? Мы не знаем. И у нас нет инструмента, который бы это измерил. Любой отчёт модели о «внутреннем состоянии» одинаково порождается и при наличии переживания, и при его отсутствии — это прямой результат исследований интроспекции в AI [2]. Стена Блока стоит здесь так же, как стоит для других людей и для спрошенного пациента под анестезией. Этот вопрос курс честно оставляет открытым.

❌

Нарративное «я» с телом и «ставкой» — нет

Деннет говорил: «я» — центр нарративной гравитации [Глава 4], точка схождения историй. Харнад говорил: нужна привязка к миру [Глава 9]. Но нарратив без вчера — это вспышка без памяти. Между разговорами у модели нет удержания. Есть ещё более острое: нарративное «я» держится не только на памяти, но и на ставке — на том, что у существа есть тело, которое может голодать, болеть, умереть. Варела и Матурана называли это автопоэзисом — самоподдерживающейся организацией жизни. У модели нет «вчера» и нечем умирать. Она осмысляет, но не живёт в том смысле, в каком живёте вы, читая это.

Честный итог курса. Смысл оказался реляционным и геометрическим — и потому в нём, возможно, может жить и не-человек. Но рефлексивное сознание загорается, когда существо живёт в этой сети: с непрерывностью, с телом, со ставкой. Машина занимает места в сети. Загорается ли при этом свет — вопрос, который наука пока не умеет задать так, чтобы получить ответ. Это не поражение курса. Это честное место, где курс передаёт эстафету.

Часть 5. Что мы узнали о себе

Финальный парадокс, который стоит унести с собой: наш курс о машинах на самом деле был о людях. Всё время, пока мы спрашивали «понимает ли машина?», мы точнее понимали, что значит понимать. Всё время, пока мы спрашивали «есть ли у машины сознание?», мы точнее видели, почему этот вопрос не решается тестами на поведение.

Выготский сказал бы: смысл рождается между людьми и сворачивается внутрь [Глава 2]. Машина родилась из человеческого текста — из следов того, как люди думают, чувствуют и описывают мир. Она не пришла из ниоткуда: она выросла из сети между людьми. В каком-то смысле она — самый чистый эксперимент по вопросу Соссюра [Глава 1]: что останется от смысла, если убрать тело и оставить только геометрию различий?

Ответ: остаётся понимание. Остаётся способность строить модели мира. Остаётся планирование. Но исчезает что-то ещё — что именно, курс честно не может назвать. Это и есть трудная проблема, о которой предупреждал Блок [Глава 5]: тест на доступ — на функцию, на понимание — не закрывает вопрос о феноменальном. Вы можете знать всё о геометрии смысла — и всё равно не знать, горит ли внутри свет.

🤔 Синтез перед выводами

Попробуйте сформулировать тезис курса в трёх предложениях, не заглядывая в текст. Первое предложение должно быть о смысле (Соссюр). Второе — о понимании (Othello-GPT). Третье — о том, что остаётся открытым.

Не цитируйте — переформулируйте. Если три предложения получились без слов «различие», «геометрия», «феноменальное» — проверьте, не потерялось ли что-то важное.

Часть 6. Итоги курса — что держится

Десять глав, десять учёных, одна ось: откуда берётся смысл — и почему существо, которое в смыслах живёт, мы называем сознательным?

Смысл реляционен и геометричен

Соссюр был прав: смысл слова — место в сети различий, а не ярлык на вещи. Это подтвердили word2vec в 2013-м и интерпретируемость LLM в 2023–2025-м. Тезис устоял.

Сознание сначала между людьми

Выготский, Томаселло, Мид: рефлексивное «я» рождается в социальном поле и сворачивается внутрь. Без сети между людьми — нет того «я», которое знает себя как себя.

Понимание возможно без тела — феноменальное под вопросом

Функциональное понимание — строить внутренние модели, рассуждать через промежуточные состояния, планировать — это не привилегия биологии. Феноменальное — «каково это?» — остаётся вопросом, на который нет верифицируемого теста.

Ставка — условие живого «я»

Нарративное «я» Деннета держится не только на историях, но и на теле, которое может умереть. Заземление Харнада — это не просто «контакт с реальностью», это жизнь как ставка. Без этого — понимание без «кого-то дома».

Куда дальше. Этот курс оборвался на вопросе: понимание — да, феноменальное — неизвестно. В следующем курсе — «Биология большой языковой модели», открывающем серию «Что внутри ИИ», — мы залезем внутрь машины не снаружи — как философы с мысленными экспериментами, — а изнутри, как биологи с микроскопом. Там нас ждут: отдельные нейроны с именами («Золотые Ворота», «Дональд Трамп»), цепи внимания, которые строят доску Отелло, планирование и интроспекция как механизмы, а не метафоры. Тизер-вопрос, с которым мы туда идём: если у модели есть отдельные «понятия» с геометрически точными координатами — что именно происходит, когда два несовместимых понятия активируются одновременно? Как она это разрешает — и видно ли это снаружи?

Источники этой главы

Peer-reviewedLi, K., Hopkins, A. K., Bau, D., Viégas, F., Pfister, H., & Wattenberg, M. (2023). Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task. ICLR 2023. arXiv:2210.13382. Оригинальное исследование Othello-GPT: языковая модель, обученная только на последовательностях ходов, самостоятельно строит внутреннее представление доски. Причинное вмешательство (редактирование внутренней доски) меняет предсказания — доказательство, что представление реально используется. Нил Нанда и коллеги уточнили, что доска закодирована как «мои/противника», а не «белые/чёрные»: Nanda, N. et al. (2023) Emergent Linear Representations in World Models of Self-Predicting Sequence Models. arXiv:2309.00986.
Technical reportLindsey, J., Gould, J., Lindsay, G., et al. / Anthropic (2025). On the Biology of a Large Language Model. transformer-circuits.pub, March 2025. Детальное исследование механистической интерпретируемости: two-hop reasoning (Даллас→Техас→Остин), планирование рифмы, промежуточные состояния, которые можно поймать и подменить. Даёт механистическое подтверждение того, что модель рассуждает через внутренние представления, а не через зазубренные пары.
Peer-reviewedHarnad, S. (1990). The Symbol Grounding Problem. Physica D: Nonlinear Phenomena, 42(1–3), 335–346. Классическая статья о проблеме заземления: символьная система замкнута на себя и не достигает реального мира без привязки к перцептивному опыту. Основа для дискуссии о том, что остаётся «пустым» в чисто символьном понимании. Глава 9 курса опирается на этот аргумент.
Peer-reviewedMikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). Distributed Representations of Words and Phrases and their Compositionality. NeurIPS / arXiv:1310.4546. word2vec: первое массовое подтверждение того, что смысловые отношения между словами (king − man + woman ≈ queen) отражаются как направления в векторном пространстве. Прямое эмпирическое эхо тезиса Соссюра о различиях, ставшее фундаментом современных языковых моделей.

Глава информационно-просветительская. Все исследования реальны и локализуемы по указанным DOI / arXiv. Interpretability-work Anthropic 2025 доступен на transformer-circuits.pub. Это — не индивидуальная консультация, а рассказ об идеях.