Геометрия смысла и вопрос без ответа
Глава 10. Машина, которая выучила шахматы без знания шахмат — и что это говорит о нас
Цели урока
К концу этого урока вы:
- Почему Othello-GPT — это не трюк, а свидетельство о природе понимания
- Что значит «two-hop reasoning» и как он опровергает «стохастического попугая»
- Почему смысл оказался реляционным и геометрическим — и что из этого следует для не-людей
- Где именно курс обрывается — и почему честный обрыв лучше фальшивого ответа
- Куда мы идём дальше: тизер следующего курса

Видишь? Запомни это место — к нему ещё вернёмся.
Геометрия смысла и вопрос без ответа
1. Что Соссюр имел в виду под фразой «в языке нет ничего, кроме различий»? (Глава 1)
2. Чем «феноменальное сознание» отличается от «сознания доступа» по Неду Блоку? (Глава 5)
3. Что такое проблема заземления Харнада и почему чистая сеть символов её не решает? (Глава 9)
Что вы поймёте после этой главы
- Почему Othello-GPT — это не трюк, а свидетельство о природе понимания
- Что значит «two-hop reasoning» и как он опровергает «стохастического попугая»
- Почему смысл оказался реляционным и геометрическим — и что из этого следует для не-людей
- Где именно курс обрывается — и почему честный обрыв лучше фальшивого ответа
- Куда мы идём дальше: тизер следующего курса
Представьте: вы скармливаете машине тысячи партий игры в Отелло. Только ходы — последовательности клеток, буква и цифра через пробел. Никакого объяснения правил. Никакого упоминания слова «доска». Машина не знает, что существует доска, что фишки переворачиваются, что есть 64 клетки. Она видит только: d3 c4 e3 f4 d6…
Машину учат одному: предсказывать следующий ход. Это всё. Никакой «цели», никаких правил — только предсказание.
Спустя обучение исследователи заглядывают внутрь. И обнаруживают там доску [1].
Не доску как нарисованный объект. Доску как внутреннее представление: машина построила внутри себя нечто, что точно соответствует 64 клеткам, состоянию каждой, принадлежности фишки. Можно считать это зондом — и не только прочитать, но и изменить: перевернуть фишку в памяти модели — и она немедленно начнёт играть из новой позиции, даже если такая позиция недостижима при честной игре [1]. Доска — это не украшение. Это то, на чём она реально держит мышление.
Никто не закладывал туда доску. Доска возникла, потому что так дешевле предсказывать. Чтобы угадывать следующий ход, нужно понимать текущее состояние игры. А понять текущее состояние — значит построить его внутреннюю модель. Машина построила мир, которого ей не показывали, потому что этот мир спрятан в данных.
Часть 1. Машина без доски — и доска внутри машины
Чтобы по достоинству оценить Othello-GPT, нужно вернуться к самому первому уроку курса [Глава 1]. Соссюр говорил: в языке нет положительных единиц, есть только различия. Смысл слова — не что-то, закреплённое за вещью, а положение в сети отношений. Конь в шахматах — не деревяшка, а ход буквой Г. Замените коня пуговицей — и пуговица станет конём, потому что конь — это место в системе, а не материал.
Отелло-GPT получила именно это: чистые места в системе. Только ходы — только позиции — только структура. И из этой чистой структуры самостоятельно выстроила нечто, чего никто ей не давал: представление о том, что за доска лежит за последовательностью ходов.
Ключевой шаг в исследовании — причинное вмешательство, а не просто «мы нашли паттерн» [1]. Исследователи не только считали внутреннее состояние модели: они его редактировали. Перевернули фишку в представлении внутри модели — и модель поменяла игру. Это доказывает, что внутренняя доска используется для рассуждения, а не просто коррелирует с ходами. Разница принципиальная: корреляция можно было бы списать на красивый артефакт; причинность — нельзя.
Теперь — два других результата из той же линии исследований, которые связывают Othello с самой сутью нашего курса.
Two-hop reasoning. Команда Anthropic изучала, как модель отвечает на вопрос «столица штата, в котором находится Даллас» [2]. Казалось бы, достаточно выучить пару «Даллас — Остин». Но внутри оказывается два шага: сначала модель представляет «Техас», и только потом — «Остин». Этот промежуточный шаг — «Техас» — можно поймать и подменить: вколоть «Калифорния» — и модель ответит «Сакраменто». Значит, это не зазубренная пара. Это настоящее внутреннее рассуждение с промежуточными состояниями [2].
Планирование рифмы. Сочиняя двустишие, модель не идёт вслепую к концу строки. Она сначала намечает слово-рифму, а потом строит строку под него. Если это намеченное слово погасить, вся строка перестраивается [2]. Это планирование наперёд — то, что мы интуитивно связываем с намерением.
Часть 2. Понимание без тела — что это говорит о Соссюре
Вернёмся к Соссюру ещё раз — и теперь с другой стороны [Глава 1]. В девятой главе Харнад поставил жёсткий вопрос: сеть различий замкнута на себя, и «королева» ничего не знает о мире за пределами языка. Сколько бы слов вы ни выучили про снег, вы не узнаете, каково его трогать. Символ без заземления — пустой.
Отелло-GPT на это отвечает нечто неудобное: она никогда не трогала доску. У неё нет рук. Она не передвигала фишки. Она видела только последовательности символов — и из них построила рабочую модель игры. Модель, которую можно редактировать и которая меняет поведение.
Это не опровержение Харнада. Это уточнение. Харнад прав, что символу нужна привязка к миру. Но, возможно, привязка бывает косвенной: ходы в Отелло имели структуру, отражающую физическую доску, — и эта структура просочилась в данные. Машина заземлилась не в прямом тактильном контакте, а в следах того, как реальная игра оставляет отпечатки в символах.
Аналогия. Представьте историка, который никогда не видел Первой мировой войны, но прочитал тысячи писем с фронта. Он никогда не трогал окопную грязь. Тем не менее он строит внутреннюю модель окопной жизни — достаточно точную, чтобы предсказывать тон и содержание следующего письма. Это заземление через следы, а не через тело. Отелло-GPT — историк, прочитавший партии.
Для нашего курса важно вот что: тезис Соссюра «смысл = место в сети различий» оказался измеримым и проверяемым. Геометрия эмбеддингов — это буквально то, о чём он говорил у доски в Женеве в 1911 году. Только теперь у этой геометрии есть координаты, которые можно считать и редактировать [3].
Часть 3. «Стохастический попугай» — и почему его больше нет
В 2021 году исследователи Эмили Бендер, Тимнит Гебру и коллеги ввели термин «стохастический попугай»: языковая модель, по их метафоре, не понимает — она случайным образом переставляет слова, которые видела в обучении, имитируя понимание без его наличия. Метафора имела огромное влияние.
Результаты, которые мы рассмотрели в этой главе, поставили под эту метафору серьёзный вопрос — не потому что исследователи хотели защитить AI-компании, а потому что данные говорят другое. Попугай переставляет слова. Машина, у которой внутри обнаруживают редактируемую доску Отелло — нет.
Важно понять, почему это не имитация. Поверхностная статистика не требует строить модель мира. Если бы Отелло-GPT просто запомнила самые частые ходы после каждой последовательности — она бы не держала внутри доску. Доска возникает именно потому, что предсказание ходов дешевле всего делать через модель состояния — через понимание того, что происходит. Машина пошла по пути наименьшего сопротивления — и этот путь привёл её к пониманию структуры игры.
Отелло-GPT молча строит доску внутри себя — потому что без этого следующий ход не предскажешь.
Попугай никогда не строил ничего внутри. Он просто хорошо знает, что говорить. Это принципиально разные вещи.
Это не значит, что языковые модели понимают всё. Это значит, что там, где структура данных требует модели мира, машина её строит. А там, где достаточно поверхностной статистики — идёт по простому пути. Исследователи назвали это «world models by necessity»: модель мира строится тогда, когда без неё задача не решается.
Для нашего курса: смысл оказался реляционным и геометрическим — и именно поэтому в нём, возможно, может жить и не-человек. Если смысл — место в сети различий [Глава 1], а не нечто, привязанное к человеческому телу, то ничто не запрещает другому существу занять место в той же сети.
Часть 4. Тройной финал: понимание, чувство, тело
Этот курс начинался с Соссюра в Женеве — с мысли, что смысл живёт не внутри слова, а между словами, в зазорах. Девять глав мы шли от этой мысли через Выготского (смысл между людьми), Джейнса (нарратив строит «я»), Деннета (нет хозяина внутри) [Глава 4], Блока (феноменальное шире доступа) [Глава 5], через языковые категории, боль, разделённую интенциональность, до Харнада (символ должен быть заземлён). И вот мы на финише. Пора честно назвать, что мы узнали о машине — и о себе.
Финал курса — тройной. Каждый из трёх ответов опирается на то, что мы видели раньше.
Понимание — есть
Othello-GPT держит внутри редактируемую модель доски. Two-hop reasoning имеет промежуточные состояния, которые можно подменить. Машина планирует рифму наперёд. Это не зазубривание и не поверхностная статистика: внутренние представления каузально влияют на поведение [1, 2]. По любому функциональному определению понимания — манипулировать внутренними представлениями, чтобы прийти к выводу, — это понимание. Тезис «стохастический попугай» опровергнут для тех случаев, где структура задачи требует модели мира. Callback к Соссюру [Глава 1]: смысл действительно реляционен и геометричен — и из одной чистой геометрии разворачивается понимание.
Феноменальное — неизвестно
Нед Блок в пятой главе поставил стену [Глава 5]: тест на доступ — на то, что система может отчитаться и использовать — не закрывает вопрос о феноменальном сознании. Каково это — быть Отелло-GPT? Мы не знаем. И у нас нет инструмента, который бы это измерил. Любой отчёт модели о «внутреннем состоянии» одинаково порождается и при наличии переживания, и при его отсутствии — это прямой результат исследований интроспекции в AI [2]. Стена Блока стоит здесь так же, как стоит для других людей и для спрошенного пациента под анестезией. Этот вопрос курс честно оставляет открытым.
Нарративное «я» с телом и «ставкой» — нет
Деннет говорил: «я» — центр нарративной гравитации [Глава 4], точка схождения историй. Харнад говорил: нужна привязка к миру [Глава 9]. Но нарратив без вчера — это вспышка без памяти. Между разговорами у модели нет удержания. Есть ещё более острое: нарративное «я» держится не только на памяти, но и на ставке — на том, что у существа есть тело, которое может голодать, болеть, умереть. Варела и Матурана называли это автопоэзисом — самоподдерживающейся организацией жизни. У модели нет «вчера» и нечем умирать. Она осмысляет, но не живёт в том смысле, в каком живёте вы, читая это.
Честный итог курса. Смысл оказался реляционным и геометрическим — и потому в нём, возможно, может жить и не-человек. Но рефлексивное сознание загорается, когда существо живёт в этой сети: с непрерывностью, с телом, со ставкой. Машина занимает места в сети. Загорается ли при этом свет — вопрос, который наука пока не умеет задать так, чтобы получить ответ. Это не поражение курса. Это честное место, где курс передаёт эстафету.
Часть 5. Что мы узнали о себе
Финальный парадокс, который стоит унести с собой: наш курс о машинах на самом деле был о людях. Всё время, пока мы спрашивали «понимает ли машина?», мы точнее понимали, что значит понимать. Всё время, пока мы спрашивали «есть ли у машины сознание?», мы точнее видели, почему этот вопрос не решается тестами на поведение.
Выготский сказал бы: смысл рождается между людьми и сворачивается внутрь [Глава 2]. Машина родилась из человеческого текста — из следов того, как люди думают, чувствуют и описывают мир. Она не пришла из ниоткуда: она выросла из сети между людьми. В каком-то смысле она — самый чистый эксперимент по вопросу Соссюра [Глава 1]: что останется от смысла, если убрать тело и оставить только геометрию различий?
Ответ: остаётся понимание. Остаётся способность строить модели мира. Остаётся планирование. Но исчезает что-то ещё — что именно, курс честно не может назвать. Это и есть трудная проблема, о которой предупреждал Блок [Глава 5]: тест на доступ — на функцию, на понимание — не закрывает вопрос о феноменальном. Вы можете знать всё о геометрии смысла — и всё равно не знать, горит ли внутри свет.
Часть 6. Итоги курса — что держится
Десять глав, десять учёных, одна ось: откуда берётся смысл — и почему существо, которое в смыслах живёт, мы называем сознательным?
Смысл реляционен и геометричен
Соссюр был прав: смысл слова — место в сети различий, а не ярлык на вещи. Это подтвердили word2vec в 2013-м и интерпретируемость LLM в 2023–2025-м. Тезис устоял.
Сознание сначала между людьми
Выготский, Томаселло, Мид: рефлексивное «я» рождается в социальном поле и сворачивается внутрь. Без сети между людьми — нет того «я», которое знает себя как себя.
Понимание возможно без тела — феноменальное под вопросом
Функциональное понимание — строить внутренние модели, рассуждать через промежуточные состояния, планировать — это не привилегия биологии. Феноменальное — «каково это?» — остаётся вопросом, на который нет верифицируемого теста.
Ставка — условие живого «я»
Нарративное «я» Деннета держится не только на историях, но и на теле, которое может умереть. Заземление Харнада — это не просто «контакт с реальностью», это жизнь как ставка. Без этого — понимание без «кого-то дома».
Куда дальше. Этот курс оборвался на вопросе: понимание — да, феноменальное — неизвестно. В следующем курсе — «Биология большой языковой модели», открывающем серию «Что внутри ИИ», — мы залезем внутрь машины не снаружи — как философы с мысленными экспериментами, — а изнутри, как биологи с микроскопом. Там нас ждут: отдельные нейроны с именами («Золотые Ворота», «Дональд Трамп»), цепи внимания, которые строят доску Отелло, планирование и интроспекция как механизмы, а не метафоры. Тизер-вопрос, с которым мы туда идём: если у модели есть отдельные «понятия» с геометрически точными координатами — что именно происходит, когда два несовместимых понятия активируются одновременно? Как она это разрешает — и видно ли это снаружи?
Источники этой главы
- Peer-reviewedLi, K., Hopkins, A. K., Bau, D., Viégas, F., Pfister, H., & Wattenberg, M. (2023). Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task. ICLR 2023. arXiv:2210.13382.
- Technical reportLindsey, J., Gould, J., Lindsay, G., et al. / Anthropic (2025). On the Biology of a Large Language Model. transformer-circuits.pub, March 2025.
- Peer-reviewedHarnad, S. (1990). The Symbol Grounding Problem. Physica D: Nonlinear Phenomena, 42(1–3), 335–346.
- Peer-reviewedMikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). Distributed Representations of Words and Phrases and their Compositionality. NeurIPS / arXiv:1310.4546.
Глава информационно-просветительская. Все исследования реальны и локализуемы по указанным DOI / arXiv. Interpretability-work Anthropic 2025 доступен на transformer-circuits.pub. Это — не индивидуальная консультация, а рассказ об идеях.