Один разум на все языки
Глава 5. Внутри модели есть языко-специфичные клетки — и есть абстрактное ядро, где понятие живёт отдельно от языка, на котором оно выражено. И это ядро растёт с размером модели
Цели урока
К концу этого урока вы:
- Как внутри модели устроена многоязычность: языко-специфичные клетки и языко-независимое ядро
- Что значит «понятие живёт отдельно от языка» — на конкретном примере
- Почему универсальность ядра растёт с размером модели — и что это говорит об обучении
- Где этот образ «одного ядра» честен, а где преувеличен: языки всё равно немного «протекают»

О, ты здесь! Отлично — у меня для тебя кое-что есть.
Один разум на все языки
Скажите слово «собака» по-русски, «dog» по-английски, «Hund» по-немецки, «كلب» по-арабски. Разные звуки, разные буквы, разный порядок слогов — но что-то одно за этим стоит: четвероногое, гавкает, виляет хвостом. Смысл — один. Языков — много.
Теперь вопрос про нашего неведомого организма. Его обучали на десятках языков одновременно. Значит ли это, что внутри него — десять разных «умов», каждый со своей анатомией? Или — один разум с общим смысловым ядром, а языки только снаружи, как разные обёртки?
Ответ, который дали исследователи, удивителен: и то, и другое — одновременно. Внутри есть и языко-специфичные клетки, и абстрактное ядро, где понятие живёт отдельно от языка. И — ещё один сюрприз — чем больше модель, тем больше этого общего ядра [1].
Что вы поймёте после этой главы
- Как внутри модели устроена многоязычность: языко-специфичные клетки и языко-независимое ядро
- Что значит «понятие живёт отдельно от языка» — на конкретном примере
- Почему универсальность ядра растёт с размером модели — и что это говорит об обучении
- Где этот образ «одного ядра» честен, а где преувеличен: языки всё равно немного «протекают»
Часть 1. Два этажа одного организма
В Главе 2 мы разглядели клетки-фичи: крошечные детекторы, каждый из которых загорается на одно понятие. Там мы брали примеры из одного языка. Теперь посмотрим шире.
Исследователи взяли понятие — например, «яблоко» — и посмотрели, какие фичи реагируют на него на трёх языках: русском, французском, японском. Нашли вот что [1].
Первый этаж: у каждого языка есть свои, специфичные для него фичи. Клетка, реагирующая на кириллицу, другая. Клетка, которая знает, что мы сейчас в японском контексте, отдельная. Это разумно: грамматика, порядок слов, система письма — у каждого языка своя «одежда».
Второй этаж: поверх всего этого — абстрактные фичи-понятия, которые зажигаются независимо от языка. «Яблоко» по-русски, pomme по-французски, りんご по-японски — одна и та же клетка-смысл светится в ответ на все три. Это и есть общее ядро.
Часть 2. Что значит «понятие живёт отдельно от языка»
Остановимся на этой фразе, потому что она звучит красиво, но что именно за ней стоит?
Вернёмся к Главе 4 (глава 4): модель держит «намеченную рифму» как внутреннее представление ещё до того, как написала слово. Это внутреннее представление — не слово. Это что-то вроде «смыслового сгустка», который потом разворачивается в конкретный токен нужного языка.
То же происходит с понятиями в многоязычии. Когда модель обрабатывает слово «собака» по-русски, внутри зажигается абстрактная фича — условно, «четвероногое домашнее животное». Когда обрабатывает dog по-английски — та же абстрактная фича. Русское и английское слова служат как разные входы к одному и тому же внутреннему представлению.
Именно это и происходит. Перевод в хорошей языковой модели не идёт напрямую «слово в слово», через тесное русско-китайское совмещение. Он идёт через общий слой смысла: русское слово → абстрактное понятие → китайский токен. Это — архитектура переводчика, который сначала понимает, а потом говорит. Именно поэтому качественный перевод даётся большим моделям лучше: у них больше этого общего абстрактного слоя [1].
Часть 3. Почему ядро растёт с размером модели
Один из самых неожиданных результатов: universality, то есть доля понятий, представленных в языко-независимом ядре, растёт по мере увеличения размера модели [1]. Маленькая модель больше «думает» на конкретных языках. Большая — больше на абстрактных понятиях, которые потом оформляются в нужный язык.
Почему так? Не потому что кто-то специально запрограммировал «большим моделям думать абстрактно». Это возникает само из обучения. Вот интуиция.
Представьте, что вы учитесь переводить между десятью языками. Самый неэффективный путь — выучить все 90 пар «язык А → язык Б» отдельно. Самый эффективный — вынести смысл в одно место и научиться переводить «любой язык → смысл» и «смысл → любой язык». По мере роста размера и данных модели, второй путь становится экономичнее — и модель как бы открывает его сама.
Это не уникально для языков. Та же логика работает для понятий внутри одного языка: маленькая модель держит много фактов отдельно («Наполеон родился в 1769», «Наполеон был французским полководцем»). Большая модель сворачивает их в абстрактный «Наполеон» с набором атрибутов, из которого потом развёртывает любой конкретный факт. В Главе 4 мы видели, что это именно как внутренняя модель мира — не справочник, а геометрия.
Часть 4. Честная калибровка: ядро не идеально
Красивый образ — «много ручьёв в одно ядро» — требует оговорки. Ядро реально, но оно не абсолютно чистое [1].
что подтверждено
Общие абстрактные фичи-понятия существуют и зажигаются независимо от языка. Это не метафора — это измеримые активации.
что подтверждено
Чем больше модель, тем больше доля языко-независимых представлений — закономерность воспроизводится на разных архитектурах.
честная оговорка
Языки всё равно «протекают»: для редких языков с меньшим количеством обучающего текста абстрактное ядро слабее — больше языко-специфичных костылей.
честная оговорка
Некоторые понятия культурно-специфичны: русское «тоска» не имеет точного аналога в других языках. Абстрактное ядро здесь тоньше и нечётче.
Часть 5. Мост: смысл как геометрия
Если вы проходили курс «Язык и смыслы» из серии «нейро-сознание», вы уже встречали идею о том, что смысл можно представить как точку в многомерном пространстве. Языки — разные дороги к одной точке.
В Главе 4 мы видели, что пространство и время тоже живут внутри модели как геометрические структуры. Теперь следующий шаг: языки тоже геометричны. Абстрактное ядро — это не список или таблица. Это область в активационном пространстве, к которой тяготеют все языки, когда говорят об одном понятии. Русское «яблоко», французское pomme и японское りんご — три разных вектора, сходящиеся в одно место.
Именно поэтому хороший перевод — это не замена слов, а навигация по общему смысловому пространству. Модель не знает таблицу «русское → китайское»; она знает, где в этом пространстве стоит понятие, и умеет обозначить его на нужном языке.
Правда, некоторые понятия она всё ещё немного путает. Но по крайней мере «тоску» она в переводе уже не называет «грустью».
Итоги главы
Два этажа: специфика + ядро
Внутри есть языко-специфичные фичи (грамматика, алфавит) и абстрактные фичи-понятия, зажигающиеся независимо от языка.
Понятие живёт отдельно от языка
«Собака» по-русски и dog по-английски приводят к одной абстрактной клетке-смыслу. Перевод идёт через общий слой — смысл, а потом язык.
Ядро растёт с размером
Большие модели «думают» больше на уровне абстрактных понятий, а не конкретных языков. Это не задумано, а возникает как эффективная стратегия сжатия при обучении.
Ядро не идеально
Редкие языки и культурно-специфичные понятия пробивают «протечки»: ядро там слабее. Это честный предел, а не маркетинговая оговорка.
В следующей главе. Мы много смотрели на то, как модель «понимает». Но есть задача, с которой она явно справляется не идеально: арифметика. Модель иногда считает неправильно — и при этом уверена в своём ответе. Глава 6 заглядывает внутрь арифметических вычислений: как именно организм считает, какой механизм ломается — и почему он потом врёт о том, как считал.
Источники этой главы
- PrimaryLindsey, J., Gould, E., Lindsay, J., et al. / Anthropic (2025). On the Biology of a Large Language Model. transformer-circuits.pub.
- FoundationalBricken, T., Templeton, A., Batson, J., et al. / Anthropic (2023). Towards Monosemanticity: Decomposing Language Models With Dictionary Learning. transformer-circuits.pub.
- Peer-reviewedTempleton, A., Conerly, T., Marcus, J., et al. / Anthropic (2024). Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet. transformer-circuits.pub.
Глава информационно-просветительская. Это рассказ об исследовании ИИ, а не техническая инструкция.