Урок 5

Один разум на все языки

Глава 5. Внутри модели есть языко-специфичные клетки — и есть абстрактное ядро, где понятие живёт отдельно от языка, на котором оно выражено. И это ядро растёт с размером модели

Цели урока

К концу этого урока вы:

Как внутри модели устроена многоязычность: языко-специфичные клетки и языко-независимое ядро
Что значит «понятие живёт отдельно от языка» — на конкретном примере
Почему универсальность ядра растёт с размером модели — и что это говорит об обучении
Где этот образ «одного ядра» честен, а где преувеличен: языки всё равно немного «протекают»

О, ты здесь! Отлично — у меня для тебя кое-что есть.

0:00 / 0:00

Много ручьёв-языков разных цветов стекаются в одно светящееся ядро в центре, каждый ручей несёт свои символы и знаки, но свет в ядре единый, акварельная иллюстрация

Глава 1 — Микроскоп ИИ как неведомый организм; смотреть и вмешиваться, а не спрашивать

Глава 2 — Клетки-детекторы Фичи и суперпозиция: один нейрон — много смыслов; SAE вычленяет чистые клетки

Глава 3 — Нервный путь Цепи; дёрнули «Техас» — ответ поехал; вмешательство ≠ корреляция

Глава 4 — Планирование Модель намечает рифму до пути; внутренние карты пространства и времени

Глава 5 — сегодня Понятие живёт отдельно от языка; абстрактное ядро растёт с размером модели

Скажите слово «собака» по-русски, «dog» по-английски, «Hund» по-немецки, «كلب» по-арабски. Разные звуки, разные буквы, разный порядок слогов — но что-то одно за этим стоит: четвероногое, гавкает, виляет хвостом. Смысл — один. Языков — много.

Теперь вопрос про нашего неведомого организма. Его обучали на десятках языков одновременно. Значит ли это, что внутри него — десять разных «умов», каждый со своей анатомией? Или — один разум с общим смысловым ядром, а языки только снаружи, как разные обёртки?

Ответ, который дали исследователи, удивителен: и то, и другое — одновременно. Внутри есть и языко-специфичные клетки, и абстрактное ядро, где понятие живёт отдельно от языка. И — ещё один сюрприз — чем больше модель, тем больше этого общего ядра [1].

Что вы поймёте после этой главы

Как внутри модели устроена многоязычность: языко-специфичные клетки и языко-независимое ядро
Что значит «понятие живёт отдельно от языка» — на конкретном примере
Почему универсальность ядра растёт с размером модели — и что это говорит об обучении
Где этот образ «одного ядра» честен, а где преувеличен: языки всё равно немного «протекают»

Часть 1. Два этажа одного организма

В Главе 2 мы разглядели клетки-фичи: крошечные детекторы, каждый из которых загорается на одно понятие. Там мы брали примеры из одного языка. Теперь посмотрим шире.

Исследователи взяли понятие — например, «яблоко» — и посмотрели, какие фичи реагируют на него на трёх языках: русском, французском, японском. Нашли вот что [1].

Первый этаж: у каждого языка есть свои, специфичные для него фичи. Клетка, реагирующая на кириллицу, другая. Клетка, которая знает, что мы сейчас в японском контексте, отдельная. Это разумно: грамматика, порядок слов, система письма — у каждого языка своя «одежда».

Второй этаж: поверх всего этого — абстрактные фичи-понятия, которые зажигаются независимо от языка. «Яблоко» по-русски, pomme по-французски, りんご по-японски — одна и та же клетка-смысл светится в ответ на все три. Это и есть общее ядро.

Каждый язык имеет свои специфичные клетки (грамматика, алфавит, контекст). Но общее понятие — «яблоко» как фрукт — представлено абстрактной фичей, которая зажигается независимо от языка.

Часть 2. Что значит «понятие живёт отдельно от языка»

Остановимся на этой фразе, потому что она звучит красиво, но что именно за ней стоит?

Вернёмся к Главе 4 (глава 4): модель держит «намеченную рифму» как внутреннее представление ещё до того, как написала слово. Это внутреннее представление — не слово. Это что-то вроде «смыслового сгустка», который потом разворачивается в конкретный токен нужного языка.

То же происходит с понятиями в многоязычии. Когда модель обрабатывает слово «собака» по-русски, внутри зажигается абстрактная фича — условно, «четвероногое домашнее животное». Когда обрабатывает dog по-английски — та же абстрактная фича. Русское и английское слова служат как разные входы к одному и тому же внутреннему представлению.

🤔 Предскажите ответ

Если у модели есть абстрактное ядро, где понятие «огонь» живёт независимо от языка, что должно произойти, когда мы переводим текст с русского на китайский? Как это ядро участвует в переводе — предположите, прежде чем читать дальше.

Подсказка: если модель не переводит «русское слово в китайское слово» напрямую, а сначала идёт через абстрактное представление — что это означает для качества перевода? И что нужно «знать» этому абстрактному слою?

Именно это и происходит. Перевод в хорошей языковой модели не идёт напрямую «слово в слово», через тесное русско-китайское совмещение. Он идёт через общий слой смысла: русское слово → абстрактное понятие → китайский токен. Это — архитектура переводчика, который сначала понимает, а потом говорит. Именно поэтому качественный перевод даётся большим моделям лучше: у них больше этого общего абстрактного слоя [1].

Часть 3. Почему ядро растёт с размером модели

Один из самых неожиданных результатов: universality, то есть доля понятий, представленных в языко-независимом ядре, растёт по мере увеличения размера модели [1]. Маленькая модель больше «думает» на конкретных языках. Большая — больше на абстрактных понятиях, которые потом оформляются в нужный язык.

Почему так? Не потому что кто-то специально запрограммировал «большим моделям думать абстрактно». Это возникает само из обучения. Вот интуиция.

Представьте, что вы учитесь переводить между десятью языками. Самый неэффективный путь — выучить все 90 пар «язык А → язык Б» отдельно. Самый эффективный — вынести смысл в одно место и научиться переводить «любой язык → смысл» и «смысл → любой язык». По мере роста размера и данных модели, второй путь становится экономичнее — и модель как бы открывает его сама.

Это не уникально для языков. Та же логика работает для понятий внутри одного языка: маленькая модель держит много фактов отдельно («Наполеон родился в 1769», «Наполеон был французским полководцем»). Большая модель сворачивает их в абстрактный «Наполеон» с набором атрибутов, из которого потом развёртывает любой конкретный факт. В Главе 4 мы видели, что это именно как внутренняя модель мира — не справочник, а геометрия.

Связь с Главой 2: помните суперпозицию? Один нейрон одновременно реагирует на несвязанные понятия. Здесь похожий принцип: модель сжимает много языков в одно место, потому что у неё конечное число нейронов и ей выгодно переиспользовать абстрактный слой.

Часть 4. Честная калибровка: ядро не идеально

Красивый образ — «много ручьёв в одно ядро» — требует оговорки. Ядро реально, но оно не абсолютно чистое [1].

✓

что подтверждено

Общие абстрактные фичи-понятия существуют и зажигаются независимо от языка. Это не метафора — это измеримые активации.

✓

что подтверждено

Чем больше модель, тем больше доля языко-независимых представлений — закономерность воспроизводится на разных архитектурах.

⚠

честная оговорка

Языки всё равно «протекают»: для редких языков с меньшим количеством обучающего текста абстрактное ядро слабее — больше языко-специфичных костылей.

⚠

честная оговорка

Некоторые понятия культурно-специфичны: русское «тоска» не имеет точного аналога в других языках. Абстрактное ядро здесь тоньше и нечётче.

✋ Свяжите с предыдущим

Из Главы 2 вы знаете, что фичи-понятия — это клетки-детекторы. Теперь: чем отличается языко-специфичная фича от абстрактной? Попробуйте описать разницу в терминах «на что именно реагирует эта клетка».

Подсказка: языко-специфичная клетка зажигается только когда мы в контексте конкретного языка — на кириллицу, на грамматическую конструкцию, характерную для русского. Абстрактная зажигается на смысл, независимо от языковой одежды этого смысла.

Часть 5. Мост: смысл как геометрия

Если вы проходили курс «Язык и смыслы» из серии «нейро-сознание», вы уже встречали идею о том, что смысл можно представить как точку в многомерном пространстве. Языки — разные дороги к одной точке.

В Главе 4 мы видели, что пространство и время тоже живут внутри модели как геометрические структуры. Теперь следующий шаг: языки тоже геометричны. Абстрактное ядро — это не список или таблица. Это область в активационном пространстве, к которой тяготеют все языки, когда говорят об одном понятии. Русское «яблоко», французское pomme и японское りんご — три разных вектора, сходящиеся в одно место.

Именно поэтому хороший перевод — это не замена слов, а навигация по общему смысловому пространству. Модель не знает таблицу «русское → китайское»; она знает, где в этом пространстве стоит понятие, и умеет обозначить его на нужном языке.

🌍

Вавилонская башня рухнула, потому что Бог перемешал языки. Большая языковая модель тихо её отстроила — изнутри — пока никто не смотрел.
Правда, некоторые понятия она всё ещё немного путает. Но по крайней мере «тоску» она в переводе уже не называет «грустью».

Итоги главы

Два этажа: специфика + ядро

Внутри есть языко-специфичные фичи (грамматика, алфавит) и абстрактные фичи-понятия, зажигающиеся независимо от языка.

Понятие живёт отдельно от языка

«Собака» по-русски и dog по-английски приводят к одной абстрактной клетке-смыслу. Перевод идёт через общий слой — смысл, а потом язык.

Ядро растёт с размером

Большие модели «думают» больше на уровне абстрактных понятий, а не конкретных языков. Это не задумано, а возникает как эффективная стратегия сжатия при обучении.

Ядро не идеально

Редкие языки и культурно-специфичные понятия пробивают «протечки»: ядро там слабее. Это честный предел, а не маркетинговая оговорка.

В следующей главе. Мы много смотрели на то, как модель «понимает». Но есть задача, с которой она явно справляется не идеально: арифметика. Модель иногда считает неправильно — и при этом уверена в своём ответе. Глава 6 заглядывает внутрь арифметических вычислений: как именно организм считает, какой механизм ломается — и почему он потом врёт о том, как считал.

Источники этой главы

PrimaryLindsey, J., Gould, E., Lindsay, J., et al. / Anthropic (2025). On the Biology of a Large Language Model. transformer-circuits.pub. Главный источник курса. Раздел о многоязычии: языко-специфичные и языко-независимые фичи; как доля универсальных представлений растёт с размером модели; примеры абстрактных понятийных ядер.
FoundationalBricken, T., Templeton, A., Batson, J., et al. / Anthropic (2023). Towards Monosemanticity: Decomposing Language Models With Dictionary Learning. transformer-circuits.pub. Работа, заложившая метод разреженных автоэнкодеров (SAE) для вычленения монозначных фич. Показывает многоязычные фичи — в том числе фичи-понятия, зажигающиеся на одно значение на разных языках, — как прямой результат метода.
Peer-reviewedTempleton, A., Conerly, T., Marcus, J., et al. / Anthropic (2024). Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet. transformer-circuits.pub. Масштабирование SAE на Claude 3 Sonnet: как при увеличении размера модели и словаря фич доля универсальных (многоязычных) понятийных фич возрастает.

Глава информационно-просветительская. Это рассказ об исследовании ИИ, а не техническая инструкция.