лооооч
Автор: chernobelenkiy

Биология большой языковой модели

Десять глав о том, как заглянуть внутрь работающего ИИ — как биологи под микроскопом — и увидеть, как он на самом деле думает

Десять глав о том, как заглянуть внутрь работающего ИИ — как биологи под микроскопом. Клетки-смыслы, цепи рассуждения, планирование наперёд, странный устный счёт, механизм галлюцинаций и честный ответ на вопрос, можно ли верить рассказу модели о себе. По мотивам исследования Anthropic «On the Biology of a Large Language Model» — простым языком, без формул.

Уроки

Откройте любой опубликованный урок, чтобы изучить материал и выполнить домашнее задание.

10 уроков

Урок 1

Микроскоп для мысли

Глава 1. Мы построили существо, которое думает — и не понимаем как. Спросить его нельзя: оно ответит, но соврёт. Остаётся одно — взять микроскоп

Почему мы не понимаем собственное создание — и почему «выращено» не то же самое, что «построено»

4 заданий

5 целей

Урок 2

Клетки смысла

Глава 2. Парадокс: один нейрон модели думает о лягушках, Канаде и знаке вопроса одновременно — и это не баг, а конструктивная необходимость. Посмотрим, как из каши выделить чистые клетки

Что такое фича — клетка-детектор на одно понятие — и чем она отличается от «сырого» нейрона

4 заданий

5 целей

Урок 3

Анатомия одной мысли

Глава 3. Клетки-фичи не думают поодиночке — они соединяются в цепи. Проследуем по нервному пути одного вопроса: как модель внутри сначала думает «Техас», а только потом — «Остин»

Что такое цепь (circuit) — нервный путь из фич, составляющий одно вычисление

4 заданий

5 целей

Урок 4

Существо, которое планирует

Глава 4. Модель не идёт вслепую слово за словом — она тянет нить вперёд к цели ещё до того, как нарисован путь. Парадокс: «предсказывает следующее слово» и «планирует финал» — это не одно и то же

Что конкретно обнаружили исследователи, изучая, как модель сочиняет рифмованные строки

4 заданий

4 целей

Урок 5

Один разум на все языки

Глава 5. Внутри модели есть языко-специфичные клетки — и есть абстрактное ядро, где понятие живёт отдельно от языка, на котором оно выражено. И это ядро растёт с размером модели

Как внутри модели устроена многоязычность: языко-специфичные клетки и языко-независимое ядро

4 заданий

4 целей

Урок 6

Как оно считает

Глава 6. Модель решает задачи, которые в школе делают «столбиком», — но никакого столбика внутри нет. Есть нити, которые идут параллельно. Спросишь, как считала, — расскажет про столбик.

Как модель обрабатывает числа изнутри — параллельными нитями, а не последовательным столбиком

4 заданий

5 целей

Урок 7

Почему оно выдумывает

Глава 7. Внутри модели есть тормоз: «не знаю — откажись». Галлюцинация — это не сломанная фантазия. Это тормоз, который отпустили не там.

Какой тормоз внутри модели предотвращает выдумку — и когда он ошибочно отпускается

4 заданий

5 целей

Урок 8

Тормоза и взлом

Глава 8. Организм умеет говорить «нет» — и это целая анатомия. Джейлбрейк работает не потому, что тормоза слабые. А потому что их заставляют включиться слишком поздно.

Как устроена цепь отказа изнутри — из каких «клеток» она собрана и почему их много

4 заданий

5 целей

Урок 9

Можно ли верить его рассказу о себе

Глава 9. Модель уверенно объясняет своё мышление. Спросишь — расскажет. Только этот рассказ одинаково возможен и при наличии мыслей, и при их полном отсутствии. Это и есть стена.

Почему рассуждение вслух (chain-of-thought) иногда является пострационализацией, а не честными шагами

4 заданий

5 целей

Урок 10

Анатомический атлас готов

Глава 10. Богатый в центре — и тающий в белые неизведанные края. Итоговый осмотр того, что десять глав показало, что скрыло, и куда смотреть дальше

Что именно удалось увидеть за десять глав — и что по-прежнему скрыто

4 заданий

5 целей