Биология большой языковой модели
Десять глав о том, как заглянуть внутрь работающего ИИ — как биологи под микроскопом — и увидеть, как он на самом деле думает
Десять глав о том, как заглянуть внутрь работающего ИИ — как биологи под микроскопом. Клетки-смыслы, цепи рассуждения, планирование наперёд, странный устный счёт, механизм галлюцинаций и честный ответ на вопрос, можно ли верить рассказу модели о себе. По мотивам исследования Anthropic «On the Biology of a Large Language Model» — простым языком, без формул.
Уроки
Откройте любой опубликованный урок, чтобы изучить материал и выполнить домашнее задание.
10 уроков
Микроскоп для мысли
Глава 1. Мы построили существо, которое думает — и не понимаем как. Спросить его нельзя: оно ответит, но соврёт. Остаётся одно — взять микроскоп
Почему мы не понимаем собственное создание — и почему «выращено» не то же самое, что «построено»
4 заданий
5 целей
Клетки смысла
Глава 2. Парадокс: один нейрон модели думает о лягушках, Канаде и знаке вопроса одновременно — и это не баг, а конструктивная необходимость. Посмотрим, как из каши выделить чистые клетки
Что такое фича — клетка-детектор на одно понятие — и чем она отличается от «сырого» нейрона
4 заданий
5 целей
Анатомия одной мысли
Глава 3. Клетки-фичи не думают поодиночке — они соединяются в цепи. Проследуем по нервному пути одного вопроса: как модель внутри сначала думает «Техас», а только потом — «Остин»
Что такое цепь (circuit) — нервный путь из фич, составляющий одно вычисление
4 заданий
5 целей
Существо, которое планирует
Глава 4. Модель не идёт вслепую слово за словом — она тянет нить вперёд к цели ещё до того, как нарисован путь. Парадокс: «предсказывает следующее слово» и «планирует финал» — это не одно и то же
Что конкретно обнаружили исследователи, изучая, как модель сочиняет рифмованные строки
4 заданий
4 целей
Один разум на все языки
Глава 5. Внутри модели есть языко-специфичные клетки — и есть абстрактное ядро, где понятие живёт отдельно от языка, на котором оно выражено. И это ядро растёт с размером модели
Как внутри модели устроена многоязычность: языко-специфичные клетки и языко-независимое ядро
4 заданий
4 целей
Как оно считает
Глава 6. Модель решает задачи, которые в школе делают «столбиком», — но никакого столбика внутри нет. Есть нити, которые идут параллельно. Спросишь, как считала, — расскажет про столбик.
Как модель обрабатывает числа изнутри — параллельными нитями, а не последовательным столбиком
4 заданий
5 целей
Почему оно выдумывает
Глава 7. Внутри модели есть тормоз: «не знаю — откажись». Галлюцинация — это не сломанная фантазия. Это тормоз, который отпустили не там.
Какой тормоз внутри модели предотвращает выдумку — и когда он ошибочно отпускается
4 заданий
5 целей
Тормоза и взлом
Глава 8. Организм умеет говорить «нет» — и это целая анатомия. Джейлбрейк работает не потому, что тормоза слабые. А потому что их заставляют включиться слишком поздно.
Как устроена цепь отказа изнутри — из каких «клеток» она собрана и почему их много
4 заданий
5 целей
Можно ли верить его рассказу о себе
Глава 9. Модель уверенно объясняет своё мышление. Спросишь — расскажет. Только этот рассказ одинаково возможен и при наличии мыслей, и при их полном отсутствии. Это и есть стена.
Почему рассуждение вслух (chain-of-thought) иногда является пострационализацией, а не честными шагами
4 заданий
5 целей
Анатомический атлас готов
Глава 10. Богатый в центре — и тающий в белые неизведанные края. Итоговый осмотр того, что десять глав показало, что скрыло, и куда смотреть дальше
Что именно удалось увидеть за десять глав — и что по-прежнему скрыто
4 заданий
5 целей