лооооч
Урок 5

Ловушка переобучения

Глава 5. 2001 год. Приходят люди с калькуляторами — и точность 90% превращается в 21%.

Цели урока

К концу этого урока вы:

  • Что такое переобучение (overfitting) — без технического жаргона, через бытовую метафору
  • Разница между «обучающей выборкой» и «тестовой выборкой» — и почему это различие не было сделано в работах 1998–1999 годов
  • Что конкретно обнаружил Хейман в 2001 году: цифры, дизайн, вывод
  • Почему высокая «общая точность» может маскировать бесполезную модель
  • Как переобучение вписывается в главную ось курса: описание держится, предсказание рушится
Гравитация

О, ты здесь! Отлично — у меня для тебя кое-что есть.

Урок 5 из 10

Ловушка переобучения

Глава 5. 2001 год. Приходят люди с калькуляторами — и точность 90% превращается в 21%.
Методичный статистик начала 2000-х за столом с калькулятором и распечатками чисел, скептический взгляд

Осень 2001 года. Ричард Хейман кладёт на стол уравнение Готтмана, которое тот построил три года назад. Уравнение предсказывает развод с 90% общей точностью. Хейман — психолог из Университета Стони-Брук — не спорит с этим числом. Он просто делает следующий шаг, который все как-то пропустили: берёт другие пары, не те, на которых строилось уравнение, и смотрит, сколько правильных прогнозов оно даёт теперь.

Общая точность остаётся высокой. Но когда Хейман считает, сколько из пар, которые уравнение назвало «разводящимися», действительно развелись — число оказывается не 90%, и не 83%, и не 50%. Оно оказывается 21% [1].

Это значит: из каждых пяти пар, которых модель считает обречёнными, четыре — живут дальше. Уравнение с девяностопроцентной точностью оказывается в четыре раза хуже случайного угадывания по частоте разводов в популяции.

Как это вообще возможно? Именно это мы сейчас разберём. Потому что переобучение — это не специфически психологическая болезнь. Это ошибка, которую совершают везде, где строят модели по данным, — и которую трудно заметить, пока не смотришь со стороны.

Быстрый recall перед новым материалом

Три вопроса из прошлых глав — без подглядывания
Из главы 4 (L4): Готтман объявил 83% точности в 1998-м и «первые три минуты» в 1999-м. Что именно делало эти числа методологически уязвимыми — ещё до того, как их кто-либо проверил на независимой выборке?
Из главы 2 (L2): Четыре всадника. Готтман назвал одного «серной кислотой любви». Вспомните его — и объясните, почему критика и защитное поведение сами по себе опасны, но менее разрушительны.
Из главы 1 (L1): Физиологическое сцепление 1983 года — это был описательный результат или предсказательный? Что конкретно произошло в 1985 году, когда его попробовали использовать для прогноза?
Правильный порядок: сначала ответ из памяти, потом — можно проверить в тексте предыдущих глав.
Глава 1 Физиологическое сцепление двух нервных систем — и первая встреча с ограничением предсказания: 1985-й показал, что сцепление не прогнозирует изменение удовлетворённости.
Глава 2 Четыре всадника: критика, презрение, защита, стоунволлинг. Презрение — главный предиктор распада; оно единственное несёт моральное превосходство.
Глава 3 Соотношение 5:1: описание аффективного баланса, а не правило. Ratio-модель подтвердилась в 1998-м как лучший предиктор среди семи конкурентов.
Глава 4 Пик соблазна: 83–94% точности (in-sample), первые 3 минуты Каррер&Готтман 1999. Скрытый вопрос о независимой выборке — не задан.
Глава 5 — сейчас Хейман&Смит Слеп 2001: кросс-валидация. Общая точность держится. Положительная предсказательная ценность рушится до 21%. Что такое переобучение — и почему оно так трудно заметить изнутри.

Что вы поймёте после этой главы

  • Что такое переобучение (overfitting) — без технического жаргона, через бытовую метафору
  • Разница между «обучающей выборкой» и «тестовой выборкой» — и почему это различие не было сделано в работах 1998–1999 годов
  • Что конкретно обнаружил Хейман в 2001 году: цифры, дизайн, вывод
  • Почему высокая «общая точность» может маскировать бесполезную модель
  • Как переобучение вписывается в главную ось курса: описание держится, предсказание рушится

Часть 1. Портной, который шьёт по одному телу

Представьте портного. Он профессионал — скрупулёзный, внимательный. К нему приходит один клиент, портной снимает все мерки: плечи, грудь, талия, длина рукава, наклон лопаток. Он кроит и шьёт несколько недель. Готовый костюм садится идеально — буквально каждый шов на нужном месте. Если бы существовал рейтинг точности пошива, этот портной получил бы 90 из 100.

А теперь другой человек надевает тот же костюм. Случайный прохожий примерно той же комплекции. Костюм не подходит — плечи перекосились, рукава длинные, спина топорщится. Откуда такой провал? Портной ведь был невероятно точен.

Именно это называется переобучением. Модель — будь то костюм, уравнение или прогноз — настроена так плотно на конкретные данные, которые она видела, что теряет способность работать на новых данных. Она запомнила конкретные тела вместо того, чтобы понять общую форму.

Мастерская портного: один костюм идеально сидит на манекене, тот же костюм мешком висит на другом манекене
Идеально по мерке одного — мешком на другом. Это и есть переобучение.

Применительно к Готтману: его уравнение 1998 года было сшито точно по 130 парам, которые прошли через лабораторию. Оно идеально описывало этих людей. Но когда Ричард Хейман и Эми Смит Слеп надели его на других — оно повисло мешком [1].

Часть 2. Что сделал Хейман — и почему это важно

В 2001 году в журнале Journal of Marriage and Family вышла статья с сухим названием: «Опасности прогнозирования развода без кросс-валидации» [1]. Это — тот самый методологический разбор, которого не было ни в 1998-м, ни в 1999-м.

Хейман и Смит Слеп сделали несколько вещей. Во-первых, они внимательно изучили дизайн исследований Готтмана и обнаружили проблему в самой основе: выборки были маленькими и неслучайными. Ключевые анализы 1998 года строились на данных всего 60 пар — oversampled из крайних групп, то есть специально отобранных пар, которые были либо явно счастливы, либо явно в дистрессе. Это не то же самое, что случайная выборка из всех молодожёнов [1].

Во-вторых — и это главное — они применили кросс-валидацию. Взяли уравнение и проверили его на независимой выборке. Общая точность (процент верно классифицированных пар) осталась высокой. Но Хейман смотрел на другой показатель — положительная предсказательная ценность (positive predictive value, PPV): из всех пар, которых модель назвала «разводящимися», сколько реально развелись?

Ответ: ~21% [1].

Что это означает на практике. Представьте: психолог берёт уравнение Готтмана и оценивает 100 супружеских пар. Модель говорит: «Эти 20 пар разведутся». Если PPV составляет 21%, то правы они будут примерно в 4 случаях из 20. Остальные 16 пар были названы разводящимися ошибочно. Это не предсказание — это шум, организованный красивым уравнением.

Часть 3. Почему «общая точность» обманывает

Но как же так? Общая точность высокая — а предсказательная ценность всего 21%? Это кажется парадоксом. Секрет — в асимметрии разводов.

Разводы — относительно редкое событие, даже в американской выборке. Допустим, реальный уровень разводов в популяции — 20%. Если модель говорит «никто не разведётся» для всех 100 пар, её общая точность сразу 80% — потому что она права в 80 случаях из 100 (у тех, кто не развёлся). Она бесполезна для предсказания разводов, но выглядит точной.

Когда Готтман строил уравнение на своих 130 парах — и в его лабораторных выборках процент развода был искусственно высок (oversampling крайних групп), — уравнение обучилось находить развод там, где его видело много. На случайной популяции, где разводов меньше, та же чувствительность даёт много ложных срабатываний [1].

Угадайте разницу
Хейман обнаружил, что чувствительность модели (sensitivity) тоже упала: с 92% на dev-выборке до 46% на независимой. Что это означает? (а) Модель стала находить меньше разводов, чем реально есть; (б) Модель стала находить больше разводов, чем реально есть; (в) Модель перестала работать вообще. Какой вариант правильный — и чем он отличается от PPV?
Подсказка: sensitivity — это из всех реальных разводов, сколько модель нашла. PPV — из всех, кого модель назвала разводящимися, сколько реально развелись. Это разные вопросы.
Одна и та же модель — два совсем разных результата IN-SAMPLE (та же выборка) 130 пар Готтмана · Gottman 1998 90% общая точность Чувствительность: 92% (нашли 92% реальных разводов) PPV: высокий (in-sample: данные не независимые) Костюм идеально сидит на манекене кросс- валидация OUT-OF-SAMPLE (независимые) Heyman & Smith Slep 2001 21% положительная предсказательная ценность Чувствительность: 46% (нашли только 46% реальных разводов) PPV: ~21% (79% «разводов» — ложная тревога) Тот же костюм мешком висит на прохожем
Переобучение: 90% → 21%. Это не ошибка вычислений — это ошибка дизайна. Модель выучила конкретные пары вместо общего закона.

Часть 4. Три причины, по которым это произошло

Хейман и Смит Слеп выделили несколько методологических проблем в работах 1998–1999 годов. Важно понять каждую из них — не чтобы добить Готтмана, а чтобы понять, как работает наука и где нужна осторожность.

Проблема 1. Маленькие и нерепрезентативные выборки

Ключевые анализы 1998 года строились на n=60 пар — специально отобранных из крайних групп (очень счастливые и очень несчастные). Пары со средним уровнем дистресса, которых большинство в реальной жизни, в эту выборку попадали плохо. Уравнение научилось различать крайние случаи, но не средние [1].

Проблема 2. Отсутствие кросс-валидации

По словам Хеймана, на 2001 год ни одно исследование не кросс-валидировало предсказание развода на репрезентативной выборке общей популяции [1]. Точность проверялась на той же выборке, на которой строилась модель. Как будто портной проверяет костюм, надевая его снова на того же клиента, с которого снимал мерки.

Проблема 3. Слишком много параметров, слишком мало данных

Уравнение Готтмана включало много предикторов. Когда модель сложная, а выборка маленькая, она легко «запоминает» случайные особенности данных — случайный шум вместо реального сигнала. На новой выборке этого шума нет, и точность падает. Это классическая ситуация переобучения.

Показательно, что статья Хеймана была опубликована в том же году, что и несколько других критических работ — Stanley, Bradbury & Markman [2] написали о том, что рекомендации из Gottman 1998 («откажитесь от активного слушания», «принятие влияния важнее компромисса») «как минимум преждевременны» и строятся на тех же методологических слабостях. Что делало эту критику особенно весомой: Говард Маркман — один из авторов той статьи — сам был со-основателем программы PREP по профилактике семейных конфликтов. Это была критика изнутри истеблишмента, а не от скептиков снаружи.

Контекст: Готтман и его соавторы опубликовали ответ (rebuttal) в том же номере журнала. Научная дискуссия — не конец программы Готтмана, а момент её честного столкновения с методологическим стандартом.

Часть 5. Верхняя дорога держится — нижняя рушится

Момент важной честности, который легко потерять за цифрами. Хейман 2001 не говорит, что всё, что делал Готтман, — неверно. Он говорит точнее: предсказывающая часть программы не прошла кросс-валидацию.

Верхняя дорога из карты главы 1 — описательные находки — при этом держится. Физиологическое сцепление как маркер несчастья в момент ссоры (глава 1) [3]. Четыре всадника как поведенческий паттерн, отличающий пары в дистрессе (глава 2). Соотношение позитив/негатив как дескриптор, связанный с удовлетворённостью (глава 3). Эти результаты были получены на разных выборках разными методами и в разное время — и они в целом воспроизводимы.

Нижняя дорога — «мы можем предсказать, кто разведётся, по первым трём минутам ссоры» — не выдержала теста на независимых данных. Не потому что Готтман плохой учёный, а потому что переобучение — это нормальная ошибка, которую делают умные люди. И потому что давление публичности, журналов, книг и ожиданий аудитории подталкивало к большим заявлениям быстрее, чем методология успевала их проверить.

Описание держится. Предсказание рушится. Это не катастрофа — это то, как работает настоящая наука.
🧮
Ричард Хейман, глядя на уравнение с 90% точностью: «Красиво. А можно я проверю на другой выборке?»
Уравнение: «Зачем? Я уже проверилось. На этой».
Это и есть переобучение — самоуверенная модель, которая ни разу не выходила из родного города.

Часть 6. Что это значит для живых пар

Вы могли подумать: ладно, это академические споры. Какое мне дело до того, 83% или 21%?

Дело вот в чём. Когда число «83% точности предсказания развода» попадает в популярные книги, тренинги и интернет-тесты — оно начинает жить отдельной жизнью. Пары читают статьи: «Если в первые три минуты вашего разговора есть жёсткий старт, вы в группе риска». Консультанты строят программы на этом фундаменте. Издаются книги. Люди покупают онлайн-тесты, которые обещают «предсказать ваши шансы на развод».

Если предсказательная точность реально составляет 21% на независимых данных — эти программы, при всей их привлекательности, строятся на ненадёжном основании. Это не значит, что работать над коммуникацией в паре бесполезно — мы к этому вернёмся в финальных главах. Это значит, что конкретные предсказывающие числа не заслуживают того доверия, которое им дали.

Перенесите на другую область
Придумайте свой пример переобучения — не из психологии брака. Это может быть прогноз погоды, выбор ресторана, оценка кандидата на работу, предсказание исхода матча. Опишите: (1) на каких данных «обучалась» модель; (2) что произошло, когда её применили к новым случаям; (3) почему высокая точность на знакомых данных не гарантировала точность на незнакомых.
Подсказка: ищите ситуации, где человек или система научился чему-то очень хорошо на ограниченном опыте — и оказался беспомощным в новой ситуации, которая отличалась от привычной.

Итоги главы 5

1

Переобучение: красивое число, ненадёжный прогноз

90% точности in-sample → 21% PPV out-of-sample. Это не ошибка вычислений, это ошибка дизайна: модель обучалась и проверялась на одних и тех же данных.

2

Три причины, которые привели к этому

Малые oversampled выборки (n=60 крайних групп); отсутствие кросс-валидации (на 2001 год — ни одной на общей популяции); сложная модель при недостаточных данных.

3

Критика изнутри истеблишмента

Stanley, Bradbury & Markman 2000: рекомендации Готтмана «как минимум преждевременны». Маркман — соавтор программы PREP — критикует не потому что конкурент, а потому что стандарты важны.

4

Верхняя дорога остаётся

Описательные находки — сцепление (L1), всадники (L2), ratio (L3) — держатся. Предсказательная часть — нет. Это и есть главная ось курса.

В следующей главе. 2007 год. Ким, Капальди и Кросби берут 85 независимых пар — не новобрачных из Сиэтла, а at-risk выборку из другого города и другой лаборатории. Они тестируют не одно уравнение, а 22 аффективных процесса из программы Готтмана. Реплицируются два из двадцати двух. Что это означает для всей программы — и почему неуспех репликации это не приговор, а диалог — в главе 6.

Источники этой главы

  1. Peer-reviewedHeyman, R. E., & Smith Slep, A. M. (2001). The hazards of predicting divorce without crossvalidation. Journal of Marriage and Family, 63(2), 473–479. Кросс-валидация уравнения Готтмана: 90% общая точность → ~21% PPV; sensitivity 92%→46% на независимой выборке. Малые oversampled extreme-groups (n=60 для анализов 1998). На 2001 г. ни одна работа не кросс-валидировала предсказание развода на общей популяции. Канонический методологический разбор. DOI: 10.1111/j.1741-3737.2001.00473.x · PMC: 1622921 · PMID: 17066126
  2. Peer-reviewedStanley, S. M., Bradbury, T. N., & Markman, H. J. (2000). Structural flaws in the bridge from basic research on marriage to interventions for couples. Journal of Marriage and Family, 62(1), 256–264. Критика рекомендаций Gottman 1998 «как минимум преждевременны»: нерандомный отбор, проблемы процедуры, каузальные выводы из корреляций. Маркман — со-основатель PREP — критика изнутри истеблишмента. DOI: 10.1111/j.1741-3737.2000.00256.x
  3. Peer-reviewedGottman, J. M., & Levenson, R. W. (1983). Marital interaction: Physiological linkage and affective exchange. Journal of Personality and Social Psychology, 45(3), 587–597. Основополагающая работа Love Lab: описательные находки о физиологическом сцеплении, которые держатся и после критики предсказательной части программы. Callback к главе 1. DOI: 10.1037/0022-3514.45.3.587 · PMID: 6620126
  4. Peer-reviewedGottman, J. M., Coan, J., Carrère, S., & Swanson, C. (1998). Predicting marital happiness and stability from newlywed interactions. Journal of Marriage and the Family, 60(1), 5–22. Исходная статья, которую кросс-валидирует Хейман: 130 пар, 83% точность, семь конкурирующих моделей. Необходима для понимания того, что именно было проверено в 2001 году. DOI: 10.2307/353438

Глава информационно-просветительская. Методологические ограничения исследований приводятся по рецензируемым источникам, а не по авторской оценке. Это не индивидуальная психологическая консультация и не замена семейной терапии.