Ловушка переобучения
Глава 5. 2001 год. Приходят люди с калькуляторами — и точность 90% превращается в 21%.
Цели урока
К концу этого урока вы:
- Что такое переобучение (overfitting) — без технического жаргона, через бытовую метафору
- Разница между «обучающей выборкой» и «тестовой выборкой» — и почему это различие не было сделано в работах 1998–1999 годов
- Что конкретно обнаружил Хейман в 2001 году: цифры, дизайн, вывод
- Почему высокая «общая точность» может маскировать бесполезную модель
- Как переобучение вписывается в главную ось курса: описание держится, предсказание рушится

О, ты здесь! Отлично — у меня для тебя кое-что есть.
Ловушка переобучения
Осень 2001 года. Ричард Хейман кладёт на стол уравнение Готтмана, которое тот построил три года назад. Уравнение предсказывает развод с 90% общей точностью. Хейман — психолог из Университета Стони-Брук — не спорит с этим числом. Он просто делает следующий шаг, который все как-то пропустили: берёт другие пары, не те, на которых строилось уравнение, и смотрит, сколько правильных прогнозов оно даёт теперь.
Общая точность остаётся высокой. Но когда Хейман считает, сколько из пар, которые уравнение назвало «разводящимися», действительно развелись — число оказывается не 90%, и не 83%, и не 50%. Оно оказывается 21% [1].
Это значит: из каждых пяти пар, которых модель считает обречёнными, четыре — живут дальше. Уравнение с девяностопроцентной точностью оказывается в четыре раза хуже случайного угадывания по частоте разводов в популяции.
Как это вообще возможно? Именно это мы сейчас разберём. Потому что переобучение — это не специфически психологическая болезнь. Это ошибка, которую совершают везде, где строят модели по данным, — и которую трудно заметить, пока не смотришь со стороны.
Быстрый recall перед новым материалом
Что вы поймёте после этой главы
- Что такое переобучение (overfitting) — без технического жаргона, через бытовую метафору
- Разница между «обучающей выборкой» и «тестовой выборкой» — и почему это различие не было сделано в работах 1998–1999 годов
- Что конкретно обнаружил Хейман в 2001 году: цифры, дизайн, вывод
- Почему высокая «общая точность» может маскировать бесполезную модель
- Как переобучение вписывается в главную ось курса: описание держится, предсказание рушится
Часть 1. Портной, который шьёт по одному телу
Представьте портного. Он профессионал — скрупулёзный, внимательный. К нему приходит один клиент, портной снимает все мерки: плечи, грудь, талия, длина рукава, наклон лопаток. Он кроит и шьёт несколько недель. Готовый костюм садится идеально — буквально каждый шов на нужном месте. Если бы существовал рейтинг точности пошива, этот портной получил бы 90 из 100.
А теперь другой человек надевает тот же костюм. Случайный прохожий примерно той же комплекции. Костюм не подходит — плечи перекосились, рукава длинные, спина топорщится. Откуда такой провал? Портной ведь был невероятно точен.
Именно это называется переобучением. Модель — будь то костюм, уравнение или прогноз — настроена так плотно на конкретные данные, которые она видела, что теряет способность работать на новых данных. Она запомнила конкретные тела вместо того, чтобы понять общую форму.
Применительно к Готтману: его уравнение 1998 года было сшито точно по 130 парам, которые прошли через лабораторию. Оно идеально описывало этих людей. Но когда Ричард Хейман и Эми Смит Слеп надели его на других — оно повисло мешком [1].
Часть 2. Что сделал Хейман — и почему это важно
В 2001 году в журнале Journal of Marriage and Family вышла статья с сухим названием: «Опасности прогнозирования развода без кросс-валидации» [1]. Это — тот самый методологический разбор, которого не было ни в 1998-м, ни в 1999-м.
Хейман и Смит Слеп сделали несколько вещей. Во-первых, они внимательно изучили дизайн исследований Готтмана и обнаружили проблему в самой основе: выборки были маленькими и неслучайными. Ключевые анализы 1998 года строились на данных всего 60 пар — oversampled из крайних групп, то есть специально отобранных пар, которые были либо явно счастливы, либо явно в дистрессе. Это не то же самое, что случайная выборка из всех молодожёнов [1].
Во-вторых — и это главное — они применили кросс-валидацию. Взяли уравнение и проверили его на независимой выборке. Общая точность (процент верно классифицированных пар) осталась высокой. Но Хейман смотрел на другой показатель — положительная предсказательная ценность (positive predictive value, PPV): из всех пар, которых модель назвала «разводящимися», сколько реально развелись?
Ответ: ~21% [1].
Что это означает на практике. Представьте: психолог берёт уравнение Готтмана и оценивает 100 супружеских пар. Модель говорит: «Эти 20 пар разведутся». Если PPV составляет 21%, то правы они будут примерно в 4 случаях из 20. Остальные 16 пар были названы разводящимися ошибочно. Это не предсказание — это шум, организованный красивым уравнением.
Часть 3. Почему «общая точность» обманывает
Но как же так? Общая точность высокая — а предсказательная ценность всего 21%? Это кажется парадоксом. Секрет — в асимметрии разводов.
Разводы — относительно редкое событие, даже в американской выборке. Допустим, реальный уровень разводов в популяции — 20%. Если модель говорит «никто не разведётся» для всех 100 пар, её общая точность сразу 80% — потому что она права в 80 случаях из 100 (у тех, кто не развёлся). Она бесполезна для предсказания разводов, но выглядит точной.
Когда Готтман строил уравнение на своих 130 парах — и в его лабораторных выборках процент развода был искусственно высок (oversampling крайних групп), — уравнение обучилось находить развод там, где его видело много. На случайной популяции, где разводов меньше, та же чувствительность даёт много ложных срабатываний [1].
Часть 4. Три причины, по которым это произошло
Хейман и Смит Слеп выделили несколько методологических проблем в работах 1998–1999 годов. Важно понять каждую из них — не чтобы добить Готтмана, а чтобы понять, как работает наука и где нужна осторожность.
Проблема 1. Маленькие и нерепрезентативные выборки
Ключевые анализы 1998 года строились на n=60 пар — специально отобранных из крайних групп (очень счастливые и очень несчастные). Пары со средним уровнем дистресса, которых большинство в реальной жизни, в эту выборку попадали плохо. Уравнение научилось различать крайние случаи, но не средние [1].
Проблема 2. Отсутствие кросс-валидации
По словам Хеймана, на 2001 год ни одно исследование не кросс-валидировало предсказание развода на репрезентативной выборке общей популяции [1]. Точность проверялась на той же выборке, на которой строилась модель. Как будто портной проверяет костюм, надевая его снова на того же клиента, с которого снимал мерки.
Проблема 3. Слишком много параметров, слишком мало данных
Уравнение Готтмана включало много предикторов. Когда модель сложная, а выборка маленькая, она легко «запоминает» случайные особенности данных — случайный шум вместо реального сигнала. На новой выборке этого шума нет, и точность падает. Это классическая ситуация переобучения.
Показательно, что статья Хеймана была опубликована в том же году, что и несколько других критических работ — Stanley, Bradbury & Markman [2] написали о том, что рекомендации из Gottman 1998 («откажитесь от активного слушания», «принятие влияния важнее компромисса») «как минимум преждевременны» и строятся на тех же методологических слабостях. Что делало эту критику особенно весомой: Говард Маркман — один из авторов той статьи — сам был со-основателем программы PREP по профилактике семейных конфликтов. Это была критика изнутри истеблишмента, а не от скептиков снаружи.
Часть 5. Верхняя дорога держится — нижняя рушится
Момент важной честности, который легко потерять за цифрами. Хейман 2001 не говорит, что всё, что делал Готтман, — неверно. Он говорит точнее: предсказывающая часть программы не прошла кросс-валидацию.
Верхняя дорога из карты главы 1 — описательные находки — при этом держится. Физиологическое сцепление как маркер несчастья в момент ссоры (глава 1) [3]. Четыре всадника как поведенческий паттерн, отличающий пары в дистрессе (глава 2). Соотношение позитив/негатив как дескриптор, связанный с удовлетворённостью (глава 3). Эти результаты были получены на разных выборках разными методами и в разное время — и они в целом воспроизводимы.
Нижняя дорога — «мы можем предсказать, кто разведётся, по первым трём минутам ссоры» — не выдержала теста на независимых данных. Не потому что Готтман плохой учёный, а потому что переобучение — это нормальная ошибка, которую делают умные люди. И потому что давление публичности, журналов, книг и ожиданий аудитории подталкивало к большим заявлениям быстрее, чем методология успевала их проверить.
Уравнение: «Зачем? Я уже проверилось. На этой».
Это и есть переобучение — самоуверенная модель, которая ни разу не выходила из родного города.
Часть 6. Что это значит для живых пар
Вы могли подумать: ладно, это академические споры. Какое мне дело до того, 83% или 21%?
Дело вот в чём. Когда число «83% точности предсказания развода» попадает в популярные книги, тренинги и интернет-тесты — оно начинает жить отдельной жизнью. Пары читают статьи: «Если в первые три минуты вашего разговора есть жёсткий старт, вы в группе риска». Консультанты строят программы на этом фундаменте. Издаются книги. Люди покупают онлайн-тесты, которые обещают «предсказать ваши шансы на развод».
Если предсказательная точность реально составляет 21% на независимых данных — эти программы, при всей их привлекательности, строятся на ненадёжном основании. Это не значит, что работать над коммуникацией в паре бесполезно — мы к этому вернёмся в финальных главах. Это значит, что конкретные предсказывающие числа не заслуживают того доверия, которое им дали.
Итоги главы 5
Переобучение: красивое число, ненадёжный прогноз
90% точности in-sample → 21% PPV out-of-sample. Это не ошибка вычислений, это ошибка дизайна: модель обучалась и проверялась на одних и тех же данных.
Три причины, которые привели к этому
Малые oversampled выборки (n=60 крайних групп); отсутствие кросс-валидации (на 2001 год — ни одной на общей популяции); сложная модель при недостаточных данных.
Критика изнутри истеблишмента
Stanley, Bradbury & Markman 2000: рекомендации Готтмана «как минимум преждевременны». Маркман — соавтор программы PREP — критикует не потому что конкурент, а потому что стандарты важны.
Верхняя дорога остаётся
Описательные находки — сцепление (L1), всадники (L2), ratio (L3) — держатся. Предсказательная часть — нет. Это и есть главная ось курса.
В следующей главе. 2007 год. Ким, Капальди и Кросби берут 85 независимых пар — не новобрачных из Сиэтла, а at-risk выборку из другого города и другой лаборатории. Они тестируют не одно уравнение, а 22 аффективных процесса из программы Готтмана. Реплицируются два из двадцати двух. Что это означает для всей программы — и почему неуспех репликации это не приговор, а диалог — в главе 6.
Источники этой главы
- Peer-reviewedHeyman, R. E., & Smith Slep, A. M. (2001). The hazards of predicting divorce without crossvalidation. Journal of Marriage and Family, 63(2), 473–479.
- Peer-reviewedStanley, S. M., Bradbury, T. N., & Markman, H. J. (2000). Structural flaws in the bridge from basic research on marriage to interventions for couples. Journal of Marriage and Family, 62(1), 256–264.
- Peer-reviewedGottman, J. M., & Levenson, R. W. (1983). Marital interaction: Physiological linkage and affective exchange. Journal of Personality and Social Psychology, 45(3), 587–597.
- Peer-reviewedGottman, J. M., Coan, J., Carrère, S., & Swanson, C. (1998). Predicting marital happiness and stability from newlywed interactions. Journal of Marriage and the Family, 60(1), 5–22.
Глава информационно-просветительская. Методологические ограничения исследований приводятся по рецензируемым источникам, а не по авторской оценке. Это не индивидуальная психологическая консультация и не замена семейной терапии.