Урок 6

Репликация, которая не вышла

Глава 6. Орегон, 2007. Независимая команда берёт формулы Готтмана и проверяет их на своих парах. Совпадают 2 признака из 22.

Цели урока

К концу этого урока вы:

Чем пост-хок анализ принципиально отличается от проспективной независимой проверки — и почему это важнее, чем кажется
Что именно обнаружила Ким с коллегами в 2007 году: какие из 22 аффективных процессов Готтмана реплицировались, а какие нет
Как правильно читать провал репликации — это не «учёные ошиблись», это нормальная работа науки
Почему ограничение выборки (at-risk, молодые пары) имеет значение при интерпретации результатов

Так. Вот этот момент не проскакивай, он ключевой.

0:00 / 0:00

независимая исследовательская команда середины 2000-х в скромном офисе community-исследования встречает обычных молодых пар

Юджин, штат Орегон. Середина 2000-х. Хюн Ким стоит у доски и смотрит на список из двадцати двух пунктов. Каждый пункт — один из аффективных процессов, которые Готтман и его коллеги назвали ключевыми предикторами распада пары: мужчина отказывается принимать влияние жены, жена не смягчает начало разговора, пара не умеет снижать напряжение. Двадцать два процесса. Ким записала их из опубликованных работ Готтмана и сейчас собирается проверить каждый из них — не на парах, которых наблюдал Готтман, а на своих. На восьмидесяти пяти парах из Орегона, молодых, с историей бытового риска, которых её команда отслеживает уже несколько лет.

Процедура простая: возьми утверждения Готтмана, проверь их на независимой выборке, посмотри, что держится. Это и называется репликацией. В нормальной науке это рутина — скучная, обязательная, как контрольный взвес на рыночных весах.

Результат, который Ким получит и опубликует в 2007 году, рутинным не окажется.

Что уже известно — быстро проверьте себя

🔁 Холодное воспроизведение — 3 вопроса

Из главы 5: что произошло с уравнением Готтмана, когда его проверили на независимой выборке? Назовите примерные числа точности до и после кросс-валидации.

Из главы 3: что за соотношение 5:1 и для каких именно пар оно наблюдалось в лаборатории?

Из главы 1: в чём разница между описанием (что отличает несчастливые пары) и предсказанием (точный прогноз будущего)?

Не подглядывайте. Сформулируйте вслух или письменно — хотя бы одним предложением на каждый вопрос.

Глава 1 Левенсон и Готтман, 1983: ссора как сцепка нервных систем. Описание ≠ предсказание — первая трещина уже в 1985-м.

Глава 3 Соотношение 5:1 позитива к негативу — наблюдение на стабильных парах в лаборатории, не рецепт на каждый день.

Глава 4 «Первые три минуты» Каррер и Готтмана 1999: предсказание исхода по начальным секундам конфликта — пост-хок на своей выборке.

Глава 5 Хейман и Смит-Слеп 2001: уравнение с 90% точностью рассыпается до ~21% на реальной популяции. Переобучение.

Глава 6 — сейчас Ким, Капальди и Кросби 2007: независимая выборка, 22 процесса Готтмана. Что реплицируется?

Что вы поймёте после этой главы

Чем пост-хок анализ принципиально отличается от проспективной независимой проверки — и почему это важнее, чем кажется
Что именно обнаружила Ким с коллегами в 2007 году: какие из 22 аффективных процессов Готтмана реплицировались, а какие нет
Как правильно читать провал репликации — это не «учёные ошиблись», это нормальная работа науки
Почему ограничение выборки (at-risk, молодые пары) имеет значение при интерпретации результатов

Часть 1. Две очень разные экзаменовки

Представьте такую ситуацию. Вы готовитесь к экзамену по математике. Преподаватель сам придумал задачи, сам объяснял их на лекциях, сам составил контрольную — и теперь смотрит, насколько хорошо его собственные студенты решают его собственные задачи. Студенты знают стиль, привыкли к подходу, натренировались на похожих примерах. Результат будет хорошим. Это ещё ничего не говорит о том, насколько знание обобщается.

Теперь другой сценарий. Тот же самый учебник математики, те же самые задачи — но экзамен принимает другой преподаватель, в другом городе, у студентов, которые никогда не видели этого учебника. Они решают задачи с нуля, без знакомой подсказки в формулировке.

Именно это различие — ядро сегодняшней главы. Первый сценарий называется пост-хок анализом: строишь формулу на тех же данных, на которых проверяешь. Второй — проспективной независимой репликацией: проверяешь на новых людях, которых формула ещё не видела.

📝

Пост-хок

Строю и проверяю на одних и тех же парах. Легко получить высокую «точность» — формула выучила именно эти данные. В главах 4–5 именно это и происходило с уравнениями Готтмана [1, 2].

🔬

Независимая репликация

Другая команда, другая выборка, та же гипотеза. Если держится — значит, что-то реальное. Если нет — нужно понять, почему. Именно это делает Ким в 2007-м [3].

Разница между ними — как между портным, который снял мерки с одного человека и сшил идеальный костюм, и тем же портным, который утверждает, что этот костюм подойдёт любому. Пока не примерил на чужого — не знаешь. Об этом мы говорили ещё в главе 1, когда разбирали разрыв между описанием и предсказанием. Теперь видим этот разрыв в конкретных числах.

Часть 2. Орегонская проверка

Хюн Ким и её коллеги из Орегонского исследовательского института работали с выборкой, которая принципиально отличалась от пар Готтмана. Готтман изучал преимущественно добровольцев, откликнувшихся на объявления в Сиэтле. Ким работала с at-risk выборкой: молодые пары из сообщества с историей проблемного поведения, участники долгосрочного лонгитюдного исследования. Восемьдесят пять пар, проспективное наблюдение, исход через несколько лет.

Слово «at-risk» здесь не ярлык. Это научный термин: выборка, у которой статистически выше вероятность неблагополучного исхода. Такие выборки часто используются в longitudinal исследованиях — легче проследить за изменениями, когда часть событий действительно происходит.

Важный нюанс Тот факт, что выборка Ким — at-risk молодые пары — означает, что вопрос обобщаемости их результатов так же реален, как вопрос обобщаемости результатов Готтмана. Сами авторы это признают. Провал репликации ставит вопрос о границах применимости, а не выносит приговор всей программе.

Ким взяла двадцать два аффективных процесса, которые Готтман и коллеги называли предикторами распада отношений: отказ мужчины принимать влияние партнёрши, отсутствие де-эскалации в конфликте, жёсткое негативное начало конфликта со стороны женщины, reciprocal negativity — взаимная раскрутка негатива — и многие другие. И проверила каждый из них проспективно [3].

Затем она посмотрела на результаты. И увидела то, что увидела.

Kim, Capaldi & Crosby (2007): из 22 аффективных процессов, выдвинутых в рамках программы Готтмана, лишь 2 значимо предсказали исход в независимой at-risk выборке [3].

Часть 3. Что именно не вышло — и что это значит

Три процесса, которые Готтман ставил в центр своей предсказательной модели, в выборке Ким не проявились как значимые предикторы [3]. Отказ мужчины принимать влияние — не реплицировался. Отсутствие де-эскалации — не реплицировался. Жёсткий негативный старт со стороны женщины — не реплицировался. Из двадцати двух позиций два признака дотянулись до статистической значимости.

Это цифра, которая просит интерпретации. Не паники — интерпретации.

Что эта цифра означает. Провал репликации не доказывает, что Готтман «выдумал» свою теорию. Он работал в реальной лаборатории с реальными парами и получал реальные данные. Вопрос в другом: насколько его находки обобщаются на пары с другим профилем риска, в другом месте, в другое время? Именно это ставит под сомнение Ким — не достоверность наблюдений Готтмана, а их обобщаемость.

Здесь работает та же логика, что и в главе 5 про переобучение. Уравнение, которое выучило одну выборку — сиэтлских добровольцев середины 1980-х — не обязано работать на орегонских молодых парах из группы риска двадцать лет спустя. Это не проблема Готтмана как человека. Это ограничение любой эмпирической программы, которая выросла из конкретной выборки и не прошла достаточной внешней проверки.

И ещё один важный момент: сама Ким формулирует результат именно как вопрос обобщаемости, а не как опровержение. Это честная научная позиция. В науке провал репликации — не приговор, а сигнал: ищите, где именно проходит граница применимости.

🤔 Предскажите до ответа

Если бы Ким обнаружила, что все 22 процесса Готтмана реплицировались, — означало бы это, что формула предсказания развода с точностью 83% теперь валидна? Подумайте и сформулируйте своё объяснение.

Вспомните главу 5: даже 90% точность на своей выборке рассыпалась до ~21% при независимой кросс-валидации. Репликация паттернов и точность предсказания — разные вещи.

Часть 4. Пост-хок против проспективного — в деталях

Вернёмся к принципиальному различию, потому что оно важнее, чем кажется, и встречается не только в науке о браке.

Когда Готтман и Каррер в 1999-м объявили, что первые три минуты конфликта предсказывают исход брака за шесть лет, — это был пост-хок анализ на своих парах [1]. Исследователи уже знали, кто из 124 пар развёлся, а кто нет. Они взяли эти сведения, нашли паттерн в первых трёх минутах, который лучше всего разделяет «разводных» и «неразводных» — и провозгласили это предсказанием. Но «предсказание» здесь не совсем точное слово: они описали прошлое, которое уже знали, а не угадали будущее, которого не знали.

Проспективная репликация устроена иначе. Ким с коллегами смотрели на поведение пар до того, как знали исход. Прописали гипотезы — «вот двадцать два процесса, которые должны предсказывать распад» — и дождались, пока жизнь покажет, что случилось с каждой парой. Это настоящее предсказание.

🎯

Пост-хок анализ — это как стрелять в стену, а потом нарисовать мишень вокруг дырки и объявить себя снайпером.
Проспективная репликация — это повесить мишень до выстрела.
Наука предпочитает второй порядок действий. Пресса — первый.

Важно понимать: сам Готтман прекрасно знал о разнице. Его работа 1992 года с Левенсоном была проспективной по дизайну — 73 пары, два замера с интервалом в несколько лет [4]. Но по мере того, как программа набирала известность и давление публикационных циклов нарастало, пост-хок анализы стали появляться всё чаще. Жить в этом давлении — нелёгкая задача, и история науки знает много примеров, когда строгость методологии медленно уступала соблазну красивого числа.

Часть 5. Как читать провал репликации

Есть два способа интерпретировать то, что сделала Ким. Один — журналистский: «исследователи доказали, что Готтман ошибался». Другой — научный: «репликация выявила границы обобщаемости программы, требуются дальнейшие исследования на разнородных выборках».

Второй способ правильный. Вот почему.

Выборка имеет значение

At-risk молодые пары — это не «все пары». Процессы, важные для пар с историей бытового стресса и риска, могут отличаться от процессов у пар без такой истории. Провал репликации может говорить не о том, что теория неверна, а о том, что её область применимости уже, чем предполагалось.

Две из двадцати двух — это не ноль

Два значимых процесса из двадцати двух — это скромно, но это сигнал. Что-то в поведенческой программе Готтмана реально работает поперёк выборок. Задача теперь — понять, что именно.

Репликация — двигатель, а не тормоз

Без таких исследований, как Ким 2007, программа Готтмана могла бы ещё двадцать лет существовать как черт-её-знает-насколько-обобщаемая. Репликация — это инструмент уточнения, а не инструмент разрушения.

✋ Объясните своими словами

Почему провал репликации в другой выборке — это нормальная работа науки, а не скандал или доказательство мошенничества? Сформулируйте объяснение для человека, который только что прочитал заголовок «Учёные опровергли Готтмана».

Подсказка: ключевые слова — «границы применимости», «выборка», «пост-хок vs проспективный», «уточнение vs опровержение».

Часть 6. Итоги: что держится, что под вопросом

Итак, после Хейман и Смит-Слеп 2001 (глава 5) и Ким с коллегами 2007 (сегодня) у нас есть достаточно ясная картина.

Что держится. Базовые находки программы Готтмана о том, что отличает несчастливые пары — высокий физиологический аффект во время конфликта, взаимная раскрутка негатива, паттерны, которые позже получили название «Четырёх всадников», — в разной степени воспроизводятся в независимых работах. Это дескриптивная часть программы — она относительно прочная. Мы говорили об этом в главах 2 и 3.

Что не держится. Конкретные предсказательные уравнения — точные цифры точности (83%, 94%), конкретные процессы как универсальные предикторы — не прошли независимую проверку. Это предикативная часть программы: амбициозная, прекрасно продаваемая — и ненадёжная вне родных выборок.

Граница между описанием и предсказанием — это граница между тем, что наука может сказать надёжно, и тем, что она пока только обещает.

В следующей главе произойдёт нечто необычное. Критику Готтману предъявят не посторонние — а человек из его собственного научного лагеря. Тот, кто сам посвятил жизнь науке о парах и чья программа конкурирует с программой Готтмана. Это разговор взрослых людей, которые не согласны, — и он многое скажет о том, как настоящая наука устроена изнутри.

В следующей главе. 2000 год. Журнал публикует одновременно статью и ответ на неё. Один из авторов ответа — Говард Маркман, со-основатель программы PREP. Он пишет, что рекомендации Готтмана «преждевременны в лучшем случае» — и разбирает, почему мост от лабораторных данных к советам для реальных пар ещё не построен. Это критика изнутри. И она меняет всё.

Источники этой главы

Peer-reviewedCarrère, S., & Gottman, J. M. (1999). Predicting divorce among newlyweds from the first three minutes of a marital conflict discussion. Family Process, 38(3), 293–301. 124 новобрачных, SPAFF-кодирование, пять 3-минутных интервалов; «предсказание» исхода за 6 лет по первым трём минутам — пост-хок анализ на своей выборке. DOI: 10.1111/j.1545-5300.1999.00293.x
Peer-reviewedHeyman, R. E., & Smith Slep, A. M. (2001). The hazards of predicting divorce without crossvalidation. Journal of Marriage and Family, 63(2), 473–479. Уравнение с 90% общей точностью падает до ~21% positive predictive value при кросс-валидации; ни одно исследование на 2001 г. не проверяло предсказание развода на общей популяции. DOI: 10.1111/j.1741-3737.2001.00473.x · PMID: 17066126 · PMC1622921
Peer-reviewedKim, H. K., Capaldi, D. M., & Crosby, L. (2007). Generalizability of Gottman and colleagues' affective process models of couples' relationship outcomes. Journal of Marriage and Family, 69(1), 55–72. Независимая at-risk выборка (85 пар), проспективный дизайн. 22 аффективных процесса Готтмана протестированы: ключевые предикторы не реплицировались; лишь 2 из 22 значимо связаны с исходом. Авторы формулируют как вопрос обобщаемости, а не опровержения теории. DOI: 10.1111/j.1741-3737.2006.00343.x · PMID: 17372624 · PMC1828692
Peer-reviewedGottman, J. M., & Levenson, R. W. (1992). Marital processes predictive of later dissolution: Behavior, physiology, and health. Journal of Personality and Social Psychology, 63(2), 221–233. 73 пары, два замера (1983 и 1987), проспективный дизайн. Каскадная модель распада названа самими авторами «предварительно поддержанной»; закладывает поведенческие паттерны, ставшие прото-Четырьмя всадниками. DOI: 10.1037/0022-3514.63.2.221 · PMID: 1403613

Глава информационно-просветительская. Источники — peer-reviewed статьи. Это не индивидуальная психологическая консультация и не замена семейной терапии.