Урок 8

Что осталось после Replication Crisis

Глава 8. 2015, Charlottesville. Брайан Носек открывает сотый конверт — и в нём не то, что ожидалось

Цели урока

К концу этого урока вы:

Что показали три крупнейших репликационных проекта (OSC 2015, Camerer 2016, Camerer 2018) — в числах
Какие эффекты из уроков 1–7 этого курса выдержали проверку, какие ослабели, какие рухнули
Как были раскрыты два случая фабрикации данных — Арьели (2021) и Джино (2023) — и почему это важно для читателя поп-экономики
Что такое publication bias и p-hacking, и почему они не то же самое, что мошенничество
Как отличить robust core behavioral economics от discredited periphery при чтении книг и статей

Тихо начинаем. Дальше — детали.

0:00 / 0:00

Учёный за письменным столом сортирует стопки бумаг: одни помечены зелёным REPLICATED, другие красным FAILED, третьи лежат в пепельнице

Август 2015 года, University of Virginia, Charlottesville. Брайан Носек — психолог, специалист по неявным установкам — сидит в своём кабинете перед стопкой документов. Это итоговые отчёты трёхлетнего проекта, в котором 270 учёных из 60 с лишним лабораторий воспроизводили ровно 100 исследований, опубликованных в трёх ведущих журналах по психологии.

Он открывает последний пакет данных. Пора считать. Из 100 исследований с p<0.05 в оригинале — сколько получили p<0.05 в репликации? Он уже знал примерный ответ, потому что видел промежуточные результаты. Но одно дело — знать. Другое — держать в руках финальную цифру.

36-39.

Из ста.

97% оригинальных публикаций показывали p<0.05. Из них воспроизвелось 36-39%. Средний размер эффекта в репликации — примерно половина оригинала.

Это была не катастрофа поп-науки. Это было систематическое вскрытие нормальной науки — которая всё это время производила что-то меньшее, чем обещала. Сегодня мы пройдём по итогам этого вскрытия с одним прагматичным вопросом в руках: что из семи предыдущих глав этого курса осталось стоять?

Что вы поймёте после этой главы

Что показали три крупнейших репликационных проекта (OSC 2015, Camerer 2016, Camerer 2018) — в числах
Какие эффекты из уроков 1–7 этого курса выдержали проверку, какие ослабели, какие рухнули
Как были раскрыты два случая фабрикации данных — Арьели (2021) и Джино (2023) — и почему это важно для читателя поп-экономики
Что такое publication bias и p-hacking, и почему они не то же самое, что мошенничество
Как отличить robust core behavioral economics от discredited periphery при чтении книг и статей

Маршрут курса: где мы находимся

Урок 1 — Мишель Зефирный тест: механизм надёжен, предсказательная сила — ослаблена Watts 2018

Урок 2 — Муллайнатан и Шафир Дефицит: туннелирование и bandwidth tax — core находки устойчивы

Урок 3 — Лёвенштейн I Гиперболическое дисконтирование: preference reversal — один из самых устойчивых эффектов

Урок 4 — Лёвенштейн II Горячо-холодный разрыв и риск-как-чувство: широко цитированы, не тестировались adversarially

Урок 5+6 — Канеман и Талер Prospect theory + endowment effect: один из самых хорошо реплицированных блоков в social science

Урок 7 — Хершфилд Будущее «я»: заголовочный 2x — наводящий; field-репликация в Мексике — solid

Урок 8 — сегодня Replication Crisis: что осталось, что рухнуло, два случая fraud, как читать поп-экономику дальше

Часть 1. Три репликационных проекта — в числах

Разговор о replication crisis в психологии обычно начинают с одной статьи в Science 2015-го, но по-настоящему убедительную картину дают три проекта, взятые вместе. У каждого — свой масштаб, своя область и немного разные методы. Но вывод у всех трёх идёт в одну сторону.

Open Science Collaboration 2015 [1]

Что сделали. 270 учёных из 60+ лабораторий воспроизвели ровно 100 исследований из трёх топовых журналов по психологии: Journal of Experimental Psychology: Learning, Memory, and Cognition, Journal of Experimental Psychology: General и Journal of Personality and Social Psychology. Все дизайны и аналитические процедуры зарегистрированы заранее. Исходная выборка — публикации 2008 года.

Что обнаружили. 97% оригинальных публикаций имели p<0.05. В репликациях p<0.05 получили только 36-39%. Средний размер эффекта в репликации — примерно половина оригинального. Субъективный rating «удалось воспроизвести» от самих репликаторов — 39%.

Camerer et al. 2016 — экономика [2]

Что сделали. Воспроизвели 18 лабораторных экспериментов из AER (American Economic Review) и QJE (Quarterly Journal of Economics) 2011–2014. Выборка намеренно ограничена incentivized experiments — то есть теми, где реальные деньги задействованы.

Что обнаружили. 11/18 (61%) реплицировали по основному критерию. Средний effect size в репликации — 66% от оригинала. Экономика фарила лучше, чем психология в целом — вероятно, из-за жёстких журнальных стандартов и большей зависимости от incentivized choices, а не опросников.

Camerer et al. 2018 — Nature/Science [3]

Что сделали. Воспроизвели 21 эксперимент из Nature и Science 2010–2015 — social-science результаты в самых престижных журналах планеты. Если уж где-то должно держаться — то здесь.

Что обнаружили. 13/21 (62%) реплицировали. Средний effect size — ~50% от оригинала. В числе нереплицированных: power posing, ego-depletion adjacent, money priming.

Процент успешных репликаций (p<0.05) в трёх ключевых проектах по сравнению с долей оригинальных публикаций с p<0.05. Источники: OSC [1], Camerer et al. 2016 [2], Camerer et al. 2018 [3].

🤔 Предскажите до ответа

Если в оригинале 97% статей имели p<0.05, а в репликации только 38% — что из этого следует? Сформулируйте два конкурирующих объяснения — одно в пользу учёных, другое против — прежде чем читать дальше.

Подсказка: один вариант объяснения — что что-то не так с учёными. Другой — что что-то не так с системой публикаций. Это разные вещи.

Объяснение — не единственное. Три механизма действовали параллельно. Publication bias: журналы публикуют p<0.05, отклоняют всё остальное — поэтому архив науки систематически смещён в сторону тех исследований, которые получили «красивый» результат, включая false positives. P-hacking (или «tortured data»): исследователь не фабрикует данные, но смотрит на результат между анализами, добавляет участников, убирает выбросы или меняет переменную — пока p не упадёт ниже 0.05. Это честное мошенничество, о котором сам автор может не подозревать. Наконец — и это отдельная история — прямое мошенничество: два случая из нашего курса.

Часть 2. Что рухнуло — три случая

Ego depletion: d=0.04

В 1998 году Рой Баумайстер с коллегами опубликовали в JPSP эксперимент: участники, которых просили не есть печенье рядом (сдерживали себя), впоследствии хуже работали над геометрической головоломкой. Объяснение: воля — это мышца с ограниченным запасом глюкозы. Используй её — и следующая задача даётся труднее. Концепция называлась ego depletion и породила два десятилетия экспериментов, книг и корпоративных тренингов про «усталость от решений».

В 2016 году Hagger et al. организовали многолабораторную репликацию — 23 лаборатории в 23 странах, предрегистрированный дизайн. Результат: d=0.04 (95% CI: -0.07, 0.15). Это статистически ноль [4]. Dang et al. 2021 подтвердили: null [4]. Ego depletion как оперативный механизм — не существует в том виде, в каком его описывали.

Power posing: публичный отказ

Карни, Кадди, Яп (2010) показали: «мощные» позы тела на две минуты повышают тестостерон и снижают кортизол. Тогда же или позднее — предположительно повышают и готовность к риску. Тед-лекция Эми Кадди 2012 года вошла в топ-5 самых просматриваемых TED talks в истории. Идея разошлась по бизнес-тренингам и самоучителям.

Ranehill et al. 2015 — предрегистрированная репликация: гормональных эффектов нет. В сентябре 2016 года Dana Carney — первый автор оригинальной статьи — опубликовала официальное заявление на сайте факультета Haas [5]:

«I do not believe that ‘power pose’ effects are real… the evidence against the existence of power poses is undeniable.» — Dana Carney, официальное заявление, 2016 [5]

Автор, которая ближе всех к данным, пришла к выводу: нет. Это — наука, работающая как надо, пусть и болезненно.

Marshmallow — callback к уроку 1

Помните девочку в Bing Nursery School? В уроке 1 мы подробно разобрали, что показала Watts-Duncan-Quan 2018 [урок 1]: на выборке N=918 бивариативный эффект в два раза меньше, а с контролями по SES и раннему когнитивному развитию — остаётся ~одна шестая от оригинала. Механизм Мишеля 1970 — управление вниманием — устойчив. Предсказательная сила — была сильно переоценена.

Часть 3. Фабрикация: Арьели и Джино

Мошенничество в науке — не то же самое, что publication bias или p-hacking. Это намеренная фальсификация данных. В behavioral economics 2021–2023 произошли два громких случая, связанных с одной и той же статьёй в одном и том же журнале. И они заслуживают отдельного разговора, потому что обе фигуры — авторы книг, которые, вероятно, стоят на чьей-то полке.

Data Colada #98: Study 3 (август 2021)

Статья Shu, Mazar, Gino, Ariely, Bazerman (2012), опубликованная в PNAS — «Signing at the beginning makes ethics salient and decreases dishonest self-reports in comparison to signing at the end». Study 3: автостраховщик прислал реальные данные одометров автомобилей; половина клиентов подписывала декларацию в начале формы (до внесения данных), половина — в конце. Результат якобы показал: подпись в начале снижает нечестность.

В августе 2021 года Симонсон, Симмонс и Нельсон вместе с анонимными коллегами опубликовали Data Colada #98 [6]. Они получили оригинальный Excel-файл с данными. Что они нашли:

Признаки фабрикации в Study 3:

• Данные одометров — сгенерированы генератором случайных чисел (равномерное распределение), а не измерены у реальных водителей. Реальные данные пробега не выглядят так.

• В одном Excel-файле обнаружены два разных шрифта — часть данных была добавлена позже.

• Единственный автор, который был в контакте со страховой компанией и получал исходные данные, — Дэн Арьели.

• PNAS отозвал статью в сентябре 2021 года.

Data Colada #109: Study 1 (июнь 2023)

В июне 2023 года вышел Data Colada #109 [7] — анализ Study 1 той же статьи. Study 1 была лабораторным экспериментом. Независимый от Арьели анализ показал: Study 1 тоже содержит сфабрикованные данные. Автор, работавший с данными Study 1, — Франческа Джино из Harvard Business School.

Harvard Business School перевела Джино на административный отпуск в 2023 году. Это два независимых случая фабрикации в одной статье — что само по себе прецедент.

Курящий пистолет — до скандала

Самое поразительное: сами авторы оригинальной статьи уже в 2020-м опубликовали попытку репликации. Kristal, Whillans, Bazerman, Gino, Shu, Mazar, Ariely (2020), PNAS 117:7103–7107 [8] — 6 исследований, N=5794. Эффект не воспроизвёлся. Они написали это в статье. Они сами же провалили свою работу. Fraud раскрыли позже — но красный флаг был уже там.

📁

Учёный фабрикует данные.
Через восемь лет он же публикует «репликацию» — которая не реплицируется.
Потом кто-то смотрит на оригинальный Excel и видит два шрифта.
Moral: если ваши данные сгенерированы RNG — хотя бы используйте один и тот же шрифт.

✋ Self-check

Объясните разницу между тремя явлениями: (а) publication bias, (б) p-hacking, (в) фабрикация данных. Для каждого: является ли оно «нечестным»? Является ли оно «незаконным» в академическом смысле? Требует ли намерения?

Ключевое различие: (а) — системная проблема без конкретного виновника; (б) — может быть неосознанным; (в) — всегда намеренно и является академическим нарушением.

Часть 4. Карта выживших эффектов курса

Это главная таблица этого урока. Мы прошли через семь глав. Теперь — обновлённый статус каждого из ключевых эффектов в свете replication crisis. Используем тот же формат, что в Уроке 6, когда разбирали дебаты Plott-Zeiler [урок 6]: holds / holds (partial) / weakened / failed.

Декоративная иллюстрация: стол с разложенными бумагами, часть в зелёном свете (уцелели), часть в красном (рухнули), одна папка в пепле — Итоговая сортировка. Не все конверты содержат хорошие новости.

Эффект / Урок	Статус	Ключевое свидетельство
Prospect theory & loss aversion (Ур. 5)	SOLID	Ruggeri et al. 2020 [9]: 19-страновая репликация, N=4098. «Эмпирические основания prospect theory реплицируются за пределами любых разумных порогов.»
Anchoring & adjustment (Ур. 9↑)	SOLID	Röseler et al. 2024 Management Science [10]: 50-летняя мета-аналитическая реинтеграция подтверждает один из самых устойчивых эффектов в JDM.
Endowment effect (Ур. 5+6)	SOLID	Исони-Ломс-Сагден 2011 [AER] частично снял возражения Plott-Zeiler; Genesove-Mayer 2001 — полевые данные бостонского рынка недвижимости.
Present bias / hyperbolic discounting (Ур. 3)	SOLID	Beshears et al. 2022: β≈0.55 в lifecycle данных; DellaVigna-Malmendier 2006 — полевые данные абонементов в спортзал.
Scarcity / bandwidth tax (Ур. 2)	ROBUST (с оговоркой)	Core findings Mani 2013 — устойчивы; конкретные magnitudes («13 IQ points») — популярный перевод, правильнее «одно SD».
Default effects (cross-ref)	SOLID	Madrian-Shea 2001; Thaler-Benartzi Save More Tomorrow; авто-enroll 401(k) — policy-robust, реплицирован в нескольких странах.
Future self continuity (Ур. 7)	SUGGESTIVE (headline) / field solid	Заголовочный 2x VR — наводящий; Shah et al. 2018 в Мексике — solid (3x sign-up); US DOL CLEAR: High Causal Evidence.
Marshmallow predictive power (Ур. 1)	WEAKENED	Watts-Duncan-Quan 2018: с контролями SES — эффект ~одна шестая от оригинала. Механизм Мишеля 1970 (управление вниманием) — устойчив.
Growth mindset interventions (cross-ref Ур. 9↑)	WEAKENED (4-5x oversold)	Sisk et al. 2018: d¯=0.08; Macnamara-Burgoyne 2022: d=0.05. Промышленность переоценила в 4-5 раз.
Ego depletion (не в курсе — и правильно)	FAILED	Hagger 2016 multilab, 23 лабораторий: d=0.04. Статистически ноль.
Power posing (не в курсе — и правильно)	FAILED + DISAVOWED	Ranehill 2015 не воспроизвёл; Carney 2016 [5]: «Я не верю, что эффекты power posing реальны».
Honesty studies Ariely/Gino	FABRICATED — RETRACTED	Data Colada #98 (2021) [6] + #109 (2023) [7]; PNAS retraction 2021.

Часть 5. Почему это происходит — механика

Что порождает разрыв между 97% и 38%? Не мошенничество — fraud — это лишь тонкий слой на поверхности. Основной механизм — структурные стимулы системы.

Publication bias

Журналы принимают исследования с p<0.05 и отклоняют null results. Исследователь, получивший null, не публикует. В результате в архиве науки накапливаются ложные позитивы. Это — не мошенничество. Это — системная проблема, которую сейчас решают preregistration и Registered Reports.

P-hacking (HARKing)

Исследователь анализирует данные, смотрит на результат, корректирует выборку, меняет ковариат или зависимую переменную — и в итоге достигает p<0.05. Потом пишет статью, как будто план был такой с самого начала. HARKing — Hypothesizing After Results Known. Может происходить неосознанно. Решение — предрегистрация гипотез до сбора данных.

Маленькие N при большом шуме

Если истинный размер эффекта мал (d=0.2), а N=30 — вы обнаружите его только случайно. При случайной удаче получаете красивый p=0.04. При репликации — null. Это не мошенничество. Это underpowered science. Решение — крупные выборки, многолабораторные репликации.

WEIRD samples

Большинство психологических экспериментов 1970-2010-х проведено на Western, Educated, Industrialized, Rich, Democratic undergraduate populations. Обобщение на всё человечество — предположение, не факт. Это почему 19-страновая репликация Ruggeri 2020 для prospect theory так важна: она проверяла именно WEIRD-to-non-WEIRD переносимость.

Что изменилось после 2015-го. Preregistration стал стандартом в ведущих журналах. Появились Registered Reports — формат, где журнал принимает статью до получения результатов (commit к публикации независимо от p). Появились мегастудии — многолабораторные репликации типа ManyLabs. Рост открытых данных и открытых материалов. Replication crisis — не конец науки. Это наука, делающая то, что должна: самокорректироваться.

Часть 6. Как читать поп-экономику дальше

Практический вопрос: что делать с книгами, которые уже стоят на полке, и с теми, которые ещё покупать не стали?

Арьели написал «Predictably Irrational» (2008) и несколько других книг. Эти книги продаются, переводятся, цитируются. Некоторые результаты в них — реальные и устойчивые (якорение, framing effects, которые он разбирает с опорой на Тверски и Канемана). Часть — основана на его собственных работах, которые теперь под вопросом или отозваны. Наша рекомендация: не читать поп-экономику 2008–2018 как источник фактов. Читать как источник вопросов — а затем проверять каждый конкретный эффект в первоисточнике.

✓

Читать с доверием

Книги с явной опорой на Канемана-Тверски-Талера (Thinking, Fast and Slow; Nudge; Misbehaving). Ссылки на loss aversion, anchoring, present bias, endowment effect — все из robust core.

✓

Читать с оговоркой

Книги Муллайнатана и Шафира (Scarcity), Хершфилда (Your Future Self) — core выводы устойчивы, но некоторые конкретные числа надо проверять.

✗

Читать как художественную литературу

Predictably Irrational, The Honest Truth about Dishonesty (Ariely) — интересны как рассказы, но конкретные «экспериментальные» данные ненадёжны.

✗

Не рекомендовать другим

Любая книга или курс, где ego depletion / power posing / social priming подаётся как рабочий инструмент без caveat. Это либо устаревшая наука, либо игнорирование replication data.

Отдельно — про Growth Mindset. Книга Кэрол Двек (2006) остаётся полезной как концептуальная рамка: убеждение, что способности развиваются, лучше убеждения что они фиксированы. Корреляция mindset с достижениями реальна — d≈0.20. Проблема в другом: интервенции (треники, упражнения «поменяй установку») дают d=0.05–0.08. Это на 80% меньше, чем обещает индустрия. Если вы платили деньги за mindset coaching — эффект, вероятно, был в 4–5 раз меньше, чем вам говорили. Возможно, это лучше, чем ничего. Но это не магия [11, 12].

Часть 7. Итог: что осталось, зачем это знать

Replication Crisis — не аргумент против поведенческой экономики. Это аргумент против того, как поведенческую экономику продавали в 2008–2018 годах. Наука сделала свою работу: проверила, разделила, дала явные статусы.

Из семи глав этого курса:

🟢

Надёжное ядро

Prospect theory, loss aversion, anchoring, endowment effect, present bias, default effects — выдержали 50 лет проверок и мультилабораторные репликации. Это не революция — это накопленная нормальная наука. Используйте.

🟡

Устойчивое ядро с оговорками

Scarcity mindset, future self continuity — core findings устойчивы, headline magnitudes надо читать осторожно. Marshmallow mechanism (управление вниманием) — устойчив; predictive power — сильно переоценена. Growth mindset как концепция — да; как интервенция — гораздо скромнее.

🔴

Отброшенная периферия

Ego depletion, power posing, большинство social priming, all Ariely honesty studies — рухнули или фабрикованы. Не цитируйте. Не используйте в решениях. Не рекомендуйте. Если видите их в книге — поставьте галочку «не проверялось с 2016 года».

Следующий урок — не следствие, а параллельная история. Пока шёл кризис воспроизводимости, четыре мыслителя оставались в стороне от него — потому что их основные работы либо были опубликованы до волны поп-науки, либо держались на других методологических основаниях. В уроке 9 мы встретим их всех: Тверски с его колесом рулетки 1974-го, Чалдини с шестью принципами влияния, Двек с честным прочтением эффектов mindset, и Триверса — с, возможно, самой мрачной гипотезой о финансовом поведении, которую вы услышите в этом курсе.

В следующей главе — Урок 9. 1974 год, лаборатория Тверски. Колесо рулетки останавливается на цифре 65. Испытуемых спрашивают: какой процент африканских стран в ООН? Они называют 45%. В той же лаборатории — три других призрака: Чалдини с его тремя годами среди продавцов, Двек с честным прочтением своих же данных, и Триверс с неудобным вопросом про самообман. Почему мы лжём себе — и что это значит для денег.

Источники этой главы

Peer-reviewedOpen Science Collaboration (2015). Estimating the reproducibility of psychological science. Science, 349, aac4716. 270 учёных, 100 исследований: 36-39% реплицировали с p<0.05; средний effect size ~половина оригинала. DOI: 10.1126/science.aac4716
Peer-reviewedCamerer, C. F., et al. (2016). Evaluating replicability of laboratory experiments in economics. Science, 351(6280), 1433-1436. 18 экспериментов из AER и QJE 2011-2014; 11/18 (61%) реплицировали; effect sizes ~66% оригинала. DOI: 10.1126/science.aaf0918
Peer-reviewedCamerer, C. F., et al. (2018). Evaluating the replicability of social science experiments in Nature and Science. Nature Human Behaviour, 2, 637-644. 21 эксперимент из Nature/Science 2010-2015; 13/21 (62%) реплицировали; effect sizes ~50% оригинала. DOI: 10.1038/s41562-018-0399-z
Peer-reviewedHagger, M. S., et al. (2016). A multilab preregistered replication of the ego-depletion effect. Perspectives on Psychological Science, 11(4), 546-573. 23 лаборатории: d=0.04 (95% CI -0.07, 0.15) — статистически ноль. Подтверждено Dang et al. 2021. DOI: 10.1177/1745691616652873
Official statementCarney, D. R. (2016). My position on “Power Poses.” Faculty page, Haas School of Business, UC Berkeley. Официальное заявление первого автора: «Я не верю, что эффекты power posing реальны... доказательства против их существования неоспоримы.» URL: faculty.haas.berkeley.edu/dana_carney
Investigative blogSimonsohn, U., Simmons, J. P., & Nelson, L. D. (2021, August). Evidence of fraud in an influential field experiment about dishonesty. Data Colada, #98. Анализ Excel-файла Study 3: сгенерированные RNG данные одометров, два шрифта в файле, Арьели — единственный контакт со страховщиком. PNAS отозвал статью в сентябре 2021. URL: datacolada.org/98
Investigative blogSimonsohn, U., Simmons, J. P., & Nelson, L. D. (2023, June). Data Falsificada (Clusterfake). Data Colada, #109. Study 1 той же статьи: независимая фабрикация данных Франческой Джино. Harvard Business School — административный отпуск 2023. URL: datacolada.org/109
Peer-reviewedKristal, A. S., et al. (2020). Signing at the beginning versus at the end does not decrease dishonesty. PNAS, 117(13), 7103-7107. Авторы оригинальной статьи сами провели репликацию до скандала: 6 исследований, N=5794 — эффект не воспроизвёлся. DOI: 10.1073/pnas.1911695117
Peer-reviewedRuggeri, K., et al. (2020). Replicating patterns of prospect theory for decision under risk. Nature Human Behaviour, 4, 622-633. 19-страновая репликация prospect theory, N=4098. Framing, loss aversion, четырёхполюсный паттерн — все воспроизвелись. DOI: 10.1038/s41562-020-0886-x
Peer-reviewedRöseler, L., et al. (2024). Fifty years of anchoring effects. Management Science. Мета-аналитическая реинтеграция 50 лет исследований: anchoring — один из самых устойчивых эффектов в JDM. DOI: 10.1287/mnsc.2023.03238
Peer-reviewedSisk, V. F., et al. (2018). To what extent and under which circumstances are growth mind-sets important to academic achievement? Psychological Science, 29(4), 549-571. Мета-1 (k=273, N=365 915): корреляция mindset-achievement d≈0.20. Мета-2 (k=43, N=57 155): интервенции d¯=0.08 (95% CI [0.02, 0.14]). DOI: 10.1177/0956797617739704
Peer-reviewedMacnamara, B. N., & Burgoyne, A. P. (2022). Do growth mindset interventions impact students’ academic achievement? A systematic review and meta-analysis with recommendations for best practices. Psychological Bulletin. Обновлённый мета-анализ (k=63, N=97 672): d=0.05; manipulation-check studies показывают null. Промышленность переоценила эффект в 4-5 раз. DOI: 10.1037/bul0000352

Глава информационно-просветительская. Все источники — peer-reviewed papers с DOI, официальные заявления или верифицированные investigative publications. Это — не индивидуальная финансовая или психологическая консультация.