Что осталось после Replication Crisis
Глава 8. 2015, Charlottesville. Брайан Носек открывает сотый конверт — и в нём не то, что ожидалось
Цели урока
К концу этого урока вы:
- Что показали три крупнейших репликационных проекта (OSC 2015, Camerer 2016, Camerer 2018) — в числах
- Какие эффекты из уроков 1–7 этого курса выдержали проверку, какие ослабели, какие рухнули
- Как были раскрыты два случая фабрикации данных — Арьели (2021) и Джино (2023) — и почему это важно для читателя поп-экономики
- Что такое publication bias и p-hacking, и почему они не то же самое, что мошенничество
- Как отличить robust core behavioral economics от discredited periphery при чтении книг и статей

Тихо начинаем. Дальше — детали.
Что осталось после Replication Crisis
Август 2015 года, University of Virginia, Charlottesville. Брайан Носек — психолог, специалист по неявным установкам — сидит в своём кабинете перед стопкой документов. Это итоговые отчёты трёхлетнего проекта, в котором 270 учёных из 60 с лишним лабораторий воспроизводили ровно 100 исследований, опубликованных в трёх ведущих журналах по психологии.
Он открывает последний пакет данных. Пора считать. Из 100 исследований с p<0.05 в оригинале — сколько получили p<0.05 в репликации? Он уже знал примерный ответ, потому что видел промежуточные результаты. Но одно дело — знать. Другое — держать в руках финальную цифру.
36-39.
Из ста.
Это была не катастрофа поп-науки. Это было систематическое вскрытие нормальной науки — которая всё это время производила что-то меньшее, чем обещала. Сегодня мы пройдём по итогам этого вскрытия с одним прагматичным вопросом в руках: что из семи предыдущих глав этого курса осталось стоять?
Что вы поймёте после этой главы
- Что показали три крупнейших репликационных проекта (OSC 2015, Camerer 2016, Camerer 2018) — в числах
- Какие эффекты из уроков 1–7 этого курса выдержали проверку, какие ослабели, какие рухнули
- Как были раскрыты два случая фабрикации данных — Арьели (2021) и Джино (2023) — и почему это важно для читателя поп-экономики
- Что такое publication bias и p-hacking, и почему они не то же самое, что мошенничество
- Как отличить robust core behavioral economics от discredited periphery при чтении книг и статей
Маршрут курса: где мы находимся
Часть 1. Три репликационных проекта — в числах
Разговор о replication crisis в психологии обычно начинают с одной статьи в Science 2015-го, но по-настоящему убедительную картину дают три проекта, взятые вместе. У каждого — свой масштаб, своя область и немного разные методы. Но вывод у всех трёх идёт в одну сторону.
Open Science Collaboration 2015 [1]
Что сделали. 270 учёных из 60+ лабораторий воспроизвели ровно 100 исследований из трёх топовых журналов по психологии: Journal of Experimental Psychology: Learning, Memory, and Cognition, Journal of Experimental Psychology: General и Journal of Personality and Social Psychology. Все дизайны и аналитические процедуры зарегистрированы заранее. Исходная выборка — публикации 2008 года.
Что обнаружили. 97% оригинальных публикаций имели p<0.05. В репликациях p<0.05 получили только 36-39%. Средний размер эффекта в репликации — примерно половина оригинального. Субъективный rating «удалось воспроизвести» от самих репликаторов — 39%.
Camerer et al. 2016 — экономика [2]
Что сделали. Воспроизвели 18 лабораторных экспериментов из AER (American Economic Review) и QJE (Quarterly Journal of Economics) 2011–2014. Выборка намеренно ограничена incentivized experiments — то есть теми, где реальные деньги задействованы.
Что обнаружили. 11/18 (61%) реплицировали по основному критерию. Средний effect size в репликации — 66% от оригинала. Экономика фарила лучше, чем психология в целом — вероятно, из-за жёстких журнальных стандартов и большей зависимости от incentivized choices, а не опросников.
Camerer et al. 2018 — Nature/Science [3]
Что сделали. Воспроизвели 21 эксперимент из Nature и Science 2010–2015 — social-science результаты в самых престижных журналах планеты. Если уж где-то должно держаться — то здесь.
Что обнаружили. 13/21 (62%) реплицировали. Средний effect size — ~50% от оригинала. В числе нереплицированных: power posing, ego-depletion adjacent, money priming.
Объяснение — не единственное. Три механизма действовали параллельно. Publication bias: журналы публикуют p<0.05, отклоняют всё остальное — поэтому архив науки систематически смещён в сторону тех исследований, которые получили «красивый» результат, включая false positives. P-hacking (или «tortured data»): исследователь не фабрикует данные, но смотрит на результат между анализами, добавляет участников, убирает выбросы или меняет переменную — пока p не упадёт ниже 0.05. Это честное мошенничество, о котором сам автор может не подозревать. Наконец — и это отдельная история — прямое мошенничество: два случая из нашего курса.
Часть 2. Что рухнуло — три случая
Ego depletion: d=0.04
В 1998 году Рой Баумайстер с коллегами опубликовали в JPSP эксперимент: участники, которых просили не есть печенье рядом (сдерживали себя), впоследствии хуже работали над геометрической головоломкой. Объяснение: воля — это мышца с ограниченным запасом глюкозы. Используй её — и следующая задача даётся труднее. Концепция называлась ego depletion и породила два десятилетия экспериментов, книг и корпоративных тренингов про «усталость от решений».
В 2016 году Hagger et al. организовали многолабораторную репликацию — 23 лаборатории в 23 странах, предрегистрированный дизайн. Результат: d=0.04 (95% CI: -0.07, 0.15). Это статистически ноль [4]. Dang et al. 2021 подтвердили: null [4]. Ego depletion как оперативный механизм — не существует в том виде, в каком его описывали.
Power posing: публичный отказ
Карни, Кадди, Яп (2010) показали: «мощные» позы тела на две минуты повышают тестостерон и снижают кортизол. Тогда же или позднее — предположительно повышают и готовность к риску. Тед-лекция Эми Кадди 2012 года вошла в топ-5 самых просматриваемых TED talks в истории. Идея разошлась по бизнес-тренингам и самоучителям.
Ranehill et al. 2015 — предрегистрированная репликация: гормональных эффектов нет. В сентябре 2016 года Dana Carney — первый автор оригинальной статьи — опубликовала официальное заявление на сайте факультета Haas [5]:
Автор, которая ближе всех к данным, пришла к выводу: нет. Это — наука, работающая как надо, пусть и болезненно.
Marshmallow — callback к уроку 1
Помните девочку в Bing Nursery School? В уроке 1 мы подробно разобрали, что показала Watts-Duncan-Quan 2018 [урок 1]: на выборке N=918 бивариативный эффект в два раза меньше, а с контролями по SES и раннему когнитивному развитию — остаётся ~одна шестая от оригинала. Механизм Мишеля 1970 — управление вниманием — устойчив. Предсказательная сила — была сильно переоценена.
Часть 3. Фабрикация: Арьели и Джино
Мошенничество в науке — не то же самое, что publication bias или p-hacking. Это намеренная фальсификация данных. В behavioral economics 2021–2023 произошли два громких случая, связанных с одной и той же статьёй в одном и том же журнале. И они заслуживают отдельного разговора, потому что обе фигуры — авторы книг, которые, вероятно, стоят на чьей-то полке.
Data Colada #98: Study 3 (август 2021)
Статья Shu, Mazar, Gino, Ariely, Bazerman (2012), опубликованная в PNAS — «Signing at the beginning makes ethics salient and decreases dishonest self-reports in comparison to signing at the end». Study 3: автостраховщик прислал реальные данные одометров автомобилей; половина клиентов подписывала декларацию в начале формы (до внесения данных), половина — в конце. Результат якобы показал: подпись в начале снижает нечестность.
В августе 2021 года Симонсон, Симмонс и Нельсон вместе с анонимными коллегами опубликовали Data Colada #98 [6]. Они получили оригинальный Excel-файл с данными. Что они нашли:
Признаки фабрикации в Study 3:
• Данные одометров — сгенерированы генератором случайных чисел (равномерное распределение), а не измерены у реальных водителей. Реальные данные пробега не выглядят так.
• В одном Excel-файле обнаружены два разных шрифта — часть данных была добавлена позже.
• Единственный автор, который был в контакте со страховой компанией и получал исходные данные, — Дэн Арьели.
• PNAS отозвал статью в сентябре 2021 года.
Data Colada #109: Study 1 (июнь 2023)
В июне 2023 года вышел Data Colada #109 [7] — анализ Study 1 той же статьи. Study 1 была лабораторным экспериментом. Независимый от Арьели анализ показал: Study 1 тоже содержит сфабрикованные данные. Автор, работавший с данными Study 1, — Франческа Джино из Harvard Business School.
Harvard Business School перевела Джино на административный отпуск в 2023 году. Это два независимых случая фабрикации в одной статье — что само по себе прецедент.
Курящий пистолет — до скандала
Самое поразительное: сами авторы оригинальной статьи уже в 2020-м опубликовали попытку репликации. Kristal, Whillans, Bazerman, Gino, Shu, Mazar, Ariely (2020), PNAS 117:7103–7107 [8] — 6 исследований, N=5794. Эффект не воспроизвёлся. Они написали это в статье. Они сами же провалили свою работу. Fraud раскрыли позже — но красный флаг был уже там.
Через восемь лет он же публикует «репликацию» — которая не реплицируется.
Потом кто-то смотрит на оригинальный Excel и видит два шрифта.
Moral: если ваши данные сгенерированы RNG — хотя бы используйте один и тот же шрифт.
Часть 4. Карта выживших эффектов курса
Это главная таблица этого урока. Мы прошли через семь глав. Теперь — обновлённый статус каждого из ключевых эффектов в свете replication crisis. Используем тот же формат, что в Уроке 6, когда разбирали дебаты Plott-Zeiler [урок 6]: holds / holds (partial) / weakened / failed.
| Эффект / Урок | Статус | Ключевое свидетельство |
|---|---|---|
| Prospect theory & loss aversion (Ур. 5) | SOLID | Ruggeri et al. 2020 [9]: 19-страновая репликация, N=4098. «Эмпирические основания prospect theory реплицируются за пределами любых разумных порогов.» |
| Anchoring & adjustment (Ур. 9↑) | SOLID | Röseler et al. 2024 Management Science [10]: 50-летняя мета-аналитическая реинтеграция подтверждает один из самых устойчивых эффектов в JDM. |
| Endowment effect (Ур. 5+6) | SOLID | Исони-Ломс-Сагден 2011 [AER] частично снял возражения Plott-Zeiler; Genesove-Mayer 2001 — полевые данные бостонского рынка недвижимости. |
| Present bias / hyperbolic discounting (Ур. 3) | SOLID | Beshears et al. 2022: β≈0.55 в lifecycle данных; DellaVigna-Malmendier 2006 — полевые данные абонементов в спортзал. |
| Scarcity / bandwidth tax (Ур. 2) | ROBUST (с оговоркой) | Core findings Mani 2013 — устойчивы; конкретные magnitudes («13 IQ points») — популярный перевод, правильнее «одно SD». |
| Default effects (cross-ref) | SOLID | Madrian-Shea 2001; Thaler-Benartzi Save More Tomorrow; авто-enroll 401(k) — policy-robust, реплицирован в нескольких странах. |
| Future self continuity (Ур. 7) | SUGGESTIVE (headline) / field solid | Заголовочный 2x VR — наводящий; Shah et al. 2018 в Мексике — solid (3x sign-up); US DOL CLEAR: High Causal Evidence. |
| Marshmallow predictive power (Ур. 1) | WEAKENED | Watts-Duncan-Quan 2018: с контролями SES — эффект ~одна шестая от оригинала. Механизм Мишеля 1970 (управление вниманием) — устойчив. |
| Growth mindset interventions (cross-ref Ур. 9↑) | WEAKENED (4-5x oversold) | Sisk et al. 2018: d¯=0.08; Macnamara-Burgoyne 2022: d=0.05. Промышленность переоценила в 4-5 раз. |
| Ego depletion (не в курсе — и правильно) | FAILED | Hagger 2016 multilab, 23 лабораторий: d=0.04. Статистически ноль. |
| Power posing (не в курсе — и правильно) | FAILED + DISAVOWED | Ranehill 2015 не воспроизвёл; Carney 2016 [5]: «Я не верю, что эффекты power posing реальны». |
| Honesty studies Ariely/Gino | FABRICATED — RETRACTED | Data Colada #98 (2021) [6] + #109 (2023) [7]; PNAS retraction 2021. |
Часть 5. Почему это происходит — механика
Что порождает разрыв между 97% и 38%? Не мошенничество — fraud — это лишь тонкий слой на поверхности. Основной механизм — структурные стимулы системы.
Publication bias
Журналы принимают исследования с p<0.05 и отклоняют null results. Исследователь, получивший null, не публикует. В результате в архиве науки накапливаются ложные позитивы. Это — не мошенничество. Это — системная проблема, которую сейчас решают preregistration и Registered Reports.
P-hacking (HARKing)
Исследователь анализирует данные, смотрит на результат, корректирует выборку, меняет ковариат или зависимую переменную — и в итоге достигает p<0.05. Потом пишет статью, как будто план был такой с самого начала. HARKing — Hypothesizing After Results Known. Может происходить неосознанно. Решение — предрегистрация гипотез до сбора данных.
Маленькие N при большом шуме
Если истинный размер эффекта мал (d=0.2), а N=30 — вы обнаружите его только случайно. При случайной удаче получаете красивый p=0.04. При репликации — null. Это не мошенничество. Это underpowered science. Решение — крупные выборки, многолабораторные репликации.
WEIRD samples
Большинство психологических экспериментов 1970-2010-х проведено на Western, Educated, Industrialized, Rich, Democratic undergraduate populations. Обобщение на всё человечество — предположение, не факт. Это почему 19-страновая репликация Ruggeri 2020 для prospect theory так важна: она проверяла именно WEIRD-to-non-WEIRD переносимость.
Что изменилось после 2015-го. Preregistration стал стандартом в ведущих журналах. Появились Registered Reports — формат, где журнал принимает статью до получения результатов (commit к публикации независимо от p). Появились мегастудии — многолабораторные репликации типа ManyLabs. Рост открытых данных и открытых материалов. Replication crisis — не конец науки. Это наука, делающая то, что должна: самокорректироваться.
Часть 6. Как читать поп-экономику дальше
Практический вопрос: что делать с книгами, которые уже стоят на полке, и с теми, которые ещё покупать не стали?
Арьели написал «Predictably Irrational» (2008) и несколько других книг. Эти книги продаются, переводятся, цитируются. Некоторые результаты в них — реальные и устойчивые (якорение, framing effects, которые он разбирает с опорой на Тверски и Канемана). Часть — основана на его собственных работах, которые теперь под вопросом или отозваны. Наша рекомендация: не читать поп-экономику 2008–2018 как источник фактов. Читать как источник вопросов — а затем проверять каждый конкретный эффект в первоисточнике.
Читать с доверием
Книги с явной опорой на Канемана-Тверски-Талера (Thinking, Fast and Slow; Nudge; Misbehaving). Ссылки на loss aversion, anchoring, present bias, endowment effect — все из robust core.
Читать с оговоркой
Книги Муллайнатана и Шафира (Scarcity), Хершфилда (Your Future Self) — core выводы устойчивы, но некоторые конкретные числа надо проверять.
Читать как художественную литературу
Predictably Irrational, The Honest Truth about Dishonesty (Ariely) — интересны как рассказы, но конкретные «экспериментальные» данные ненадёжны.
Не рекомендовать другим
Любая книга или курс, где ego depletion / power posing / social priming подаётся как рабочий инструмент без caveat. Это либо устаревшая наука, либо игнорирование replication data.
Отдельно — про Growth Mindset. Книга Кэрол Двек (2006) остаётся полезной как концептуальная рамка: убеждение, что способности развиваются, лучше убеждения что они фиксированы. Корреляция mindset с достижениями реальна — d≈0.20. Проблема в другом: интервенции (треники, упражнения «поменяй установку») дают d=0.05–0.08. Это на 80% меньше, чем обещает индустрия. Если вы платили деньги за mindset coaching — эффект, вероятно, был в 4–5 раз меньше, чем вам говорили. Возможно, это лучше, чем ничего. Но это не магия [11, 12].
Часть 7. Итог: что осталось, зачем это знать
Replication Crisis — не аргумент против поведенческой экономики. Это аргумент против того, как поведенческую экономику продавали в 2008–2018 годах. Наука сделала свою работу: проверила, разделила, дала явные статусы.
Из семи глав этого курса:
Надёжное ядро
Prospect theory, loss aversion, anchoring, endowment effect, present bias, default effects — выдержали 50 лет проверок и мультилабораторные репликации. Это не революция — это накопленная нормальная наука. Используйте.
Устойчивое ядро с оговорками
Scarcity mindset, future self continuity — core findings устойчивы, headline magnitudes надо читать осторожно. Marshmallow mechanism (управление вниманием) — устойчив; predictive power — сильно переоценена. Growth mindset как концепция — да; как интервенция — гораздо скромнее.
Отброшенная периферия
Ego depletion, power posing, большинство social priming, all Ariely honesty studies — рухнули или фабрикованы. Не цитируйте. Не используйте в решениях. Не рекомендуйте. Если видите их в книге — поставьте галочку «не проверялось с 2016 года».
Следующий урок — не следствие, а параллельная история. Пока шёл кризис воспроизводимости, четыре мыслителя оставались в стороне от него — потому что их основные работы либо были опубликованы до волны поп-науки, либо держались на других методологических основаниях. В уроке 9 мы встретим их всех: Тверски с его колесом рулетки 1974-го, Чалдини с шестью принципами влияния, Двек с честным прочтением эффектов mindset, и Триверса — с, возможно, самой мрачной гипотезой о финансовом поведении, которую вы услышите в этом курсе.
В следующей главе — Урок 9. 1974 год, лаборатория Тверски. Колесо рулетки останавливается на цифре 65. Испытуемых спрашивают: какой процент африканских стран в ООН? Они называют 45%. В той же лаборатории — три других призрака: Чалдини с его тремя годами среди продавцов, Двек с честным прочтением своих же данных, и Триверс с неудобным вопросом про самообман. Почему мы лжём себе — и что это значит для денег.
Источники этой главы
- Peer-reviewedOpen Science Collaboration (2015). Estimating the reproducibility of psychological science. Science, 349, aac4716.
- Peer-reviewedCamerer, C. F., et al. (2016). Evaluating replicability of laboratory experiments in economics. Science, 351(6280), 1433-1436.
- Peer-reviewedCamerer, C. F., et al. (2018). Evaluating the replicability of social science experiments in Nature and Science. Nature Human Behaviour, 2, 637-644.
- Peer-reviewedHagger, M. S., et al. (2016). A multilab preregistered replication of the ego-depletion effect. Perspectives on Psychological Science, 11(4), 546-573.
- Official statementCarney, D. R. (2016). My position on “Power Poses.” Faculty page, Haas School of Business, UC Berkeley.
- Investigative blogSimonsohn, U., Simmons, J. P., & Nelson, L. D. (2021, August). Evidence of fraud in an influential field experiment about dishonesty. Data Colada, #98.
- Investigative blogSimonsohn, U., Simmons, J. P., & Nelson, L. D. (2023, June). Data Falsificada (Clusterfake). Data Colada, #109.
- Peer-reviewedKristal, A. S., et al. (2020). Signing at the beginning versus at the end does not decrease dishonesty. PNAS, 117(13), 7103-7107.
- Peer-reviewedRuggeri, K., et al. (2020). Replicating patterns of prospect theory for decision under risk. Nature Human Behaviour, 4, 622-633.
- Peer-reviewedRöseler, L., et al. (2024). Fifty years of anchoring effects. Management Science.
- Peer-reviewedSisk, V. F., et al. (2018). To what extent and under which circumstances are growth mind-sets important to academic achievement? Psychological Science, 29(4), 549-571.
- Peer-reviewedMacnamara, B. N., & Burgoyne, A. P. (2022). Do growth mindset interventions impact students’ academic achievement? A systematic review and meta-analysis with recommendations for best practices. Psychological Bulletin.
Глава информационно-просветительская. Все источники — peer-reviewed papers с DOI, официальные заявления или верифицированные investigative publications. Это — не индивидуальная финансовая или психологическая консультация.