O Reproducibility Project (или "тот редкий момент, когда нужно защитить психологию")

Print PDF

TL;DR:
— В рамках большого репликационного проекта в психологии не были подтверждены больше половины из 100 результатов;
— Наиболее высокими шансами на удачное воспроизведение обладают результаты с исходно большим размером эффекта (чаще встречающиеся в когнитивной психологии);
— Причиной низкой воспроизводимости скорее всего является существующая система публикаций, придающая неадекватно большое значение статистической значимости и новизне результатов;
— В целом, репликационный проект показывает как серьезность методических проблем в психологии, так и направленность на их скорейшее решение;

…с нескольким опозданием, но и мы в TCTS решили отреагировать на новости о результатах большого репликационного исследования, описанного на этой неделе в Science. Наверное, уже все видели заголовки “Больше половины психологических результатов невоспроизводимы”, “Объективность большинства психологических исследований поставлена под сомнение”, “Результаты многих исследований по психологии и социологии не поддаются воспроизведению и могли быть подделаны” или “Ученые усомнились в научности психологических исследований” (все названия реальны). Если вы хотите поглубже разобраться в том, куда теперь бежать и в какую сторону закатывать глаза, вам будет интересно прочесть этот длинный пост.

Проблема

Содержание

1 Проблема
2 Подход
3 Результаты
4 Go Bayes
5 Кто виноват
6 Что делать

Прежде всего давайте спокойно, без истерики, посмотрим на то, что произошло. В течение последних трех лет героический Брайан Нозек из Университета Вирджинии руководил командой из 270 человек, занявшейся прямой репликацией сотни опубликованных психологических экспериментов. Эта мега-репликация была вызвана все возрастающим пониманием того, что многие из исследовательских и публикационных практик, принятых в сообществе, ухудшают качество получаемых результатов.

За последние несколько лет в психологии было вскрыто несколько больших проблемных тем (например, очень громкой оказалась история с непонятным социальным праймингом), были раскрыты громкие случаи фальсификации данных (вспомним Дидрика Штапеля), и продемонстрированы странные публикационные тенденции (90% опубликованных статей подтверждают исходную гипотезу, нереалистичная часть статистически значимых результатов еле-еле отвечает конвенциональному p-критерию и т.д.).

Кроме того, стало понятно, что для того, чтобы внести неразбериху в психологическую литературу, необязательно быть монстром-фальсификатором, достаточно слегка переиграть в экспериментальные игры. Например, исследователь может добрать выборку “до значимости” уже в процессе исследования, пробовать разные методы фильтрации и обработки данных (без злого умысла, из чистого интереса!), повторять эксперимент с небольшими изменениями 10 раз и опубликовать только один, удачный, результат, и т.д.

Эти проблемы, спасибо журналам, публикующим только положительные результаты, существуют во всех науках, но в случае с психологией и её и без того хрупкими эффектами масштаб трагедии казался ошеломляющим. Брайан Нозек решил все же попробовать её измерить.

Брайан Нозек и некоторые участницы Reproducibility Project.

Подход

Для начала авторы (270!) выбрали исследования для повторения. В список попали работы, опубликованные в трех высокопрофильных психологических журналах в 2008 году: общем публикующем “громкие” результаты Psychological Science, социально-психологическом Journal of Personality and Social Psychology и когнитивно-психологическом Journal of Experimental Psychology: Learning, Memory, and Cognition. Команды-участники проекта могли сами выбирать из общего пула статьи, которые были близки их научным интересам и которые можно было технически реплицировать (понятно, что финансирование 30 лишних томографий или пары обезьян, а также доступ к клинической выборке обеспечить не так просто).

Участники репликационного проекта активно общались с авторами оригинальных исследований, пытаясь максимально приблизить условия репликации к условиям первоначальных экспериментов. Кроме собственно “волшебной” цифры (какой процент результатов удастся подтвердить), авторов интересовал разброс успешности репликаций между субдисциплинами, а также факторы, влияющие на успешность репликаций (например, склонны ли к удачным воспроизведениям более опытные исследователи).

Результаты

Перейдем к результатам, на примере самого банального критерия успешности – p-значений. Следите за руками. Взяли 100 экспериментов. В 97 из них был заявлен положительный результат (из них 4 имели p > .05, но это в данном случае уже мелочи). Средняя мощность репликации по имеющимся у исследователей данным составляла 92%. Это означает, что если все оригинальные эффекты существуют и были правильно измерены(!), реплицировать получится 89 из них (0.97 * 0.92). На самом деле получилось реплицировать 35 (40%). Правда, здесь есть ловушка – та самая правильность исходного измерения. Если авторы оригинальных исследований переоценивали величину искомого эффекта, реальная мощность репликации была ниже, а значит и “волшебный процент” мог быть недооценен, то есть 40% это довольно консервативная оценка.

Далее, внутри этих 40% авторы обнаружили существенный разброс между субдисциплинами (точнее, статьями из двух специализированных журналов: по социальной и личностной психологии vs когнитивной психологии). Если социальнопсихологические результаты подтверждались в 25% случаев (14 из 55), то когнитивнопсихологические – в 50% случаев (21 из 42).

Не менее грустную в целом, но более информативную картину показывает сравнение размеров эффекта в оригинале и репликации – в среднем, репликации достигают лишь половины оригинального размера эффекта. Предлагаемый авторами механизм здесь довольно прост и ожидаем – в публикации попадают “лучшие образцы” результатов, зачастую в сочетании с маломощным дизайном, тогда как репликации лишены этих искажений.

Помимо измерения реплицируемости, на основе всех полученных данных авторами были выделены предикторы успешности репликаций – неудивительно, но ими оказались большой размер эффекта и низкое p-значение в оригинальном исследовании. На примере p-значений – результаты с p < .001 достигали значимости при репликации в 63% случаях, а результаты с p > .04 – в 18%. К тому же, чем “удивительнее” был исходный эффект и чем сложнее было его реплицировать, тем ниже оказалась вероятность успеха (привет Psychological Science и в целом упору на новизну).

Кроме того, редко реплицируются результаты тестов интеракций по сравнению с тестами собственных эффектов факторов. Зато в отношении реплицируемости не имеет предсказательной способности опытность авторов (как оригинала так и репликации), субъективная важность результата и даже субъективное качество репликации.

Go Bayes

Но что мы все о p-значениях. Интересный взгляд на те же результаты показывает байесовская статистика. Данный анализ не проводился авторами статьи в Science, но на выложенные в открытый доступ данные накинулись десятки любопытных исследователей, и некоторые из дополнительных выводов уже вовсю обсуждаются в блогах. Прелесть байесовского подхода к анализу репликаций в том, что он позволяет не только оценить успешность репликации в дихотомии “получилось/не получилось”, но и рассмотреть результаты как свидетельство в пользу гипотезы о наличии либо гипотезы об отсутствии описанного в оригинальном исследовании результате.

Таким образом можно определить, какие из репликаций показали весомое свидетельство наличия эффекта, какие – весомое свидетельство отсутствия эффекта, а какие оказались неинформативны. Выводы Алекса Этза в рамках этого подхода оказались довольно интересны: около 30% результатов репликаций попадают в категорию “неинформативных”, то есть, не соответствуют однозначно ни гипотезе о наличии, ни гипотезе об отсутствии эффекта. Еще раз – целая треть этих аккуратнейшим образом выполненных и проанализированных репликаций попали в “серую” зону между успехом и неуспехом. В свете такой оценки становится яснее, что репликация – это не приговор и даже не “проверка”, а скорее дополнительная информация для составления информированного научного вывода.

Кто виноват

Таким образом, если корректно подходить к интерпретации основного результата, то все, что мы можем сказать – 35 из 97 исследований получили дополнительные доказательства в свою пользу. Остальные – не получили, и сложно сказать, почему. Возможно, потому что искомые эффекты очень слабые и репликациям не хватило мощности. Или потому что этих эффектов действительно не существует. Либо в одной из двух попыток (оригинале или репликации) что-то незаметно пошло не так. Либо это случай. Либо немного отличались выборки и материал (а репликации не всегда проводились в той же стране, что исходное исследование).

Причин неудачи может быть масса, так что однозначно списывать со счетов конкретные невоспроизведенные исследования не стоит. Туда же относится вопрос “Можно ли официально считать когнитивную психологию круче социальной, если ее результаты чаще воспроизводятся?”. Боюсь, что социальным психологам и без того досталось. Скорее всего, когнитивистам благодарить за воспроизводимость нужно не математически-естественнонаучную шапочку, а удобные внутригрупповые дизайны и в целом сильные эффекты, обладающие относительно небольшой вариабельностью внутри популяции, а социальным психологам в этом смысле можно посочувствовать.

Что делать

Вернемся к громким журнальным заголовкам. Если это огромное исследование не было призвано оправдать или осудить психологию как науку, и даже не показало, каким результатам можно верить, а каким нет, что оно дало? В первую очередь, это смелая и трудоемкая работа по описанию проблемы, с которой борется психология, это донесение как до публики, так и до самих исследователей важности перепроверки и укрепления ранних результатов. Возможно ли повысить цифру 40% до чего-то более приятного?

Пожалуй, да. Более того, за счет распространения более аккуратных исследовательских практик она скорее всего возросла с 2008 года, когда были опубликованы рассматриваемые работы. В предыдущие десятилетия те же проблемы проходила, например, медицина и генетика. Клинические испытания в итоге приняли за норму обязательную перерегистрацию исследований для того, чтобы отделить планируемые результаты от менее жестких творческих находок ученых. Генетики перешли к командной работе и крупным коллаборациям. Психология тоже идет этим путем.

Все больше журналов практикует пререгистрацию и настаивает на свободном доступе к данным исследования, все больше внимания уделяется адекватности размера выборок и соответствии их размеру эффекта, и раз за разом международные команды объединяются в проекты ManyLabs для проведения больших репликаций. Все больше “не-новых”, даже отрицательных, результатов публикуется в PLoS One или выкладывается препринтами на bioRxiv. Ситуация год от года изменяется к лучшему. Что делать с результатами предыдущих эпох? Да ничего. Относиться критично и по возможности перепроверять. Не то чтобы эта рекомендация открывала глаза кому-то, кто хоть раз пробовал разобраться в научной литературе по любой проблеме.

В общем, хоть цифры и выглядят пессимистично, ничего особенно пугающего нам не открылось. Как это и должно быть, наука перепроверяет, критикует и оздоравливает себя, так что научность психологии (если кто-то за нее волновался) подтверждается самим фактом проведения подобного исследования. А теперь все выдохнули и повторяем за мной:

“Science isn’t broken. It’s just fucking hard.”

Дополнительно:
Все материалы, касающиеся репликационного проекта, включая детальные отчеты о каждой репликации, данные, и код для анализа и визуализации.
Отличный обзор в Atlantic с правильной, на наш взгляд, подачей проблемы:

Источник Think cognitive think science.