Ещё раз о Reproducibility project

С некоторым опозданием подводим итоги нового витка дискуссии о воспроизводимости в психологии. Пост подготовлен специально для газеты PSYNEWS.

TL;WR:

— Независимая группа ученых подвергла резкой критике известное исследование воспроизводимости психологических результатов;

— Выдвинутые замечания, касающиеся примененных статистических методов, основаны на некорректных теоретических предпосылках;

— Все в порядке, у нас все еще кризис.

Прошло полгода с момента публикации в Science большого и громкого исследования Open Science Collaboration [1], посвященного воспроизводимости результатов психологических исследований. Об этом исследовании с разной степенью точности рассказывали, наверное, во всех научных и околонаучных медиа. Писали о нем и мы [2]. За прошедшие месяцы статья достаточно много цитировалась (более 150 раз по данным Google Scholar), кроме того, в кулуарах обсуждались различные варианты дополнительного анализа имеющихся данных, и некоторые из них даже были оформлены в виде статей. Например, байесовский анализ от Александра Этза, который мы приводили в исходном посте, теперь в расширенном виде [3] опубликован в Plos One.

Несколько недель назад в целом мирное обсуждение путей развития психологической науки было нарушено появлением в Science комментария к статье Нозека за авторством гарвардского психолога Дэниела Гилберта и нескольких его коллег [4]. В комментарии утверждается, что исследование, проведенное командой Нозека, содержит аж три дополнительные неучтенные погрешности, и если эти погрешности учесть, уровень реплицируемости получается очень даже оптимистичный. Комментарий вышел одновременно с ответом команды OSC [5] и с едким пресс-релизом от Гарварда [6], позволившем комичной ситуации снова разойтись волнами в СМИ: «В психологии все настолько плохо, что даже исследование того, насколько все плохо, плохое».

Первое прочтение статьи Гилберта и сопровождающего её пресс-релиза вызывает смешанные чувства. С одной стороны, часть поднимаемых вопросов звучит здраво (например, можем ли мы действительно считать адекватной попытку репликации социальных эффектов в другой стране на другом языке). С другой стороны, некоторые формулировки, использованные в описании статистических понятий, вызвают удивление — они откровенно не соответствуют общепринятым.

Если кратко, то критика в статье Гилберта была высказана в адрес трех вещей: 1) статистического критерия того, что считать успешной репликацией, 2) статистической мощности репликаций OSC и 3) отличий репликаций от оригинальных исследований. Для объяснения первых двух пунктов придется ненадолго погрузиться в технические детали.

Критика № 1: критерий репликации

Авторы из Гарварда утверждают, что OSC неправильно рассчитали ожидаемый процент результатов, невоспроизведенных по сугубо статистическим причинам. Однако, предложенное ими «улучшение» основывается на некорректной трактовке доверительных интервалов [7,8]. Гилберт и коллеги считают, что результаты 95% репликаций должны находиться внутри доверительных интервалов оригинальных исследований. Они забывают, что если оригинальное исследование имело небольшую выборку и слабый эффект, доверительный интервал будет огромным, и «успешно» воспроизвести такое исследование не составит труда. И наоборот, чем точнее исходное измерение, тем сложнее будет «попасть» в него репликацией. Использовать такой плавающий критерий для оценки успешности репликаций кажется странным.

Критика № 2: мощность

Здесь Гилберт и коллеги рассказывают, что в другом репликационном исследовании (ManyLabs) процент воспроизведенных результатов достиг аж 85, и утверждают, что такой успех обеспечивается большой выборкой в репликациях [9].

Суть ManyLabs в том, что каждое из 16 исследований повторяли 35 раз в разных лабораториях по всему миру, исследовав в общем более 6000 человек. Таким образом, по каждому исследованию в ManyLabs было получено 35 обычных выборок, вместе составляющих одну огромную супер-выборку. Этот подход отличается от подхода OSC, где 100 исследований повторяли по 1 разу, и достаточный размер выборки рассчитывали на основе результатов оригинала.

По словам Гилберта и соавторов, если посмотреть на супер-выборки, воспроизводятся 85% оригинальных результатов. Однако, если применить подход OSC и посмотреть на каждую малую выборку внутри супер-выборки, процент реплицируемых эффектов падает до 35. Если это действительно так, это может означать, что результаты OSC страдают от недостаточной статистической мощности и недооценивают воспроизводимость в целом. Однако, более внимательный анализ показал, что 85% и 35% были получены в результате не сравнимых друг с другом вычислений. 35% в малых выборках — это репликации, попавшие в доверительный интервал оригинального эффекта, а 85% в супер-выборках — это количество репликаций, достигших критерия статистической значимости (p < .05). Если же выбрать общий подход, измерения воспроизводимости в слитых вместе и разрозненных выборках становятся более похожи друг на друга и держатся в районе 40%-50% [10].

Критика № 3: точность

Теперь отойдем от деталей анализа и поговорим о (еще) более творческой части исследования — насколько точно должен протокол репликации повторять протокол оригинального исследования? По мнению Гилберта и коллег, все выше описанные математические рассуждения имеют смысл только в том случае, если единственным отличием репликации от оригинала является новая выборка из той же самой популяции, а этому критерию исследования OSC явно не удовлетворяют. В своем комментарии они описывают, например, следующие странности репликаций в OSC: «исследование отношения американцев к афро-американцам проводилось на итальянцах» или «исследование, где маленьким детям давали сложную задачу превратилось в исследование, где более старшим детям давали простую задачу». Звучит, конечно, настораживающе. Неужели авторы репликаций действительно настолько халатно отнеслись к оригинальным исследованиям?

OSC определяют прямую репликацию как «попытку воссоздания условий, которые считаются достаточными для обнаружения ранее описанного результата». Формулировка весьма расплывчатая, но стоящая за ней философия примерно понятна: не бывает идентичных исследований, но бывают ситуации, в которых психологические эффекты, если они обнаружены и описаны корректно, должны работать. Возьмем в качестве иллюстрации один приведенных в комментарии примеров. Как пишут Гилберт и коллеги, «исследование, в котором израильтянам нужно было представить последствия ухода в армию, превратилось в исследование, в котором американцам нужно было представить последствия медового месяца». Эффект воспроизвести не удалось, но при таком описании метода это совсем не кажется удивительным. Какова же была логика участников OSC?

По данным OSC [11], в оригинале [12] исследовалось взаимодействие жертвы и обидчика. В ходе исследования участники зачитывали гипотетические сюжеты. Например, «Представьте, что вы и X — коллеги. Вы долго работали над проектом, но перед самым его завершением вы вынуждены уйти в армию/декрет, и вы просите Х завершить пару задач за вас. Эти задачи Х выполняет на отлично и получает вашу должность, а вас понижают и отправляют в другой отдел. Х знает, что делает неправильно, но принимает повышение» . Исследуемый процесс взаимодействия социальных ролей не предполагал культурных различий, и репликацию вместо Израиля проводили в США. Однако, в США понижение в должности во время декрета нелегально, и в армию внезапно не забирают, поэтому ради реалистичности история была изменена: сотрудник должен был уйти в отпуск из-за давно запланированной свадьбы и медового месяца. Смысл исследования остался тот же, детали изменились. По мнению Гилберта и коллег, такие изменения недопустимы в репликациях, на то они и репликации. С другой стороны, если эффект исчезает от небольших вариаций задачи, не ставит ли это под сомнение если не его существование, то хотя бы его размер и генерализуемость?

В общем, авторам комментария не удалось убедить сообщество в том, что никакого кризиса воспроизводимости не существует. Несмотря на яркий язык, их критика свелась к тому, что психологические эффекты тонкие и хрупкие, и их можно обнаружить в исключительно специфических условиях. Это действительно похоже на правду, но в таком случае нашей первоочередной задачей является увеличение мощности исследований для того, чтобы с уверенностью отличать реально существующие тонкие закономерности от ложноположительных результатов. И конечно же для этого нужны крупные коллаборации. В конце концов, судя по этой статье, даже гарвардские профессора допускают статистические ошибки.

  1. http://science.sciencemag.org/content/349/6251/aac4716
  2. http://tcts.cogitoergo.ru/ru/blog/o-reproducibility-project#.VvsldBJ95m8
  3. http://journals.plos.org/plosone/article?id=10.1371/journal.pone.149 794
  4. http://science.sciencemag.org/content/351/6277/1037.2.full
  5. http://science.sciencemag.org/content/351/6277/1037.3.full
  6. http://news.harvard.edu/gazette/story/2016/03/study-that-undercut-psych-research-got-it-wrong/
  7. https://ru.wikipedia.org/wiki/Доверительный_интервал
  8. http://thinkcognitive.org/ru/blog/golova-professora-bambldorfa#.VvsmcxJ95m8
  9. https://osf.io/wx7ck/
  10. https://hardsci.wordpress.com/2016/03/03/evaluating-a-new-critique-of-the-reproducibility-project/
  11. http://retractionwatch.com/2016/03/07/lets-not-mischaracterize-replication-studies-authors/
  12. Shnabel, N., & Nadler, A. (2008). A needs-based model of reconciliation: satisfying the differential emotional needs of victim and perpetrator as a key to promoting reconciliation. Journal of personality and social psychology, 94(1), 116.