Ещё раз о Reproducibility project

С некоторым опозданием подводим итоги нового витка дискуссии о воспроизводимости в психологии. Пост подготовлен специально для газеты PSYNEWS.

TL;WR:

— Независимая группа ученых подвергла резкой критике известное исследование воспроизводимости психологических результатов;

— Выдвинутые замечания, касающиеся примененных статистических методов, основаны на некорректных теоретических предпосылках;

— Все в порядке, у нас все еще кризис.

Прошло полгода с момента публикации в Science большого и громкого исследования Open Science Collaboration [1], посвященного воспроизводимости результатов психологических исследований. Об этом исследовании с разной степенью точности рассказывали, наверное, во всех научных и околонаучных медиа. Писали о нем и мы [2]. За прошедшие месяцы статья достаточно много цитировалась (более 150 раз по данным Google Scholar), кроме того, в кулуарах обсуждались различные варианты дополнительного анализа имеющихся данных, и некоторые из них даже были оформлены в виде статей. Например, байесовский анализ от Александра Этза, который мы приводили в исходном посте, теперь в расширенном виде [3] опубликован в Plos One.

Несколько недель назад в целом мирное обсуждение путей развития психологической науки было нарушено появлением в Science комментария к статье Нозека за авторством гарвардского психолога Дэниела Гилберта и нескольких его коллег [4]. В комментарии утверждается, что исследование, проведенное командой Нозека, содержит аж три дополнительные неучтенные погрешности, и если эти погрешности учесть, уровень реплицируемости получается очень даже оптимистичный. Комментарий вышел одновременно с ответом команды OSC [5] и с едким пресс-релизом от Гарварда [6], позволившем комичной ситуации снова разойтись волнами в СМИ: «В психологии все настолько плохо, что даже исследование того, насколько все плохо, плохое».

Первое прочтение статьи Гилберта и сопровождающего её пресс-релиза вызывает смешанные чувства. С одной стороны, часть поднимаемых вопросов звучит здраво (например, можем ли мы действительно считать адекватной попытку репликации социальных эффектов в другой стране на другом языке). С другой стороны, некоторые формулировки, использованные в описании статистических понятий, вызвают удивление — они откровенно не соответствуют общепринятым.

Если кратко, то критика в статье Гилберта была высказана в адрес трех вещей: 1) статистического критерия того, что считать успешной репликацией, 2) статистической мощности репликаций OSC и 3) отличий репликаций от оригинальных исследований. Для объяснения первых двух пунктов придется ненадолго погрузиться в технические детали.

Критика № 1: критерий репликации

Авторы из Гарварда утверждают, что OSC неправильно рассчитали ожидаемый процент результатов, невоспроизведенных по сугубо статистическим причинам. Однако, предложенное ими «улучшение» основывается на некорректной трактовке доверительных интервалов [7,8]. Гилберт и коллеги считают, что результаты 95% репликаций должны находиться внутри доверительных интервалов оригинальных исследований. Они забывают, что если оригинальное исследование имело небольшую выборку и слабый эффект, доверительный интервал будет огромным, и «успешно» воспроизвести такое исследование не составит труда. И наоборот, чем точнее исходное измерение, тем сложнее будет «попасть» в него репликацией. Использовать такой плавающий критерий для оценки успешности репликаций кажется странным.

Критика № 2: мощность

Здесь Гилберт и коллеги рассказывают, что в другом репликационном исследовании (ManyLabs) процент воспроизведенных результатов достиг аж 85, и утверждают, что такой успех обеспечивается большой выборкой в репликациях [9].

Суть ManyLabs в том, что каждое из 16 исследований повторяли 35 раз в разных лабораториях по всему миру, исследовав в общем более 6000 человек. Таким образом, по каждому исследованию в ManyLabs было получено 35 обычных выборок, вместе составляющих одну огромную супер-выборку. Этот подход отличается от подхода OSC, где 100 исследований повторяли по 1 разу, и достаточный размер выборки рассчитывали на основе результатов оригинала.

По словам Гилберта и соавторов, если посмотреть на супер-выборки, воспроизводятся 85% оригинальных результатов. Однако, если применить подход OSC и посмотреть на каждую малую выборку внутри супер-выборки, процент реплицируемых эффектов падает до 35. Если это действительно так, это может означать, что результаты OSC страдают от недостаточной статистической мощности и недооценивают воспроизводимость в целом. Однако, более внимательный анализ показал, что 85% и 35% были получены в результате не сравнимых друг с другом вычислений. 35% в малых выборках — это репликации, попавшие в доверительный интервал оригинального эффекта, а 85% в супер-выборках — это количество репликаций, достигших критерия статистической значимости (p < .05). Если же выбрать общий подход, измерения воспроизводимости в слитых вместе и разрозненных выборках становятся более похожи друг на друга и держатся в районе 40%-50% [10].

Критика № 3: точность

Теперь отойдем от деталей анализа и поговорим о (еще) более творческой части исследования — насколько точно должен протокол репликации повторять протокол оригинального исследования? По мнению Гилберта и коллег, все выше описанные математические рассуждения имеют смысл только в том случае, если единственным отличием репликации от оригинала является новая выборка из той же самой популяции, а этому критерию исследования OSC явно не удовлетворяют. В своем комментарии они описывают, например, следующие странности репликаций в OSC: «исследование отношения американцев к афро-американцам проводилось на итальянцах» или «исследование, где маленьким детям давали сложную задачу превратилось в исследование, где более старшим детям давали простую задачу». Звучит, конечно, настораживающе. Неужели авторы репликаций действительно настолько халатно отнеслись к оригинальным исследованиям?

OSC определяют прямую репликацию как «попытку воссоздания условий, которые считаются достаточными для обнаружения ранее описанного результата». Формулировка весьма расплывчатая, но стоящая за ней философия примерно понятна: не бывает идентичных исследований, но бывают ситуации, в которых психологические эффекты, если они обнаружены и описаны корректно, должны работать. Возьмем в качестве иллюстрации один приведенных в комментарии примеров. Как пишут Гилберт и коллеги, «исследование, в котором израильтянам нужно было представить последствия ухода в армию, превратилось в исследование, в котором американцам нужно было представить последствия медового месяца». Эффект воспроизвести не удалось, но при таком описании метода это совсем не кажется удивительным. Какова же была логика участников OSC?

По данным OSC [11], в оригинале [12] исследовалось взаимодействие жертвы и обидчика. В ходе исследования участники зачитывали гипотетические сюжеты. Например, «Представьте, что вы и X — коллеги. Вы долго работали над проектом, но перед самым его завершением вы вынуждены уйти в армию/декрет, и вы просите Х завершить пару задач за вас. Эти задачи Х выполняет на отлично и получает вашу должность, а вас понижают и отправляют в другой отдел. Х знает, что делает неправильно, но принимает повышение» . Исследуемый процесс взаимодействия социальных ролей не предполагал культурных различий, и репликацию вместо Израиля проводили в США. Однако, в США понижение в должности во время декрета нелегально, и в армию внезапно не забирают, поэтому ради реалистичности история была изменена: сотрудник должен был уйти в отпуск из-за давно запланированной свадьбы и медового месяца. Смысл исследования остался тот же, детали изменились. По мнению Гилберта и коллег, такие изменения недопустимы в репликациях, на то они и репликации. С другой стороны, если эффект исчезает от небольших вариаций задачи, не ставит ли это под сомнение если не его существование, то хотя бы его размер и генерализуемость?

В общем, авторам комментария не удалось убедить сообщество в том, что никакого кризиса воспроизводимости не существует. Несмотря на яркий язык, их критика свелась к тому, что психологические эффекты тонкие и хрупкие, и их можно обнаружить в исключительно специфических условиях. Это действительно похоже на правду, но в таком случае нашей первоочередной задачей является увеличение мощности исследований для того, чтобы с уверенностью отличать реально существующие тонкие закономерности от ложноположительных результатов. И конечно же для этого нужны крупные коллаборации. В конце концов, судя по этой статье, даже гарвардские профессора допускают статистические ошибки.

  1. http://science.sciencemag.org/content/349/6251/aac4716
  2. http://tcts.cogitoergo.ru/ru/blog/o-reproducibility-project#.VvsldBJ95m8
  3. http://journals.plos.org/plosone/article?id=10.1371/journal.pone.149 794
  4. http://science.sciencemag.org/content/351/6277/1037.2.full
  5. http://science.sciencemag.org/content/351/6277/1037.3.full
  6. http://news.harvard.edu/gazette/story/2016/03/study-that-undercut-psych-research-got-it-wrong/
  7. https://ru.wikipedia.org/wiki/Доверительный_интервал
  8. http://thinkcognitive.org/ru/blog/golova-professora-bambldorfa#.VvsmcxJ95m8
  9. https://osf.io/wx7ck/
  10. https://hardsci.wordpress.com/2016/03/03/evaluating-a-new-critique-of-the-reproducibility-project/
  11. http://retractionwatch.com/2016/03/07/lets-not-mischaracterize-replication-studies-authors/
  12. Shnabel, N., & Nadler, A. (2008). A needs-based model of reconciliation: satisfying the differential emotional needs of victim and perpetrator as a key to promoting reconciliation. Journal of personality and social psychology, 94(1), 116.

Книги по Data Science

Ресурс для #горячихюныхкогнитивных, намеревающихся серьезно заняться самообразованием в области data science -- список хороших бесплатно распространяемых книг для разного уровня подготовки.

Список составлен и обновляется Уильямом Ченом -- исследователем из команды Quora. Бесплатный или условно-бесплатный (donation с минимумом в 0) доступ к книгам открывается по клику на обложку со страницы блога Уильяма: www.wzchen.com/data-science-books


Ортогонализация регрессоров в данных фМРТ

В Plos ONE вышла статья, очень понятно объясняющая принципы и правила ортогонализации регрессоров для фМРТ.

Статья будет полезна для прочтения всем, кто проводит или планирует фМРТ-исследования, особенно тем, кто пользуется программой SPM. Процедура ортогонализации часто используется без понимания ее влияния на интерпретацию результатов, а в некоторых случаях вообще применяется автоматически, что приводит к ошибкам в трактовке данных. В статье рассказывается о том, как в фМРТ появляется коллинеарность моделей, когда эта коллинеарность опасна, как работает ортогонализация и как проводить ее в SPM и FSL. Must read.

journals.plos.org/plosone/article?id=10.1371/journal.pone.126 255

В качестве бонуса — видео человека, поющего «If I Only Had a Brain», сделанное при помощи новейшей техники скоростной томографии.


Мини-парад ссылок

Сегодня у нас в программе небольшая подборка ссылок на полезный в науке и преподавании софт.

1) OpenSesame
http://osdoc.cogsci.nl/
Простая удобная программа для создания экспериментов с интуитивным интерфейсом. Открытый досттуп, поддержка большого количества внешней аппаратуры (ээг, кнопки, айтрекеры). Все, для чего нет готовой функции, можно дописать в Python. Студенты без специальной подготовки осваивают быстро и без особенных проблем.

2) GPower
www.gpower.hhu.de/en.html
Простой удобный калькулятор для анализа статистической мощности. Хорош кнопочным интерфейом и подробной инструкцией, идеален в случае расчетов для простых тестов (one-way ANOVA, корреляции и т. д.).

3) Ecли вас заинтересовала недавняя дискуссия о доверительных интервалах, вам могут быть интересны следующие симуляции:

ESCI
www.latrobe.edu.au/psy/research/cognitive-and-developmental-psychology/esci/2001-to-2010
Cвободно распространяемый макрос-симулятор для Excel, созданный Джоффом Каммингзом (автором учебника «Understanding the New Statistics»). Рассчитывает и графически демонстрирует размеры эффекта, доверительные интвервалы, статистическую мощность, и даже визуализирует знаменитый «танец p-значений» (https://www.youtube.com/watch?v=ez4DgdurRPg, обязательно загляните на 6'25''и далее;))

Очень красивые и ясные браузерные визуализации:
http://rpsychologist.com/d3/CI/
rpsychologist.com/d3/NHST/
rpsychologist.com/d3/correlation/
Если вам недавно попадались полезные в работе материалы или программы, мы будем рады о них узнать! Как известно научным работникам, автоматизация труда освобождает ценные часы и минуты для другого труда=)


Пара слов о пропущенных значениях

Как бы мы ни собирали данные, нередко случается так, что некоторые значения пропущены. Особенно это характерно для различных опросных методик или исследований, растянутых на длительное время. В такие моменты перед аналитиком встает вопрос, по-гамлетовски фундаментальный — «резать или не резать». То есть, что делать с пропущенными значениями — если удалять, то как, если не удалять — каким образом замещать пропуски? Как, в конце концов, будет правильным поступить?
Само собой, сначала надо посмотреть, а насколько случайны пропуски в данных. Для этого могут подойти такие инструменты, как паттерны пропусков, частотный анализ и прочее. В конце концов, если в опросах вариант «не знаю» может интерпретироваться как отказ от коммуникации, то и пропуск может быть маркером каких-либо процессов.

В том случае, если пропуски действительно случайны, то самый простой вариант — это удаление наблюдений с пропущенными значениями. Удаление может быть как попарным (pairwise), так и построчным (listwise). Попарное удаление — когда, например, при корреляционном анализе не учитывается значение, парное пропущенному. Построчное удаление — когда из анализа исключается вся строка, в которой есть пропущенные значения (в случае корреляционного анализа по двум переменным идентично попарному удалению).

В тех ситуациях, когда хочется сохранить массив данных, и каким-то образом заполнить пропущенные значения (импутировать), то есть множество методов, разных по идеологии и по результатам. Простейшие из них:
Во-первых, можно заполнить пропущенные значения средним или медианным значением по столбцу. SPSS также предлагает среднее/медиану по N ближайших значений.
Во-вторых, можно пойти по методу «как у соседей» — объекты имеют одинаковые значения, если похожи по ряду прочих характеристик, отраженных в датасете. В конце концов, если у Пети и у Васи отличные оценки в течение года, и отличная оценка за годовую контрольную, то логично предположить, что и отличник-Коля получил отличную оценку за контрольную.
Третий вариант заполнения пропущенных — с использованием линейной регрессии. Пропущенные значения на первом этапе заполняются средними по переменной (метод Бартлетта) или случайным из диапазона значений переменной (метод ресемплинга), переменная с пропуском принимается как зависимая. Полученными предсказанными значениями и замещаются пропуски.
В SPSS ко всему прочему реализован еще один алгоритм — EM-алгоритм. Основная идея этого алгоритма — изменение с помощью регрессионных методов пропущенных значений и вычисление ковариационной матрицы на каждой итерации, до тех пор, пока изменения в матрице не будут минимальны.

Построчное удаление, на мой взгляд, наиболее корректный вариант решения пропущенных значений. Но временами такое ограничение оказывается чрезмерно строгим — так, мне доводилось работать с датасетом, в котором было 250 наблюдений и 40 переменных, однако наблюдений без пропусков — всего три. Естественно, никакой содержательный анализ на трех наблюдениях невозможен. Однако и импутация в данном случае — решение спорное.

Конечно, импутация пропущенных значений в определенных ситуациях жизненно необходима, однако стоит все же отдавать себе отчет в том, что при большом количестве пропусков (я бы сказал, более 5−10% наблюдений по переменной) анализ данных с импутированными пропусками становится похож на самоподдерживающийся фантазм. В конце концов, использование средних вместо пропусков грозит нивелировать различия между группами, а содержательно анализировать данные линейной регрессии, в которых часть пропусков была заполнена по результатам того же регрессионного анализа — просто бессмысленно.

Хотя, конечно же, самым эффективным решением будет <s>пить чай вместо</s> собирать изначально полные данные — тиранить испытуемых/респондентов, выверять процедуру и код программы сбора данных etc.

Филипп Управителев


Online Workshop: Introduction to Power Analyses

Завтра, 24 октября, на платформе Centre for Open Science пройдет первая онлайн-мастерская по анализу статистической мощности.

Ребята будут рассказывать о том, зачем нужен анализ мощности, какие проблемы могут возникать у исследователей при оценке размера эффекта, а также покажут базовые способы расчета мощности в R и в G*Power. Это занятие базового уровня, на дальнейших встречах будут разбираться более сложные вопросы. Очень рекомендуем тем, кто хочет осваивать расчеты подобного рода, но не знает, с чего начать.

Для записи необходимо открыть календарь COS, выбрать интересующее время занятия 24 октября (внимание, GMT-5!) и перейти по ссылке, открывающейся в описании проекта. И да пребудет с вами мощность.

StatPower


Как правильно описывать данные в психологии и рисовать графики

Одна из проблем, с которыми сталкиваются #горячиеюныекогнитивные в своем первом исследовании — как описать результаты? Какие цифры из вывода SPSS/R/Statistica нужно включать в текст, как правильно нарисовать график, почему часть букв в описании статистики пишется курсивом, … Вопросов тьма, нормальных ответов — мало. Чтобы немного облегчить этот путь мы выкладываем небольшую презентацию посвященную такого рода вопросам. Изначально она была сделана для выступления на когнитивной школе памяти К. Дункера в сентябре 2014, но мы надеемся, что она будет полезна и тем, кто на школе не был.