О Reproducibility Project

или «Тот редкий момент, когда нужно защитить психологию»

TL;DR:

  • В рамках большого репликационного проекта в психологии не были подтверждены больше половины из 100 результатов
  • Наиболее высокими шансами на удачное воспроизведение обладают результаты с исходно большим размером эффекта (чаще встречающиеся в когнитивной психологии).
  • Причиной низкой воспроизводимости скорее всего является существующая система публикаций, придающая неадекватно большое значение статистической значимости и новизне результатов
  • В целом, репликационный проект показывает как серьезность методических проблем в психологии, так и направленность на их скорейшее решение

_fxRX4FQFO4

ОК #горячиеюныекогнитивные, с нескольким опозданием, но и мы в TCTS решили отреагировать на новости о результатах большого репликационного исследования, описанного на этой неделе в Science[1]. Наверное, уже все видели заголовки «Больше половины психологических результатов невоспроизводимы», «Объективность большинства психологических исследований поставлена под сомнение», «Результаты многих исследований по психологии и социологии не поддаются воспроизведению и могли быть подделаны» или «Ученые усомнились в научности психологических исследований» (все названия реальны). Если вы хотите поглубже разобраться в том, куда теперь бежать и в какую сторону закатывать глаза, вам будет интересно прочесть этот длинный пост.

ПРОБЛЕМА
Прежде всего давайте спокойно, без истерики, посмотрим на то, что произошло. В течение последних трех лет героический Брайан Нозек из Университета Вирджинии руководил командой из 270 человек, занявшейся прямой репликацией сотни опубликованных психологических экспериментов. Эта мега-репликация была вызвана все возрастающим пониманием того, что многие из исследовательских и публикационных практик, принятых в сообществе, ухудшают качество получаемых результатов. За последние несколько лет в психологии было вскрыто несколько больших проблемных тем (например, очень громкой оказалась история с непонятным социальным праймингом[2]), были раскрыты громкие случаи фальсификации данных (вспомним Дидрика Штапеля[3]), и продемонстрированы странные публикационные тенденции (90% опубликованных статей подтверждают исходную гипотезу[4], нереалистичная часть статистически значимых результатов еле-еле отвечает конвенциональному p-критерию[5] и т. д.) Кроме того, стало понятно, что для того, чтобы внести неразбериху в психологическую литературу, необязательно быть монстром-фальсификатором, достаточно слегка переиграть в экспериментальные игры[6]. Например, исследователь может добрать выборку «до значимости» уже в процессе исследования, пробовать разные методы фильтрации и обработки данных (без злого умысла, из чистого интереса!), повторять эксперимент с небольшими изменениями 10 раз и опубликовать только один, удачный, результат, и т. д. Эти проблемы, спасибо журналам, публикующим только положительные результаты, существуют во всех науках, но в случае с психологией и её и без того хрупкими эффектами масштаб трагедии казался ошеломляющим. Брайан Нозек решил все же попробовать её измерить.

ПОДХОД
Для начала авторы (270!) выбрали исследования для повторения. В список[7] попали работы, опубликованные в трех высокопрофильных психологических журналах в 2008 году: общем публикующем «громкие» результаты Psychological Science, социально-психологическом Journal of Personality and Social Psychology и когнитивно-психологическом Journal of Experimental Psychology: Learning, Memory, and Cognition. Команды-участники проекта могли сами выбирать из общего пула статьи, которые были близки их научным интересам и которые можно было технически реплицировать (понятно, что финансирование 30 лишних томографий или пары обезьян, а также доступ к клинической выборке обеспечить не так просто). Участники репликационного проекта активно общались с авторами оригинальных исследований, пытаясь максимально приблизить условия репликации к условиям первоначальных экспериментов. Кроме собственно «волшебной» цифры (какой процент результатов удастся подтвердить), авторов интересовал разброс успешности репликаций между субдисциплинами, а также факторы, влияющие на успешность репликаций (например, склонны ли к удачным воспроизведениям более опытные исследователи).

РЕЗУЛЬТАТЫ
Перейдем к результатам, на примере самого банального критерия успешности — p-значений. Следите за руками. Взяли 100 экспериментов. В 97 из них был заявлен положительный результат (из них 4 имели p > .05, но это в данном случае уже мелочи). Средняя мощность репликации по имеющимся у исследователей данным составляла 92%. Это означает, что если все оригинальные эффекты существуют и были правильно измерены (!), реплицировать получится 89 из них (0.97 * 0.92). На самом деле получилось реплицировать 35 (40%). Правда, здесь есть ловушка — та самая правильность исходного измерения. Если авторы оригинальных исследований переоценивали величину искомого эффекта, реальная мощность репликации была ниже, а значит и «волшебный процент» мог быть недооценен, то есть 40% это довольно консервативная оценка. Далее, внутри этих 40% авторы обнаружили существенный разброс между субдисциплинами (точнее, статьями из двух специализированных журналов: по социальной и личностной психологии vs когнитивной психологии). Если социальнопсихологические результаты подтверждались в 25% случаев (14 из 55), то когнитивнопсихологические — в 50% случаев (21 из 42).
Не менее грустную в целом, но более информативную картину показывает сравнение размеров эффекта в оригинале и репликации — в среднем, репликации достигают лишь половины оригинального размера эффекта. Предлагаемый авторами механизм здесь довольно прост и ожидаем — в публикации попадают «лучшие образцы» результатов, зачастую в сочетании с маломощным дизайном, тогда как репликации лишены этих искажений.

Помимо измерения реплицируемости, на основе всех полученных данных авторами были выделены предикторы успешности репликаций — неудивительно, но ими оказались большой размер эффекта и низкое p-значение в оригинальном исследовании. На примере p-значений — результаты с p < .001 достигали значимости при репликации в 63% случаях, а результаты с p > .04 — в 18%. К тому же, чем «удивительнее» был исходный эффект и чем сложнее было его реплицировать, тем ниже оказалась вероятность успеха (привет Psychological Science и в целом упору на новизну). Кроме того, редко реплицируются результаты тестов интеракций по сравнению с тестами собственных эффектов факторов. Зато в отношении реплицируемости не имеет предсказательной способности опытность авторов (как оригинала так и репликации), субъективная важность результата и даже субъективное качество репликации.

GO BAYES
Но что мы все о p-значениях. Интересный взгляд на те же результаты показывает байесовская статистика. Данный анализ не проводился авторами статьи в Science, но на выложенные в открытый доступ данные накинулись десятки любопытных исследователей, и некоторые из дополнительных выводов уже вовсю обсуждаются в блогах. Прелесть байесовского подхода к анализу репликаций в том, что он позволяет не только оценить успешность репликации в дихотомии «получилось/не получилось», но и рассмотреть результаты как свидетельство в пользу гипотезы о наличии либо гипотезы об отсутствии описанного в оригинальном исследовании результате. Таким образом можно определить, какие из репликаций показали весомое свидетельство наличия эффекта, какие — весомое свидетельство отсутствия эффекта, а какие оказались неинформативны. Выводы Алекса Этза[8] в рамках этого подхода оказались довольно интересны: около 30% результатов репликаций попадают в категорию «неинформативных», то есть, не соответствуют однозначно ни гипотезе о наличии, ни гипотезе об отсутствии эффекта. Еще раз — целая треть этих аккуратнейшим образом выполненных и проанализированных репликаций попали в «серую» зону между успехом и неуспехом. В свете такой оценки становится яснее, что репликация — это не приговор и даже не «проверка», а скорее дополнительная информация для составления информированного научного вывода.

КТО ВИНОВАТ
Таким образом, если корректно подходить к интерпретации основного результата, то все, что мы можем сказать — 35 из 97 исследований получили дополнительные доказательства в свою пользу. Остальные — не получили, и сложно сказать, почему. Возможно, потому что искомые эффекты очень слабые и репликациям не хватило мощности. Или потому что этих эффектов действительно не существует. Либо в одной из двух попыток (оригинале или репликации) что-то незаметно пошло не так. Либо это случай. Либо немного отличались выборки и материал (а репликации не всегда проводились в той же стране, что исходное исследование). Причин неудачи может быть масса, так что однозначно списывать со счетов конкретные невоспроизведенные исследования не стоит. Туда же относится вопрос «Можно ли официально считать когнитивную психологию круче социальной, если ее результаты чаще воспроизводятся?». Боюсь, что социальным психологам и без того досталось. Скорее всего, когнитивистам благодарить за воспроизводимость нужно не математически-естественнонаучную шапочку, а удобные внутригрупповые дизайны и в целом сильные эффекты, обладающие относительно небольшой вариабельностью внутри популяции, а социальным психологам в этом смысле можно посочувствовать.

ЧТО ДЕЛАТЬ
Вернемся к громким журнальным заголовкам. Если это огромное исследование не было призвано оправдать или осудить психологию как науку, и даже не показало, каким результатам можно верить, а каким нет, что оно дало? В первую очередь, это смелая и трудоемкая работа по описанию проблемы, с которой борется психология, это донесение как до публики, так и до самих исследователей важности перепроверки и укрепления ранних результатов. Возможно ли повысить цифру 40% до чего-то более приятного? Пожалуй, да. Более того, за счет распространения более аккуратных исследовательских практик она скорее всего возросла с 2008 года, когда были опубликованы рассматриваемые работы. В предыдущие десятилетия те же проблемы проходила, например, медицина и генетика. Клинические испытания в итоге приняли за норму обязательную перерегистрацию исследований для того, чтобы отделить планируемые результаты от менее жестких творческих находок ученых. Генетики перешли к командной работе и крупным коллаборациям. Психология тоже идет этим путем. Все больше журналов практикует пререгистрацию[9] и настаивает на свободном доступе к данным исследования, все больше внимания уделяется адекватности размера выборок и соответствии их размеру эффекта, и раз за разом международные команды объединяются в проекты ManyLabs[10] для проведения больших репликаций. Все больше «не-новых», даже отрицательных, результатов публикуется в PLoS One или выкладывается препринтами на bioRxiv. Ситуация год от года изменяется к лучшему. Что делать с результатами предыдущих эпох? Да ничего. Относиться критично и по возможности перепроверять. Не то чтобы эта рекомендация открывала глаза кому-то, кто хоть раз пробовал разобраться в научной литературе по любой проблеме.

В общем, хоть цифры и выглядят пессимистично, ничего особенно пугающего нам не открылось. Как это и должно быть, наука перепроверяет, критикует и оздоравливает себя, так что научность психологии (если кто-то за нее волновался) подтверждается самим фактом проведения подобного исследования. А теперь все выдохнули и повторяем за мной: «Science isn’t broken. It’s just fucking hard.»

1.http://www.sciencemag.org/content/349/6251/aac4716

2. http://www.nature.com/news/nobel-laureate-challenges-psychologists-to-clean-up-their-act-1.11 535

3. https://en.wikipedia.org/wiki/Diederik_Stapel

4. http://www.nature.com/news/replication-studies-bad-copy-1.10 634

5 .https://peerj.com/articles/1142.pdf

6. http://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.1 002 106

7. https://osf.io/ezcuj/wiki/Replicated%20Studies/

8. http://alexanderetz.com/2015/08/30/the-bayesian-reproducibility-project/

9. http://www.theguardian.com/science/head-quarters/2014/may/20/psychology-registration-revolution

10. https://osf.io/89vqh/

Дополнительно:

Все материалы, касающиеся репликационного проекта, включая детальные отчеты о каждой репликации, данные, и код для анализа и визуализации: https://osf.io/ezcuj/

Отличный обзор в Atlantic с правильной, на наш взгляд, подачей проблемы: http://www.theatlantic.com/health/archive/2015/08/psychology-studies-reliability-reproducability-nosek/402 466/


Анализ электрофизиологических данных в Python

Торбен Ното из лаборатории Cognitive and Neural Dynamics в Университете Калифорнии в Сан Диего составил несколько уроков по анализу электрофизиологических данных (ЭЭГ и ЭКоГ) в Python.

Уроки написаны в iPython Notebooks и представляют собой очень краткие объяснения основных процессов и функций с кусочками работающего кода. На данный момент есть уроки по следующим темам:

  • Фильтры
  • Спектральная плотность мощности и сэмплинг
  • Фазово-амплидудные взаимодействия
  • Влияние фильтрации на фазово-амплидудные взаимодействия
  • Вызванные потенциалы
  • Взаимодействие спайковой активности с колебаниями

Уроки находятся в репозитории лаборатории здесь: github.com/voytekresearch/tutorials

Большое спасибо коллегам за готовность делиться материалами. Да здравствует открытая наука!


Первая статья проекта MyConnectome

Прошлая неделя выдалась продуктивной для исследователей коннектома человека. Во-первых, в Neuron вышла удивительная статья от группы Рассела Полдрака по результатам проекта MyConnectome (http://myconnectome.org/).
На протяжении 76 недель (!), три раза в неделю (!) сам Рассел Полдрак проводил время в сканере, собирая данные о своем мозге (фМРТ с классическими задачами и в состоянии покоя). В результате в распоряжении исследователей оказалось огромное количество данных об одном-единственном мозге. С помощью этих бесценных данных стало возможным в том числе проанализировать, насколько парцелляция на основе состояния покоя соответствует активациям, полученным у того же испытуемого при выполнении задаы, а также проверить, насколько стабильны результаты от сессии к сессии у одного и того же испытуемого. Подробнее об исследовании можно прочесть в статье, или посмотреть в замечательном видео-абстракте, но основные результаты показали, что в целом возможно восстановить стабильную и подробную картину функциональной структуры индивидуального мозга, и эта картина в чем-то будет отличаться от групповой (почему -- отдельный вопрос), но для составления такого «портрета» необходимо гораздо больше данных, чем принято записывать в классических фМРТ-парадигмах. Кроме того, отмечено, что источники изменчивости в данных различаются при внутрииндивидуальном и межиндивидуальном анализе.

Ссылка на статью (и видео-абстракт!): T. Laumann et al. (2015) Functional System and Areal Organization of a Highly Sampled Individual Human Brain.
http://www.cell.com/neuron/abstract/S0896−6273(15)00600−5

И десерт. Вышел совершенно чудесный тулбокс для анализа связей мозга (connectivity). Он называется Multimodal Imaging Brain Connectivity Analysis toolbox (MIBCA) и позволяет проводить анализ мультимодальных данных в одной среде от начала и до конца, что раньше было практически невозможно. Тулбокс и подробности можно найти здесь: www.mibca.com/, а статью с описанием методов -- здесь: peerj.com/articles/1078/

Приятных вам связей, #горячиеюныекогнитивные!


Книги по Data Science

Ресурс для #горячихюныхкогнитивных, намеревающихся серьезно заняться самообразованием в области data science -- список хороших бесплатно распространяемых книг для разного уровня подготовки.

Список составлен и обновляется Уильямом Ченом -- исследователем из команды Quora. Бесплатный или условно-бесплатный (donation с минимумом в 0) доступ к книгам открывается по клику на обложку со страницы блога Уильяма: www.wzchen.com/data-science-books


Olfactory Data Challenge

Любителям сенсорной нейронауки, а также заядлым аналитикам может быть интересен открывшийся Data Challenge по обонянию.

Цель -- построить модель, наиболее точно предсказывающую запах на основе химических свойств вещества. В качестве данных предлагается оценка 476 запахов по нескольким параметрам от 49 испытуемых. Но в отличие от стандартных data challenges, предоставленную таблицу данных можно дополнять из внешних источников, если это необходимо для построения модели.
Получившиеся модели будут оценены по качеству предсказания индивидуальных результатов, а также средних результатов по выборке. Участвовать можно как индивидуально, так и командами. В качестве награды описание модели-победителя будет опубликовано в Journal of Neuroscience.
Все подробности и инструкции -- на сайте конкурса: www.synapse.org/#!Synapse:syn2811262/wiki/

Go TCTS!


Мини-парад ссылок

Сегодня у нас в программе небольшая подборка ссылок на полезный в науке и преподавании софт.

1) OpenSesame
http://osdoc.cogsci.nl/
Простая удобная программа для создания экспериментов с интуитивным интерфейсом. Открытый досттуп, поддержка большого количества внешней аппаратуры (ээг, кнопки, айтрекеры). Все, для чего нет готовой функции, можно дописать в Python. Студенты без специальной подготовки осваивают быстро и без особенных проблем.

2) GPower
www.gpower.hhu.de/en.html
Простой удобный калькулятор для анализа статистической мощности. Хорош кнопочным интерфейом и подробной инструкцией, идеален в случае расчетов для простых тестов (one-way ANOVA, корреляции и т. д.).

3) Ecли вас заинтересовала недавняя дискуссия о доверительных интервалах, вам могут быть интересны следующие симуляции:

ESCI
www.latrobe.edu.au/psy/research/cognitive-and-developmental-psychology/esci/2001-to-2010
Cвободно распространяемый макрос-симулятор для Excel, созданный Джоффом Каммингзом (автором учебника «Understanding the New Statistics»). Рассчитывает и графически демонстрирует размеры эффекта, доверительные интвервалы, статистическую мощность, и даже визуализирует знаменитый «танец p-значений» (https://www.youtube.com/watch?v=ez4DgdurRPg, обязательно загляните на 6'25''и далее;))

Очень красивые и ясные браузерные визуализации:
http://rpsychologist.com/d3/CI/
rpsychologist.com/d3/NHST/
rpsychologist.com/d3/correlation/
Если вам недавно попадались полезные в работе материалы или программы, мы будем рады о них узнать! Как известно научным работникам, автоматизация труда освобождает ценные часы и минуты для другого труда=)


Пара слов о пропущенных значениях

Как бы мы ни собирали данные, нередко случается так, что некоторые значения пропущены. Особенно это характерно для различных опросных методик или исследований, растянутых на длительное время. В такие моменты перед аналитиком встает вопрос, по-гамлетовски фундаментальный — «резать или не резать». То есть, что делать с пропущенными значениями — если удалять, то как, если не удалять — каким образом замещать пропуски? Как, в конце концов, будет правильным поступить?
Само собой, сначала надо посмотреть, а насколько случайны пропуски в данных. Для этого могут подойти такие инструменты, как паттерны пропусков, частотный анализ и прочее. В конце концов, если в опросах вариант «не знаю» может интерпретироваться как отказ от коммуникации, то и пропуск может быть маркером каких-либо процессов.

В том случае, если пропуски действительно случайны, то самый простой вариант — это удаление наблюдений с пропущенными значениями. Удаление может быть как попарным (pairwise), так и построчным (listwise). Попарное удаление — когда, например, при корреляционном анализе не учитывается значение, парное пропущенному. Построчное удаление — когда из анализа исключается вся строка, в которой есть пропущенные значения (в случае корреляционного анализа по двум переменным идентично попарному удалению).

В тех ситуациях, когда хочется сохранить массив данных, и каким-то образом заполнить пропущенные значения (импутировать), то есть множество методов, разных по идеологии и по результатам. Простейшие из них:
Во-первых, можно заполнить пропущенные значения средним или медианным значением по столбцу. SPSS также предлагает среднее/медиану по N ближайших значений.
Во-вторых, можно пойти по методу «как у соседей» — объекты имеют одинаковые значения, если похожи по ряду прочих характеристик, отраженных в датасете. В конце концов, если у Пети и у Васи отличные оценки в течение года, и отличная оценка за годовую контрольную, то логично предположить, что и отличник-Коля получил отличную оценку за контрольную.
Третий вариант заполнения пропущенных — с использованием линейной регрессии. Пропущенные значения на первом этапе заполняются средними по переменной (метод Бартлетта) или случайным из диапазона значений переменной (метод ресемплинга), переменная с пропуском принимается как зависимая. Полученными предсказанными значениями и замещаются пропуски.
В SPSS ко всему прочему реализован еще один алгоритм — EM-алгоритм. Основная идея этого алгоритма — изменение с помощью регрессионных методов пропущенных значений и вычисление ковариационной матрицы на каждой итерации, до тех пор, пока изменения в матрице не будут минимальны.

Построчное удаление, на мой взгляд, наиболее корректный вариант решения пропущенных значений. Но временами такое ограничение оказывается чрезмерно строгим — так, мне доводилось работать с датасетом, в котором было 250 наблюдений и 40 переменных, однако наблюдений без пропусков — всего три. Естественно, никакой содержательный анализ на трех наблюдениях невозможен. Однако и импутация в данном случае — решение спорное.

Конечно, импутация пропущенных значений в определенных ситуациях жизненно необходима, однако стоит все же отдавать себе отчет в том, что при большом количестве пропусков (я бы сказал, более 5−10% наблюдений по переменной) анализ данных с импутированными пропусками становится похож на самоподдерживающийся фантазм. В конце концов, использование средних вместо пропусков грозит нивелировать различия между группами, а содержательно анализировать данные линейной регрессии, в которых часть пропусков была заполнена по результатам того же регрессионного анализа — просто бессмысленно.

Хотя, конечно же, самым эффективным решением будет <s>пить чай вместо</s> собирать изначально полные данные — тиранить испытуемых/респондентов, выверять процедуру и код программы сбора данных etc.

Филипп Управителев