«Остров» -- книга Василия Ключарева

Хорошим ученым зачастую свойственны занятия искусством — это научный факт*. Тем приятнее, когда наши старшие коллеги достигают заметных успехов не только в научной, но и в творческой деятельности.

Несколько недель назад в печати появилась книга Василия Ключарева, нейроученого и руководителя Департамента психологии ВШЭ. Как написал сам автор, «Остров — когнитивный детектив о странных событиях произошедших сотню лет назад с голландским врачом на небольшом острове в Балтийском море. О событиях, которые легко разгадает, пожалуй, только знаток когнитивных наук». Будучи неравнодушными к детективам и когнитивным наукам одновременно, мы попросили нашего штатного книгочея Филиппа рассказать о своих впечатлениях от прочтения.

Признаться, я с недоверием и некоторой подозрительностью отношусь к внезапным художественным опытам — обычно они, к сожалению, оказываются крайне косноязычными и плоскими. Тем радостнее для меня, утомленного не нарзаном, но графоманством, вперемешку с идеологией, было открытие прошлой недели.
«Остров» прекрасен, а Василий Ключарев — настоящий, без всякого на то сомнения, визионер. Любой, кто видел последнее творение Джармуша, поймет, что это значит. Разгадка истории заинтересует и порадует клиников аль перцептивщиков (и тут они, окаянные), мне же важным оказалось все остальное.
Каждая страница рождает смутное ощущение узнавания. Герметичная атмосфера острова, малочисленная и связанная осязаемой, но не проговариваемой тайной община заставляют ожидать двенадцать ножевых ранений и виды Югославии за окном. Прогулки по острову рискуют привести в убежище Мориса и услышать, в конце концов, фразу на старящейся латыни. Полные же глубокой чувственности короткие зарисовки характеров воскрешают в памяти эстетические штудии мрачного датчанина, а после истории добрых людей на язык просятся строчки одной монахини, прозванной Мексиканским фениксом, и вспоминается монастырь в горах, ставший центром церковных интриг. Роза алая, зорькою ясной…
К сожалению, «Остров» — очень небольшое произведение, и после прочтения осталась некоторое сожаление — неужели все, может, еще капельку, еще пару сотен страниц? Разве что в будущем, видимо.
Я нашел книгу в Google Play**, желающие бумажных вариантов могут, насколько я знаю, заглянуть в Библио-Глобус, Фаланстер или Лабиринт.

Мы искренне поздравляем Василия с выходом книги, и желаем непременно писать еще, а всем #горячимюнымкогнитивным советуем не забывать о своих ненаучных увлечениях.


*https://www.psychologytoday.com/files/attachments/1035/arts-foster-scientific-success.pdf

**https://play.google.com/store/books/details/%D0%92%D0%B0%D1%81%D0%B8%D0%BB%D0%B8%D0%B9_%D0%9A%D0%BB%D1%8E%D1%87%D0%B0%D1%80%D0%B5%D0%B2_%D0%9E%D1%81%D1%82%D1%80%D0%BE%D0%B2?id=thfbCgAAQBAJ&hl=ru

Автоматическая проверка правильности p-значений в статьях

Неделю назад в журнале Behavior Research Methods появилась интересная статья (http://link.springer.com/article/10.3758/s13428−015−0664−2/fulltext.html), в которой авторы описывают новый пакет для R, позволяющий автоматически проверять правильность расчета p-значений.

По сути все очень просто — программа анализирует текст статьи (который при необходимости переводится из PDF или html в txt), и выделяет из него с помощью регулярных выражений () текст, соответствующий стандартному APA-описанию статистики. Например, для t-теста ищется паттерн наподобие t (DF) = X, p = Y (с учетом возможного появления пробелов, знака < после p и разных форматов чисел). После чего для указанных DF и X пересчитывается Y и сравнивается с указанным в статье.

Сравнение с результатами проверки вручную показали, что пакет неплохо справляется, хотя ожидаемо пропускает тесты в таблицах, иногда не справляется с односторонними тестами, не понимает неформатные записи, и не всегда ловит поправки на множественные сравнения. Тем не менее, порядка 70% результатов корректно вылавливаются и общий процент рассогласований между подсчитанным p и p, описанным в статье, составляет 4.3% при ручном подсчете и 5.8% при автоматическом. То есть в общем и целом если уж выловил, то проверит скорее правильно.

С помощью этого пакета товарищи проверили 30 717 статей, из них p-значения встречались в 16 695 статьях. Анализировались два типа расхождений — незначительные (p > .05 или < .05 и таковым и остается при пересчете) и грубые (p < .05, но становится незначимым при пересчете, или наоборот).

Основные результаты анализа таковы. Хотя бы одна грубая ошибка при расчете p встречается в 13% статей, а на одну статью в среднем приходится 1.6% грубых ошибок. При этом важный позитивный момент — доля грубых ошибок с годами снижается. Причем как показывает рисунок ниже снижается она в основном за счет уменьшения доли грубых ошибок среди значимых результатов, то есть уменьшается число ошибочно значимых находок. Интересно также, что особых различий между журналами в различных областях нет, так что нельзя сказать, что социальные психологи чаще клинических или общих делают ошибки в подсчетах.

Было бы любопытно доработать этот пакет до автоматической проверки соответствия описания результатов стандартам. Тогда он мог бы стать таким базовым фильтром при публикации статей и помог бы еще больше улучшить качество публикаций. Ну и хорошо бы, чтобы его начали использовать в России и не только для статей, но и, например, для выпускных работ.

Рисунок 7 из Nuijten et al. (2015)
Рисунок 7 из Nuijten et al. (2015). Изменение доли грубых ошибок по годам среди значимых (верхняя линия) и незначимых (нижняя линия) результатов.

International Society for Intelligence Research — конференция и летняя школа

Конференция International Society for Intelligence Research пройдет в Санкт-Петербурге летом 2016 года.

Конференция обещает быть удобного небольшого размера, с привлечением специалистов в области исследования интеллекта из самых разных областей. Студентам участие обойдется в $ 120. Что еще интереснее, непосредственно перед конференцией пройдет летняя школа «Interdisciplinary Approaches to the Study of Intelligence» для студентов и молодых ученых. Участие бесплатное, но мест всего 50, только для участников конференции, прошедших отбор и зарегистрировавшихся.

Ключевые даты:
Подача тезисов: 1 марта — 2 апреля 2016
Оглашение результатов отбора: 30 апреля 2016
Регистрация на конференцию: до 15 мая 2016
Подача заявки на участие в Летней школе (после регистрации!): 30 апреля — 16 мая 2016
Оглашение результатов отбора на школу: 20 мая 2016

Подробности на сайте конференции: http://www.isironline.org/2016-st-petersburg-russia-july-15−17/
Если вам интересно стать волонтером и помочь в организации конференции — пишите Илье Захарову.

Мэттью Ботвиник будет работать в Google DeepMind

Мэттью Ботвиник, один из ключевых авторов теории когнитивного мониторинга конфликта, будет работать в Google DeepMind (https://twitter.com/p1sh/status/657 632 506 850 725 888). Очень круто, когда такого уровня исследователи начинают работать в индустрии, хотя возможно правильнее было бы назвать DeepMind частным исследовательским центром. Надеемся, что в силиконовой долине Ботвинику будет хорошо и предлагаем почитать некоторые из его публикаций:

Botvinick, M., & Braver, T. (2015). Motivation and cognitive control: from behavior to neural mechanisms. Annual Review of Psychology, 66, 83−113. pdf

Shenhav A., Botvinick M.M., & Cohen J.D. (2013). The expected value of control: an integrative theory of anterior cingulate cortex function. Neuron. pdf

Brunton, B., Botvinick, M. & Brody, C. (2013). Rats and humans can optimally accumulate evidence for decision-making. Science, 340, 95−98. pdf

Botvinick, M. (2012). Hierarchical reinforcement learning and decision making. Current Opinion in Neurobiology, 22, 956−962. pdf

Botvinick, M. & Toussaint, M. (2012). Planning as inference. Trends in Cognitive Sciences, 10, 485−588. pdf

Kool, W., McGuire, J. T., Rosen, Z., & Botvinick, M. M. (2010). Decision making and the avoidance of cognitive demand. Journal of Experimental Psychology: General, 139, 665−682. pdf

Botvinick, M. (2007). Conflict monitoring and decision making: Reconciling two perspectives on anterior cingulate function. Cognitive, Affective and Behavioral Neuroscience, 7, 356−366. pdf

Botvinick, M., Cohen, J. D. & Carter, C. S. (2004). Conflict monitoring and anterior cingulate cortex: An update. Trends in Cognitive Sciences. 8, 539−546. pdf

Botvinick, M., Braver, T., Barch, D. Carter, C. & Cohen, J. (2001). Conflict monitoring and cognitive control. Psychological Review, 108 (3), 624−652. pdf

Carter, C. S., Braver, T. S., Barch, D. M., Botvinick, M. M., Noll, D., & Cohen, J. D. (1998) Anterior cingulate cortex, error detection, and the online monitoring of performance. Science, 280, 747−749. pdf

Botvinick, M. & Cohen, J. D. (1998). Rubber hand ‘feels' what eyes see. Nature, 391, 756. pdf

matthew-botvinick

Новый журнал по когнитивной психологии

Организация Psychonomic Society,

которой принадлежат такие журналы как «Attention, Perception & Psychophysics», «Learning & Behaviour», «Mind & Cognition», объявила об открытии нового журнала открытого доступа с довольно специфической тематикой -- «use-inspired basic research», то есть, теоретические, лабораторные исследования, поводом для которых послужили закономерности, обнаруженные в естественной среде. Например, некоторые современные гипотезы о механизмах зрительного поиска основаны на наблюдениях за работой рентгенологов или работников служб безопасности в аэропортах, а исследования изменчивости памяти вдохновлены юридической практикой сбора свидетельских показаний. Работы, в которых в лабораторных условиях исследуются подобные задачи из реального мира, и будут фокусом нового журнала.
Подробнее о журнале можно прочесть в обращении его редактора Джереми Вольфа (http://www.psychonomic.org/featured-content-detail/join-us-in-pasteur-s-quadrant-as-psychonomics-laun).
Помимо интересной тематической направленности, несомненным преимуществом журнала является открытый доступ. Более того, все статьи, присланные в журнал до 31 декабря 2016, будут опубликованы не только открыто, но и бесплатно.

Иллюстрация courtesy of Shit My Reviewers Say

Изучение сознания без оценок осознанности

Одна из основных проблем в изучении (о)сознания в когнитивных науках заключается в том, что как ни крути, а чтобы проверить наличие сознания необходимо каким-то образом получить об этом отчет от испытуемого. В каком бы виде этот отчет не происходил — через вербальный ответ, через нажатие на кнопку, через подергивание правого мизинца, как угодно.

Даже когда исследователи говорят, что научились проверять наличие сознания у находящихся в коме пациентов (http://www.nature.com/news/neuroscience-the-mind-reader-1.10 816), по сути речь идет о новом виде отчета через представление (воображение) специфического вида активности, которую можно более-менее надежно опознать по реакции мозга при определенной тренировке пациента. Однако само то, что мы знаем, что такая реакция мозга связана с представлением определенной активности завязано на предыдущие исследования, в которых нормальные люди давали отчет о том, что представляют эту самую активность. Грубо говоря, о том, что реакция мозга, А связана с субъективным опытом Б мы знаем из того, что до этого взрослый человек, в отношении которого нет причин сомневаться в наличии сознания, сообщил нам о наличии опыта Б примерно тогда же, когда регистрировалась реакция А. Обратный вывод — о наличии опыта Б по реакции, А — требуется огромного множества дополнительных допущений. Поэтому, например, заявления о наличии сознания у животных (https://en.wikipedia.org/wiki/Animal_consciousness#Cambridge_Declaration_on_Consciousness) поддерживаются далеко не всеми (http://plato.stanford.edu/entries/consciousness-animal/).

После этой длинной прелюдии можно перейти к тому, что послужило поводом для сегодняшнего поста. В Nature Neuroscience опубликована интересная статья «Negligible fronto-parietal BOLD activity accompanying unreportable switches in bistable perception» за авторством Jan Brascamp, Randolph Blake и Tomas Knapen (http://www.nature.com/neuro/journal/vaop/ncurrent/full/nn.4130.html, PDF можно найти через известный всем сервис, ну или написать в комментах, если не найдете). Авторы придумали интересный способ изучить изменение осознанного опыта, которое не замечается самими испытуемыми. Для этого они использовали феномен, который называется «бинокулярная конкуренция» (https://en.wikipedia.org/wiki/Binocular_rivalry). Сущность его заключается в том, что если на два глаза вам подается несогласованная информация (например, два разных лица или горизонтальные и вертикальные линии), то при определенном наборе условий вы будете в каждый момент времени воспринимать только информацию поступающую на один глаз, причем периодически переключаясь между левым и правым глазом.

Исследования этого феномена обычно проводятся с применением специального устройства, зеркального стереоскопа, но вы можете попробовать ощутить на себе эффект бинокулярной конкуренции с помощью этой картинки.

Примеры стимулов для бинокулярной конкуренции с http://www.scholarpedia.org/article/Binocular_rivalry

Попробуйте расфокусировать взгляд, чтобы два изображения (левое и правое в любом ряду) совпали друг с другом. Вы увидите, что вместо двух изображений одновременно, вы воспринимаете их по очереди. Браскамп и коллеги использовали похожие стимулы, только в их случае это были движущиеся наборы случайных точек. Они показали, что если давать два набора точек разных цветов (на левый глаз — красные точки, на правый синие, или наоборот), то испытуемые легко замечают переключение воспринимаемого изображения. So far, so good. Кроме того раз в несколько секунд испытуемым показывают уже не случайный, а упорядоченный поток точек, движущихся для двух глаз в противоположные стороны, и просят сказать, куда, собственно, движутся точки. Все это делается на протяжении нескольких экспериментов, причем в ключевом эксперименте также записывается активность мозга с помощью фМРТ.

Рисунок 1 из статьи Браскампа и коллег

Итак, в чем фишка? Фишка в том, что-то, как частота переключения восприятия между левым и правым глазом довольно устойчивая индивидуальная характеристика. Более того, если проанализировать данные по частоте изменения цвета (в условии, где разные цвета), и частоту изменения восприятия направления движения пульсов (в условии с одинаковыми цветами), то получается, что математическая модель, описывающая эти два условия будет обладать примерно одними и теми же индивидуальными параметрами для каждого испытуемого. А это значит, что в условии с одним и тем же цветом точек переключение воспринимаемого потока информации у испытуемых происходит примерно с той же частотой, что и в условии с двумя цветами. То есть сознательный опыт испытуемых меняется в промежутках между пульсами, хотя они этого не осознают. А это очень круто, потому что это дает возможность отделить собственно осознание как непосредственный субъективный опыт от внимания, которое привлекают изменения, или «метаосознанности», то есть осознание осознания.

Ну, а затем уже можно попытаться разделить их мозговые корреляты, как сделали Браскамп и коллеги, показав, что непосредственно к осознанию фронто-париетальные области, часто связываемые с принятием решений и «исполнительным» контролем, вроде бы отношения не имеют. Но это уже на сладкое, главное же, на мой вкус, то, что у вас появляется возможность отделить субъективный отчет и осознанность. Изучению сознания у животных это вряд ли поможет, а вот более полному понимаю того, что такое осознание — точно.

На закуску (подходит время ланча, и кулинарные метафоры встречаются все чаще), вот вам виде к статье, в котором кратко показана процедура и основные результаты. Инджой!

Джерому Брунеру исполняется 100 лет

Сегодня исполняется 100 лет одному из основателей когнитивной психологии Джерому Брунеру.

Брунер -- человек, который не только застал, но и принял непосредственное участие в том, как изменилась психология за вторую половину 20 века. Cвою исследовательскую деятельность Брунер начал в области психологии восприятия. На интерес к восприятию и вообще к процессам конструирования мозгом реальности повлияло то, что он родился слепым, и смог видеть только после операции, которую перенес в возрасте трех лет. Работая с восприятием, Брунер наблюдал, как опыт и известные закономерности окружающего мира влияют на наше поведение, и в итоге фокус его исследований сместился в область психологии развития и психологии обучения.

Несмотря на почтенный возраст, профессор Брунер дает прекрасные лекции и интервью, а еще он до сих пор является единственным профессором Оксфорда, который, получив приглашение работать в этом университете, пересек Атлантический океан на паруснике.

С Днем рождения, профессор!

По материалу APA: www.apa.org/monitor/2015/05/centenarian-bruner.aspx

Shit My Reviewers Say

Этим невозможно не поделиться! Новый Tumblr под названием Shit My Reviewers Say (http://shitmyreviewerssay.tumblr.com/) собирает наиболее милые, добрые и разумные высказывания рецензентов научных статей. Вот некоторые из них:

— Авторы должны сослаться на суперинтересную статью по этой теме из Википедии.
— Кроме того, эта рукопись достаточно нудная и читается как неотредактированная глава из диссертации.
— Это бессмысленная статья. Она не предлагает ни интересных новых данных, ни хорошего объяснения.
— Это достаточно тривиальное исследование, размер выборки подозрительно большой, и эффект микроскопический на уровне разницы в 5% (кого волнует, что он значимый).
— Вы заставляете читателя почувствовать себя необразованным.
— Пожалуйстапожалуйстапожалуйста уберите предложения, которые звучат как гегельянские озарения, не неся никакого смысла в контексте вашей эмпирической работы.
— Я насчитал пятнадцать использований «очевидно» и «очевидный». Это по одному на страницу. «Очевидно», результаты не так очевидны, как хотелось бы автору.
— Я никогда не читал ничего подобного, и это не комплимент.

Ну и специально для наших постоянных читателей:

«Вероятно, переход на байесовскую статистику будет чересчур сложным для многих исследователей, и особенно студентов, из менее интеллектуальных областей науки (например, психологии)»

tumblr_mfadw0DwfB1rk8o0xo1_540
Картинка с http://academicnegativity.tumblr.com/post/38 309 344 584/i-had-the-same-paper-rejected-one-year-ago.

Курс по Python для сбора и анализа данных в ВШЭ

Высшая Школа Экономики в Москве сделала общедоступный факультатив по программированию на Python для сбора и анализа данных. Отличительная черта — заточенность именно под аналитику, а не просто обучение Питону.

Информация от автора:
«Мы начнём с самых азов программирования и, не углубляясь слишком сильно в теорию, дойдём до практических задач типа «обработать тысячу веб-страниц, извлечь из них нужные данные, собрать их в аккуратную табличку, прогнать по ним регрессию, нарисовать пять графиков и две диаграммы, после чего отправить результат начальнику по e-mail». Курс будет длиться три модуля (то есть полтора семестра), причём первый модуль ориентирован на тех, кто никогда не имел дела с программированием вообще, а в последнем много нового откроют для себя даже опытные питонисты.

В общем, если вы всегда мечтали о том, чтобы компьютер понимал вас с полуслова, избавил от рутины и дал больше возможностей и свободы, сейчас самое время изучить подходящий для этого язык. И это Python" (https://www.facebook.com/photo.php?fbid=10 204 862 744 548 048).

Запись тут: http://lms.hse.ru/?pl

Python for Neuroscience

Картинка отсюда http://pensees.pascallisch.net/?p=1638

О Reproducibility Project

или «Тот редкий момент, когда нужно защитить психологию»

TL;DR:

  • В рамках большого репликационного проекта в психологии не были подтверждены больше половины из 100 результатов
  • Наиболее высокими шансами на удачное воспроизведение обладают результаты с исходно большим размером эффекта (чаще встречающиеся в когнитивной психологии).
  • Причиной низкой воспроизводимости скорее всего является существующая система публикаций, придающая неадекватно большое значение статистической значимости и новизне результатов
  • В целом, репликационный проект показывает как серьезность методических проблем в психологии, так и направленность на их скорейшее решение

_fxRX4FQFO4

ОК #горячиеюныекогнитивные, с нескольким опозданием, но и мы в TCTS решили отреагировать на новости о результатах большого репликационного исследования, описанного на этой неделе в Science[1]. Наверное, уже все видели заголовки «Больше половины психологических результатов невоспроизводимы», «Объективность большинства психологических исследований поставлена под сомнение», «Результаты многих исследований по психологии и социологии не поддаются воспроизведению и могли быть подделаны» или «Ученые усомнились в научности психологических исследований» (все названия реальны). Если вы хотите поглубже разобраться в том, куда теперь бежать и в какую сторону закатывать глаза, вам будет интересно прочесть этот длинный пост.

ПРОБЛЕМА
Прежде всего давайте спокойно, без истерики, посмотрим на то, что произошло. В течение последних трех лет героический Брайан Нозек из Университета Вирджинии руководил командой из 270 человек, занявшейся прямой репликацией сотни опубликованных психологических экспериментов. Эта мега-репликация была вызвана все возрастающим пониманием того, что многие из исследовательских и публикационных практик, принятых в сообществе, ухудшают качество получаемых результатов. За последние несколько лет в психологии было вскрыто несколько больших проблемных тем (например, очень громкой оказалась история с непонятным социальным праймингом[2]), были раскрыты громкие случаи фальсификации данных (вспомним Дидрика Штапеля[3]), и продемонстрированы странные публикационные тенденции (90% опубликованных статей подтверждают исходную гипотезу[4], нереалистичная часть статистически значимых результатов еле-еле отвечает конвенциональному p-критерию[5] и т. д.) Кроме того, стало понятно, что для того, чтобы внести неразбериху в психологическую литературу, необязательно быть монстром-фальсификатором, достаточно слегка переиграть в экспериментальные игры[6]. Например, исследователь может добрать выборку «до значимости» уже в процессе исследования, пробовать разные методы фильтрации и обработки данных (без злого умысла, из чистого интереса!), повторять эксперимент с небольшими изменениями 10 раз и опубликовать только один, удачный, результат, и т. д. Эти проблемы, спасибо журналам, публикующим только положительные результаты, существуют во всех науках, но в случае с психологией и её и без того хрупкими эффектами масштаб трагедии казался ошеломляющим. Брайан Нозек решил все же попробовать её измерить.

ПОДХОД
Для начала авторы (270!) выбрали исследования для повторения. В список[7] попали работы, опубликованные в трех высокопрофильных психологических журналах в 2008 году: общем публикующем «громкие» результаты Psychological Science, социально-психологическом Journal of Personality and Social Psychology и когнитивно-психологическом Journal of Experimental Psychology: Learning, Memory, and Cognition. Команды-участники проекта могли сами выбирать из общего пула статьи, которые были близки их научным интересам и которые можно было технически реплицировать (понятно, что финансирование 30 лишних томографий или пары обезьян, а также доступ к клинической выборке обеспечить не так просто). Участники репликационного проекта активно общались с авторами оригинальных исследований, пытаясь максимально приблизить условия репликации к условиям первоначальных экспериментов. Кроме собственно «волшебной» цифры (какой процент результатов удастся подтвердить), авторов интересовал разброс успешности репликаций между субдисциплинами, а также факторы, влияющие на успешность репликаций (например, склонны ли к удачным воспроизведениям более опытные исследователи).

РЕЗУЛЬТАТЫ
Перейдем к результатам, на примере самого банального критерия успешности — p-значений. Следите за руками. Взяли 100 экспериментов. В 97 из них был заявлен положительный результат (из них 4 имели p > .05, но это в данном случае уже мелочи). Средняя мощность репликации по имеющимся у исследователей данным составляла 92%. Это означает, что если все оригинальные эффекты существуют и были правильно измерены (!), реплицировать получится 89 из них (0.97 * 0.92). На самом деле получилось реплицировать 35 (40%). Правда, здесь есть ловушка — та самая правильность исходного измерения. Если авторы оригинальных исследований переоценивали величину искомого эффекта, реальная мощность репликации была ниже, а значит и «волшебный процент» мог быть недооценен, то есть 40% это довольно консервативная оценка. Далее, внутри этих 40% авторы обнаружили существенный разброс между субдисциплинами (точнее, статьями из двух специализированных журналов: по социальной и личностной психологии vs когнитивной психологии). Если социальнопсихологические результаты подтверждались в 25% случаев (14 из 55), то когнитивнопсихологические — в 50% случаев (21 из 42).
Не менее грустную в целом, но более информативную картину показывает сравнение размеров эффекта в оригинале и репликации — в среднем, репликации достигают лишь половины оригинального размера эффекта. Предлагаемый авторами механизм здесь довольно прост и ожидаем — в публикации попадают «лучшие образцы» результатов, зачастую в сочетании с маломощным дизайном, тогда как репликации лишены этих искажений.

Помимо измерения реплицируемости, на основе всех полученных данных авторами были выделены предикторы успешности репликаций — неудивительно, но ими оказались большой размер эффекта и низкое p-значение в оригинальном исследовании. На примере p-значений — результаты с p < .001 достигали значимости при репликации в 63% случаях, а результаты с p > .04 — в 18%. К тому же, чем «удивительнее» был исходный эффект и чем сложнее было его реплицировать, тем ниже оказалась вероятность успеха (привет Psychological Science и в целом упору на новизну). Кроме того, редко реплицируются результаты тестов интеракций по сравнению с тестами собственных эффектов факторов. Зато в отношении реплицируемости не имеет предсказательной способности опытность авторов (как оригинала так и репликации), субъективная важность результата и даже субъективное качество репликации.

GO BAYES
Но что мы все о p-значениях. Интересный взгляд на те же результаты показывает байесовская статистика. Данный анализ не проводился авторами статьи в Science, но на выложенные в открытый доступ данные накинулись десятки любопытных исследователей, и некоторые из дополнительных выводов уже вовсю обсуждаются в блогах. Прелесть байесовского подхода к анализу репликаций в том, что он позволяет не только оценить успешность репликации в дихотомии «получилось/не получилось», но и рассмотреть результаты как свидетельство в пользу гипотезы о наличии либо гипотезы об отсутствии описанного в оригинальном исследовании результате. Таким образом можно определить, какие из репликаций показали весомое свидетельство наличия эффекта, какие — весомое свидетельство отсутствия эффекта, а какие оказались неинформативны. Выводы Алекса Этза[8] в рамках этого подхода оказались довольно интересны: около 30% результатов репликаций попадают в категорию «неинформативных», то есть, не соответствуют однозначно ни гипотезе о наличии, ни гипотезе об отсутствии эффекта. Еще раз — целая треть этих аккуратнейшим образом выполненных и проанализированных репликаций попали в «серую» зону между успехом и неуспехом. В свете такой оценки становится яснее, что репликация — это не приговор и даже не «проверка», а скорее дополнительная информация для составления информированного научного вывода.

КТО ВИНОВАТ
Таким образом, если корректно подходить к интерпретации основного результата, то все, что мы можем сказать — 35 из 97 исследований получили дополнительные доказательства в свою пользу. Остальные — не получили, и сложно сказать, почему. Возможно, потому что искомые эффекты очень слабые и репликациям не хватило мощности. Или потому что этих эффектов действительно не существует. Либо в одной из двух попыток (оригинале или репликации) что-то незаметно пошло не так. Либо это случай. Либо немного отличались выборки и материал (а репликации не всегда проводились в той же стране, что исходное исследование). Причин неудачи может быть масса, так что однозначно списывать со счетов конкретные невоспроизведенные исследования не стоит. Туда же относится вопрос «Можно ли официально считать когнитивную психологию круче социальной, если ее результаты чаще воспроизводятся?». Боюсь, что социальным психологам и без того досталось. Скорее всего, когнитивистам благодарить за воспроизводимость нужно не математически-естественнонаучную шапочку, а удобные внутригрупповые дизайны и в целом сильные эффекты, обладающие относительно небольшой вариабельностью внутри популяции, а социальным психологам в этом смысле можно посочувствовать.

ЧТО ДЕЛАТЬ
Вернемся к громким журнальным заголовкам. Если это огромное исследование не было призвано оправдать или осудить психологию как науку, и даже не показало, каким результатам можно верить, а каким нет, что оно дало? В первую очередь, это смелая и трудоемкая работа по описанию проблемы, с которой борется психология, это донесение как до публики, так и до самих исследователей важности перепроверки и укрепления ранних результатов. Возможно ли повысить цифру 40% до чего-то более приятного? Пожалуй, да. Более того, за счет распространения более аккуратных исследовательских практик она скорее всего возросла с 2008 года, когда были опубликованы рассматриваемые работы. В предыдущие десятилетия те же проблемы проходила, например, медицина и генетика. Клинические испытания в итоге приняли за норму обязательную перерегистрацию исследований для того, чтобы отделить планируемые результаты от менее жестких творческих находок ученых. Генетики перешли к командной работе и крупным коллаборациям. Психология тоже идет этим путем. Все больше журналов практикует пререгистрацию[9] и настаивает на свободном доступе к данным исследования, все больше внимания уделяется адекватности размера выборок и соответствии их размеру эффекта, и раз за разом международные команды объединяются в проекты ManyLabs[10] для проведения больших репликаций. Все больше «не-новых», даже отрицательных, результатов публикуется в PLoS One или выкладывается препринтами на bioRxiv. Ситуация год от года изменяется к лучшему. Что делать с результатами предыдущих эпох? Да ничего. Относиться критично и по возможности перепроверять. Не то чтобы эта рекомендация открывала глаза кому-то, кто хоть раз пробовал разобраться в научной литературе по любой проблеме.

В общем, хоть цифры и выглядят пессимистично, ничего особенно пугающего нам не открылось. Как это и должно быть, наука перепроверяет, критикует и оздоравливает себя, так что научность психологии (если кто-то за нее волновался) подтверждается самим фактом проведения подобного исследования. А теперь все выдохнули и повторяем за мной: «Science isn’t broken. It’s just fucking hard.»

1.http://www.sciencemag.org/content/349/6251/aac4716

2. http://www.nature.com/news/nobel-laureate-challenges-psychologists-to-clean-up-their-act-1.11 535

3. https://en.wikipedia.org/wiki/Diederik_Stapel

4. http://www.nature.com/news/replication-studies-bad-copy-1.10 634

5 .https://peerj.com/articles/1142.pdf

6. http://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.1 002 106

7. https://osf.io/ezcuj/wiki/Replicated%20Studies/

8. http://alexanderetz.com/2015/08/30/the-bayesian-reproducibility-project/

9. http://www.theguardian.com/science/head-quarters/2014/may/20/psychology-registration-revolution

10. https://osf.io/89vqh/

Дополнительно:

Все материалы, касающиеся репликационного проекта, включая детальные отчеты о каждой репликации, данные, и код для анализа и визуализации: https://osf.io/ezcuj/

Отличный обзор в Atlantic с правильной, на наш взгляд, подачей проблемы: http://www.theatlantic.com/health/archive/2015/08/psychology-studies-reliability-reproducability-nosek/402 466/