Голова профессора Бамблдорфа

Часто считается, что доверительные интервалы интерпретируются проще и корректнее, чем результаты так называемых тестов проверки нуль-гипотез (NHST). Так ли это?

Голландские ученые опубликовали результаты опроса студентов и преподавателей факультетов психологии на эту тему, чем вызвали ряд постов и дискуссий о смысле доверительных интервалов и потенциале использования этой величины для описания научных результатов. Итак, респондентам задавался следующий вопрос:

Профессор Бамблдорф провел эксперимент, проанализировал данные и сказал: «95%-ный доверительный интервал для среднего лежит в интервале от 0.1 до 0.4». Какие из приведенных ниже утверждений являются правильными (т.е. логически следуют из результата, полученного профессором), а какие -- нет? Правильными могут быть все утверждения, некоторые, одно, а может не быть вообще.

  1. Вероятность того, что истинное среднее больше 0 — как минимум 95%
  2. Вероятность того, что истинное среднее равно нулю, меньше 5%
  3. «Нуль-гипотеза» о том, что истинное среднее равно 0, скорее всего неверна
  4. Вероятность того, что истинное среднее находится в интервале от 0.1 до 0.4 — 95%
  5. Мы можем быть на 95% уверены в том, что истинное среднее лежит между 0.1 и 0.4
  6. Если бы мы повторили эксперимент много-много раз, в 95% случаях истинное среднее находилось бы в интервале от 0.1 до 0.4

Сколько утверждений кажутся вам правильными?

Capture

В среднем, студенты и преподаватели психологии считают правильными 3−4 вывода из 6. А на самом деле…

Поговорим о доверительном интервале. Доверительный интервал — это интервал, который строится вокруг приблизительного значения параметра. Этот интервал сам по себе ничего не говорит о параметре — он описывает процедуру, которая привела к его получению (грубо говоря, действия исследователя по сбору и обработке данных). В результате многократного проведения этой процедуры, будут получены интервалы, внутри которых в (например) 95% случаев находится истинное среднее. Помимо этого, важно помнить, что в рамках частотной парадигмы истинное среднее (то есть, среднее значение измеряемой величины у всей популяции) — величина постоянная, и у этой величины, поскольку она не изменяется, нет и не может быть вероятностного распределения. Таким образом, правильная интерпретация утверждения профессора Бамблдорфа заключается в том, что, если провести эксперимент 100 раз и получить 100 выборок, в 95 из этих выборок истинное среднее будет находиться внутри 95%-ного доверительного интервала (при этом в каждой выборке этот интервал будет свой).

Исходя из этого, утверждения 1 и 2 из опросника неверны, поскольку оперируют понятием «вероятность того, что истинное среднее…», которое предполагает, что у значения истинного среднего есть вероятностное распределение. Схожим образом, утверждение 3 некорректно присваивает вероятность нуль-гипотезе. Понимание истинного среднего также проверяется в утверждении 6 (истинное среднее не изменяется от эксперимента к эксперименту), к тому же, ошибочно указано, что границы доверительного интервала не будут изменяться. Наиболее противоречивыми являются утверждения 4 и 5 — «С 95% вероятностью/Мы можем быть на 95% уверены в том, что истинное среднее лежит между 0.1 и 0.4». Авторы исследования, и часть читателей вместе с ними, принимает консервативную позицию, утверждая, что мы не можем говорить о вероятности попадания истинного среднего в конкретный доверительный интервал, поскольку это событие не повторяется, а значит, в рамках частотной парадигмы, не имеет вероятности. По их мнению, утверждение «в 95% случаев доверительный интервал содержит истинное среднее» не эквивалентно утверждению «у истинного среднего есть 95% вероятности оказаться внутри данного конкретного доверительного интервала», ведь во втором случае мы подразумеваем, что истинное среднее может принимать различные значения. Эту позицию также поддерживает часть учебников статистики. Другой лагерь, вооружившись своими учебниками, резонно утверждает, что формально это разделение существует, но с практической точки зрения смысла не имееет, и для простоты вещей вполне можно говорить о вероятности попадания среднего в конкретный доверительный интервал. В ответ, конечно же, звучат полушутливые обвинения в расшатывании столпов и подпольном байесизме. Дискуссии на эту тему — весьма любопытное чтение и еще более любопытное упражнение, так что мы будем рады высказанным мнениям и комментариям читателей.

Но вернемся к голландским психологам. По замыслу авторов исследования, правильных утверждений в списке нет, и несмотря на дискуссии вокруг формулировок, результаты остаются интересными. В большинстве, и студенты-психологи, и их преподаватели, независимо от субъективного уровня владения статистикой, были готовы согласиться с неправильной интерпретацией доверительных интервалов. Значит, замена p-значений на доверительные интервалы при описании результатов исследований мало что изменит с точки зрения ясности интерпретаций этих цифр. Более того, тот факт, что мнение профессионального сообщества по этому вопросу разделилось, лишь подчеркивает сделанный вывод. Что ж, война вокруг «наиболее правильного» способа описания психологических результатов началась не вчера, и закончится еще не скоро.

Ссылки на тему (в хронологическом порядке):

Статья: http://www.ejwagenmakers.com/inpress/HoekstraEtAlPBR.pdf

Пост в блоге Эндрю Гельмана и длинная дискуссия: http://andrewgelman.com/2014/03/15/problematic-interpretations-confidence-intervals/

Две темы на CrossValidated:

stats.stackexchange.com/questions/95 016/why-do-these-statements-not-follow-logically-from-a-95-ci-for-the-mean

stats.stackexchange.com/questions/26 450/why-does-a-95-ci-not-imply-a-95-chance-of-containing-the-mean

Твиттер-дискуссия: twitter.com/Psych_Writer/status/5 332 041 582 588 80512

Пост Алекса Этца: http://nicebrain.wordpress.com/2014/11/16/can-confidence-intervals-save-psychology-part-1/

Ответ Райана Шермана: http://rynesherman.com/blog/misinterpreting-confidence-intervals/

Чем определяется влияние генов на успешную сдачу экзаменов?

Неплохой способ занять себя в субботу за кофе — почитать интересную статью. Например, статью «The high heritability of educational achievement reflects many genetically influenced traits, not just intelligence», опубликованную 6 октября в журнале Proceedings of the National Academy of Sciences, PNAS. В работе команды исследователей из разных стран анализировался вклад различных факторов в наследуемость результатов стандартизированного тестирования в английских школах (General Certificate of Secondary Education, GCSE).

Предыдущее исследование с помощью близнецового метода показало, что показатели GCSE действительно частично определяются генетическими факторами — у монозиготных близнецов корреляции средних оценок GCSE составляют 0.88, у дизиготных одного пола — 0.62. По одному из принятых вариатов расчета, можно оценить вклад наследуемости в корреляцию признаков как 2*(0.88−0.62) = 0.52. Но чем именно определяется этот вклад — неизвестно.

Почему это важно? Представьте, что исследователи обнаруживают, что показатели по ЕГЭ по математике на 80% определяются вкладом генов. Это может значить, что наследуются генетические различия по способности к решению математических задач, может значить, что наследуется стрессоустойчивость, а может значить, что влияет устойчивость к разного рода заболеваниям, которая определяет, как часто ученик пропускает занятия, что в свою очередь влияет на уровень его подготовки.

Замечу на полях, что интуивные высказывания типа GCSE на 52% определяется генами — неправильны, речь идет о вкладе наследуемости в корреляцию. И когда на Элементах пишут фразы типа «К примеру, наследуемость роста составляет 76%, а наследуемость цвета глаз — почти 100%. Таким образом, цвет глаз зависит почти исключительно от генов, а вот на рост влияют также и факторы внешней среды (хотя их влияние в этом случае слабее, чем влияние генов)» это журналистская неточность (может цвет глаз и зависит почти исключительно от генов, но показатель наследуемости сам по себе об этом ничего не говорит).

Так вот задачей нового исследования была оценка вклада 9 групп показателей в наследуемость GCSE: интеллекта, само-эффективности, школьного и домашнего окружения, здоровью, поведения в школе и дома, «личности», и так далее. Основной результат — на картинке ниже:

Вклад групп показателей в наследуемость GCSE. Красный — вклад генетических факторов, светло-синий — общей среды, темно-синий — все остальное. Картинка из статьи: www.pnas.org/content/111/42/15 273/F2.large.jpg
Результаты достаточно интересные, хотя и предсказуемые — не только общие показатели интелекта (были включены матрицы Равена и тест на вербальный интеллект), но и практически все остальное коррелирует с оценками GCSE. Однако если внимательно просмотреть статью (в такого рода исследованиях очень часто все самое интересное — в приложениях), то окажется, что как и во многих других корреляционных исследованиях оценки по 9 группам показателей коррелируют между собой. И эта внутренняя корреляция исследователями не учитывалась, а значит непонятно, какова вероятность того, что полученные данные по корреляции, например, «личности» с GCSE объясняются корреляцией «личности» с интеллектом.

Кроме того, тем, кто интересуется близнецовым методом и вкладом генетических факторов в разного рода показатели «социальной успешности», к которым во многом относится и GCSE, важно помнить про стандартную критику: предположение о том, что для монозиготных близнецов вклад социальных факторов (семьи, окружения, и т. п.) равен вкладу социальных факторов для дизиготных близнецов сомнительно. Например, поскольку монозиготные близнецы физически более схожи, другие люди могут относится к ним более одинаково. Подробнее про такого рода влияния можно почитать, например в работе «Rethinking Twins and Environments: Possible Social Sources for Assumed Genetic Influences in Twin Research».

Хороших выходных!

Ссылки:

  1. Krapohl et al. The high heritability of educational achievement reflects many genetically influenced traits, not just intelligence PNAS 2014 111 (42) 15 273−15 278; published ahead of print October 6, 2014, doi:10.1073/pnas.1 408 777 111. URL: http://www.pnas.org/content/111/42/15 273.abstract
  2. Shakeshaft NG, Trzaskowski M, McMillan A, Rimfeld K, Krapohl E, et al. (2013) Strong Genetic Influence on a UK Nationwide Test of Educational Achievement at the End of Compulsory Education at Age 16. PLoS ONE 8(12): e80341. doi:10.1371/journal.pone.80 341. URL: http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.80 341
  3. Статья про это исследование на Элементах: http://elementy.ru/news/432 343
  4. Horwitz et al. Rethinking Twins and Environments: Possible Social Sources for Assumed Genetic Influences in Twin Research. Journal of Health and Social Behavior, Vol. 44, No. 2 (Jun., 2003), pp. 111−129. URL: http://www.jstor.org/stable/1 519 802
  5. За ссылку на статью спасибо Дайджесту психологических исследований: http://vk.com/wall-41 240 468_1164

Nature открывает доступ к статьям Нобелевских лауреатов

В честь Нобелевской премии по медицине и физиологии, полученной Джоном О’Кифом, Мэй-Бритт Мозер и Эдвардом Мозером, Nature на месяц открывает доступ к основным их статьям о позиционной системе мозга.

Открытия Нобелевских лауреатов значительно повлияли на развитие нейронауки и на понимание связи работы нейронов с поведением. Фактически, благодаря им мы получили надежду познать вычислительные принципы, лежащие в основе функционирования мозга. Эту литературу хотя бы в общих чертах нужно знать обязательно.

Productive stupidity

Науку в качестве профессии часто выбирают люди, которым было легко и интересно учиться в школе и в университете, которые привыкли каждый день узнавать новое и получают от этого колоссальное удовольствие. Однако, делая этот выбор, лишь немногие отчетливо представляют, что одним из побочных эффектов нахождения на переднем крае науки является ежедневное осознание собственной глупости. Биолог Мартин Шварц написал об этом ощущении замечательное эссе, опубликованное в Jounal of Cell Science.

«В науке сталкиваешься лицом к лицу с собственной „абсолютной глупостью“. Эта глупость — экзистенциальный факт, неотъемлемая часть попыток проникнуть в неизведанное. <…> Одним из прекраснейших качеств науки является то, что она позволяет делать неуклюжие шаги, и нам вполне можно время от времени ошибаться, если на этих ошибках мы учимся. Безусловно, для студентов, привыкших правильно отвечать на вопросы, это сложно. Безусловно, разумная уверенность и эмоциональная устойчивость помогают с этим справиться, но мне кажется, что образование в сфере науки могло бы делать больше для облегчения этого большого перехода: от познания того, что когда-то открыли другие люди, к своим собственным открытиям. Чем проще нам принять собственную глупость, тем глубже мы погружаемся в неизвестное и тем больше вероятность совершить большие открытия.»

По мнению Мартина, умение быть «продуктивно глупым» -- качество, которое должны воспитывать в себе студенты, планирующие академическую карьеру. Не бойтесь быть глупыми, учитесь извлекать из этого пользу.

Телепатия: понять или построить

Людей всегда интриговала и манила возможность передавать мысли через расстояние. Может быть, в силу тенденции видеть систему в совпадениях, может быть — в силу магического ореола вокруг работы человеческого разума, но попытки доказать существование телепатии начались очень давно, и не думают прекращаться. А в последнее время к ним добавились и попытки телепатию обеспечить искусственно.

Само слово «телепатия» было введено в обращение в 1882 году известным на тот момент ученым Фредериком Майерсом в им же созданном журнале Proceedings of Psychical Research. К слову, общество живет до сих пор, публикует свой регулярный peer-reviewed журнал, и уже целиком посвящено парапсихологии. А сам Майерс известен в том числе тем, что после своей смерти через медиума обратился к соратникам и сообщил, что собирается и по ту сторону жизни основать сообщество и продолжить заниматься исследованием психики и экстрасенсорики.

В современной науке дело Майерса ничуть не забыто. Есть Руперт Шелдрейк, автор исследования «телефонной телепатии», чье выступление на TEDx вызвало бурные споры и было в итоге удалено с сайта TED, но интересующиеся могут посмотреть его на YouTube. Вне темы телепатии, но тоже про парапсихическое -- скандально известное исследование Дэрила Бема, в котором он «развернул» известные психологические эксперименты, и получил эффекты в зависимости от того, какой стимул БУДЕТ показан испытуемым. Есть и работы Саймона Торпа, пытающегося показать парапсихические феномены на уровне восприятия, и настаивающего на том, что все исследователи восприятия должны контролировать, не являются ли их испытуемые в некотором роде экстрасенсами. С завидной регулярностью появляются разного качества статьи о научно подтвержденной телепатии, которые иногда встречают резкую критику, а иногда просто игнорируются сообществом.

Все эти ученые настаивают на том, что парапсихическое, в том числе телепатию, можно изучать экспериментально, что эти находки реплицируемы, и что академической науке стоит обратить на это внимание — но пока у них не очень много сторонников. Почему? Во-первых, да, наука — система консервативная, медленная и жестокая, и иногда важные открытия действительно признаются таковыми после смерти авторов. К этому нужно быть морально готовым=). Во-вторых, мало того, что ни одна находка еще не была на самом деле реплицирована, во многих исследованиях в этой области есть грубые недостатки.

Но пока (пара)психологи и сочувствующие им нейроученые пытаются экспериментально продемонстрировать телепатию, другие исследователи решили не ждать чуда, и организовать телепатию при помощи имеющихся под рукой инструментов. На самом деле, идея очень проста. Для передачи сообщений на расстоянии нужен некий способ сбора и кодирования сообщения на стороне отправителя, и способ его доставки и декодирования на стороне получателя. В нейронаучной лаборатории на роль системы для этих манипуляций напрашивается в первую очередь электроэнцефалография (ЭЭГ) и транскраниальная магнитная стимуляция (ТМС). ЭЭГ — потому что это дешевый и быстрый способ сбора сигнала, и благодаря исследованиям BCI (интерфейсов мозг—компьютер) уже разработано много алгоритмов работы с ним, ТМС — потому что это неинвазивный способ стимуляции мозга, имеющий стабильные эффекты при применении на определенных зонах коры. Таких «железных» и повсеместно используемых эффектов у ТМС два — при воздействии на моторную кору вызываются непроизвольные движения соответствующих частей тела, а при воздействии на зрительную кору появляются фосфены (фосфены -- это то, что можно увидеть, если аккуратно нажать на свой закрытый глаз). Соответственно, если достаточно точно распознать определенный моторный сигнал на ЭЭГ, его можно восстановить на другом конце при помощи ТМС. Именно это и сделали в прошлом году исследователи из университета Вашингтона. Они придумали видеоигру, в которую получатель и отправитель должны были играть вдвоем, и целью игры было своевременное нажатие на кнопку. При этом собственно экран с происходящим видел исключительно отправитель, а на кнопку мог нажать только получатель, и находились они в разных комнатах. Когда отправитель принимал решение нажать на кнопку, алгоритм анализа ЭЭГ-данных фиксировал определенные изменения в активности мозга и активировал ТМС в другой комнате. В этот моментТМС стимулировал моторную кору получателя, в результьтате чего его палец непроизвольно опускался на клавиатуру. Подробный отчет о пилотном исследовании можно прочесть здесь, а посмотреть видео — здесь. Остроумная идея фактически послужила proof of principle — передача информации на расстоянии с помощью нейро-методов возможна. Это пилотное исследование не было даже опубликовано, поскольку по-честному пока не привнесло ничего нового и даже не было тестировано на наивных испытуемых.

А буквально месяц назад в Plos One была опубликована еще одна, очень близкая работа, явно переоцененная научно-популярными и прочими медиа. В ней с помощью похожей, но усложненной технологии из Индии во Францию передали два слова — «hola» и «ciao». Звучит шикарно, но как это было сделано? Метод заключался в следующем. Выбранные для передачи слова с помощью несложного алгоритма зашифровывались в последовательность единиц и нулей, на 4 буквы 20 бит информации. Эту последовательность предъявляли на экране отправителю — если он видел один знак, ему нужно было мысленно пошевелить ногой, а если другой — так же мысленно пошевелить рукой. Важно отметить, что этот отправитель был опытным пользователем подобных интерфейсов, иначе задача стала бы еще сложнее. После того, как единица или ноль зашифрованы, система отправляла электронную почту с этим знаком из Индии во Францию, на сторону получателя, где ее принимала роботизированная установка ТМС c получателем наготове. На принимающей стороне заранее выбирались такие параметры стимуляции, чтобы при одной постановке оборудования у данного конкретного испытуемого появлялись фосфены, а при слегка измененной фосфенов не было, и испытуемый не мог почувствовать разницу в положении оборудования — он мог только увидеть или не увидеть фосфен. Робот-ТМС распаковывал электронную почту из Индии и послушно стимулировал зрительную кору получателя в соответствии с полученным сообщением. Единица — фосфен, ноль — нет фосфена. Ориентируясь по фосфенам, получатель восстанавливал последовательность единиц и нулей. Переданное для надежности 7 раз 4хбуквенное слово затем дешифровывалось. Вся операция шла со скоростью 2 бита/минута. Hola. Ciao.

Этот навороченный вариант азбуки Морзе вызывает, с одной стороны, восхищение, а с другой — недоумение. Да, наверное, это шаг в сторону светлого будущего, когда я смогу писать посты по дороге на работу, надиктовывая их мысленно в свой гугл-гласс, а коллеги в других странах смогут таким же образом мой текст редактировать. Для того чтобы это когда-то стало реальностью, нужны люди, которые над этим будут работать, какими бы ограниченными не были сейчас результаты их работы. С другой стороны, если посмотреть на это все реалистично, очень вряд ли в будущей системе передачи мыслей будет участвовать похожая технология. Это дорого, долго, и ненадежно. Сама эта иллюстрация с «0,1,1,0 --> internet» говорит о многом. Но есть и более тонкий момент -- лично я не вижу принципиальной разницы между подачей сообщения непосредственно в зрительную кору или на сетчатку — это звенья одной цепи. В общем и целом, пока что результат работы над прямым интерфейсом «мозг—мозг» это забавный факт, но точно не начало новой эры.

Зато история про телепатию -- хороший пример того, что люди сущие дети. Если мы чего-то очень хотим, мы это либо найдем, либо построим. Во всяком случае, будем очень стараться.

Байесовский критерий оценки успешности репликаций

Всем интересующимся новыми развивающимися практиками в психологии, и в первую очередь репликационным движением: в JEP вышла замечательная статья «Bayesian tests to quantify the result of a replication attempt».

Авторы (Josine Verhagen, Eric-Jan Wagenmakers) предлагают довольно элегантный метод определения того, успешна ли попытка репликации, основанный на байесовской логике и рассматривающий в качестве нуль-гипотезы отсуствие эффекта, а в качестве альтернативной гипотезы — апостериорное распределение на размер эффекта, полученный в исходном эксперименте. Разумеется, новый метод гораздо более корректен, чем простое сравнение значений p (хотя бы потому что обходит проблему низкой статистической мощности исходного исследования). Более того, у этого метода есть преимущества по сравнению с предыдущими психологическими адаптациями байесовского метода проверки гипотез, при которых альтернативная гипотеза формулировалась, фактически, произвольно.

Статья: http://psycnet.apa.org/journals/xge/143/4/1457/

Препринт в pdf: Verhagen_Wagenmakers_2014_Bayesian_Replication.

Фото: представители издательства Springer на VSS-2014 (courtesy of Ch. Chabris)

04082014

Журнальный клуб 3 августа

Две трети лета пережито, а Журнальный клуб TCTS продолжает встречаться!

В это воскресенье читаем статью «The Prepared Emotional Reflex: Intentional Preparation of Automatic Approach and Avoidance Tendencies as a Means To Regulate Emotional Responding» (Eder, Rothermund, 2010). Как всегда, желающие подключиться да напишут на ">

01082014

Текст статьи: JC_Ederetal

Временный бесплатный доступ к «Year in Cognitive Neuroscience» от Wiley

Wiley открыл бесплатный доступ к свежему выпуску журнала «Year in Cognitive Neuroscience» (Annals of the New York Academy of Sciences) на ближайшие 28 дней.

Это, конечно, не совсем Open Science, но все равно приятно.

http://onlinelibrary.wiley.com/doi/10.1111/nyas.2014.1316.issue-1/issuetoc

Журнальный клуб TCTS — встречаться ли летом?

Друзья, у нас возник вопрос по поводу Журнального Клуба TCTS.

С одной стороны, лето — лучшее время чтобы читать, в том числе, конечно, интересные статьи. С другой — клуб это затея социальная, а летом люди любят разъезжаться. Поэтому о летнем расписании мы решили спросить у вас, настоящие и будущие участники Журнального Клуба.

Ну и просто напоминаем: у нас есть Журнальный клуб онлайн. Пишите на чтобы присоединиться!

pic: the Guardian

«You should be just terrified»

«Не-статистикам, опасающимся научных цифр в литературе, я могу сказать следующее: «Цифр, которые вы слышите, не нужно бояться. Иногда от них стоит приходить в ужас».

(«To non-statisticians who are afraid of scientific numbers in the literature, I can tell you that you should not be afraid of the numbers you hear. Sometimes, you should just be terrified»)

Речь Джона Иоаннидиса на факультете статистики в Университете Калифорнии в Беркли — «Ошибки (мои собственные) и устрашающая неопределенность чисел».

Полный текст речи опубликован в European Journal of Clinical Investigation: http://www.ncbi.nlm.nih.gov/pubmed/24 785 138?dopt=Abstract

pic: http://xkcd.com/605/