Блог | Страница 34 из 51 | THINK COGNITIVE, THINK SCIENCE

1000

Дорогие #горячиеюныекогнитивные! Нас уже 1000, и это прекрасно! Большое спасибо всем тем, кто участвует в жизни нашего проекта самыми разными способами: присылает интересные ссылки, рассказывает о TCTS другим, делает репосты, пишет комментарии или просто наблюдает со стороны. Ваша поддержка говорит нам, что в происходящем есть некоторый смысл =)

Пара слов о пропущенных значениях

Как бы мы ни собирали данные, нередко случается так, что некоторые значения пропущены. Особенно это характерно для различных опросных методик или исследований, растянутых на длительное время. В такие моменты перед аналитиком встает вопрос, по-гамлетовски фундаментальный — «резать или не резать». То есть, что делать с пропущенными значениями — если удалять, то как, если не удалять — каким образом замещать пропуски? Как, в конце концов, будет правильным поступить?
Само собой, сначала надо посмотреть, а насколько случайны пропуски в данных. Для этого могут подойти такие инструменты, как паттерны пропусков, частотный анализ и прочее. В конце концов, если в опросах вариант «не знаю» может интерпретироваться как отказ от коммуникации, то и пропуск может быть маркером каких-либо процессов.

В том случае, если пропуски действительно случайны, то самый простой вариант — это удаление наблюдений с пропущенными значениями. Удаление может быть как попарным (pairwise), так и построчным (listwise). Попарное удаление — когда, например, при корреляционном анализе не учитывается значение, парное пропущенному. Построчное удаление — когда из анализа исключается вся строка, в которой есть пропущенные значения (в случае корреляционного анализа по двум переменным идентично попарному удалению).

В тех ситуациях, когда хочется сохранить массив данных, и каким-то образом заполнить пропущенные значения (импутировать), то есть множество методов, разных по идеологии и по результатам. Простейшие из них:
Во-первых, можно заполнить пропущенные значения средним или медианным значением по столбцу. SPSS также предлагает среднее/медиану по N ближайших значений.
Во-вторых, можно пойти по методу «как у соседей» — объекты имеют одинаковые значения, если похожи по ряду прочих характеристик, отраженных в датасете. В конце концов, если у Пети и у Васи отличные оценки в течение года, и отличная оценка за годовую контрольную, то логично предположить, что и отличник-Коля получил отличную оценку за контрольную.
Третий вариант заполнения пропущенных — с использованием линейной регрессии. Пропущенные значения на первом этапе заполняются средними по переменной (метод Бартлетта) или случайным из диапазона значений переменной (метод ресемплинга), переменная с пропуском принимается как зависимая. Полученными предсказанными значениями и замещаются пропуски.
В SPSS ко всему прочему реализован еще один алгоритм — EM-алгоритм. Основная идея этого алгоритма — изменение с помощью регрессионных методов пропущенных значений и вычисление ковариационной матрицы на каждой итерации, до тех пор, пока изменения в матрице не будут минимальны.

Построчное удаление, на мой взгляд, наиболее корректный вариант решения пропущенных значений. Но временами такое ограничение оказывается чрезмерно строгим — так, мне доводилось работать с датасетом, в котором было 250 наблюдений и 40 переменных, однако наблюдений без пропусков — всего три. Естественно, никакой содержательный анализ на трех наблюдениях невозможен. Однако и импутация в данном случае — решение спорное.

Конечно, импутация пропущенных значений в определенных ситуациях жизненно необходима, однако стоит все же отдавать себе отчет в том, что при большом количестве пропусков (я бы сказал, более 5−10% наблюдений по переменной) анализ данных с импутированными пропусками становится похож на самоподдерживающийся фантазм. В конце концов, использование средних вместо пропусков грозит нивелировать различия между группами, а содержательно анализировать данные линейной регрессии, в которых часть пропусков была заполнена по результатам того же регрессионного анализа — просто бессмысленно.

Хотя, конечно же, самым эффективным решением будет <s>пить чай вместо</s> собирать изначально полные данные — тиранить испытуемых/респондентов, выверять процедуру и код программы сбора данных etc.

Филипп Управителев

Умный глаз

Интересующимся зрением советуем почитать прекрасную статью «Eye smarter than scientists believed: neural computations in circuits of the retina». Авторы — Tim Gollisch и Markus Meister — рассказывают о том, что сетчатка глаза сама по себе оказывается сложнейшей вычислительной системой, отслеживающей и экстраполирующей передвижения объектов (объектов!), предсказывающей сигналы из внешней среды, адаптирующейся к сложным паттернам, и т. д. И что самое страшное — нейроученые даже близко пока не подошли к ее полному пониманию. Статья читается как детектив, вот вам завязка:

Многие исследователи зрения могли бы сказать, что основная функция сетчатки это передача визуальной информации по оптическому нерву в мозгу, где кора может заняться ее обработкой с использованием множества сложных методов. Они могут признать, что важной функцией сетчатки является световая адаптация, похожая на автоматическое ограничение поступающей стимуляции. Если поразбираться еще немного, сетчатка также осуществляет какую-то часть латерального подавления, создаваемого за счет противодействия центральной части рецептивного поля и его периферии, для того, чтобы сделать изображение более четким. Эта идея сетчатки как простого пространственно-временного фильтра поддерживается практически всеми учебниками и обзорными статьями. И она принимается практически всеми нейроучеными, исследующими другие части зрительной системы — т. е. те, где предположительно и происходит вся сложная обработка. Однако тут возникает парадокс: для простых задач, типа световой адаптации или повышения четкости изображения, нет нужды в 50 типах нейронов с фантастически сложной системой связей. Уже сетчатка мечехвостов прекрасно решает эти проблему внутри слоя фоторецепторов. Что делают в сетчатке позвоночных оставшиеся 49 типов клеток?

Скачать статью можно тут: http://hebb.mit.edu/courses/connectomics/Gollisch%20Meister%20eye%20smarter%20scientists%20believed%20neural%20computations%20circuits%20retina%2010.pdf.

Картинка из статьи показывает связи между уровнями, полученные с помощью подкрашивания двух белков — Calbindin и Calretinin. Обратите внимание, насколько сложные, точные, и многоуровневые связи присутствуют на 20 микрометрах сетчатки.

TCTS AWARDS 2014.2

Дорогие друзья!

Мы долго шли к этому и сегодня с радостью объявляем второй заход наших основных конкурсов — NEISSER, KAHNEMAN и NERD, с дедлайном до 28 декабря. На этот раз мы почти не изменили правила конкурсов, но внесли одно важное дополнение — в конкурсах могут принимать участие студенты из трех городов: Москвы, Санкт-Петербурга и Ярославля — и пусть победит сильнейший:). Правда, в знак нашего особенного отношения к СПбГУ, мы предусмотрели возможность дополнительно наградить участников из Санкт-Петербурга. Как всегда, у нас компетентнейшие эксперты, настоящие и весьма ощутимые призы, и полезные для вашего научного развития задачи.

Условия конкурсов можно найти на главной странице нашего сайта — tcts.cogitoergo.ru, а вопросы задать, написав нам на
Удачи!

P. S. Мы будем очень благодарны за распространение этого сообщения и передачу информации потенциально заинтересованным студентам

Голова профессора Бамблдорфа

Часто считается, что доверительные интервалы интерпретируются проще и корректнее, чем результаты так называемых тестов проверки нуль-гипотез (NHST). Так ли это?

Голландские ученые опубликовали результаты опроса студентов и преподавателей факультетов психологии на эту тему, чем вызвали ряд постов и дискуссий о смысле доверительных интервалов и потенциале использования этой величины для описания научных результатов. Итак, респондентам задавался следующий вопрос:

Профессор Бамблдорф провел эксперимент, проанализировал данные и сказал: «95%-ный доверительный интервал для среднего лежит в интервале от 0.1 до 0.4». Какие из приведенных ниже утверждений являются правильными (т.е. логически следуют из результата, полученного профессором), а какие -- нет? Правильными могут быть все утверждения, некоторые, одно, а может не быть вообще.

Вероятность того, что истинное среднее больше 0 — как минимум 95%
Вероятность того, что истинное среднее равно нулю, меньше 5%
«Нуль-гипотеза» о том, что истинное среднее равно 0, скорее всего неверна
Вероятность того, что истинное среднее находится в интервале от 0.1 до 0.4 — 95%
Мы можем быть на 95% уверены в том, что истинное среднее лежит между 0.1 и 0.4
Если бы мы повторили эксперимент много-много раз, в 95% случаях истинное среднее находилось бы в интервале от 0.1 до 0.4

Сколько утверждений кажутся вам правильными?

Capture

В среднем, студенты и преподаватели психологии считают правильными 3−4 вывода из 6. А на самом деле…

Поговорим о доверительном интервале. Доверительный интервал — это интервал, который строится вокруг приблизительного значения параметра. Этот интервал сам по себе ничего не говорит о параметре — он описывает процедуру, которая привела к его получению (грубо говоря, действия исследователя по сбору и обработке данных). В результате многократного проведения этой процедуры, будут получены интервалы, внутри которых в (например) 95% случаев находится истинное среднее. Помимо этого, важно помнить, что в рамках частотной парадигмы истинное среднее (то есть, среднее значение измеряемой величины у всей популяции) — величина постоянная, и у этой величины, поскольку она не изменяется, нет и не может быть вероятностного распределения. Таким образом, правильная интерпретация утверждения профессора Бамблдорфа заключается в том, что, если провести эксперимент 100 раз и получить 100 выборок, в 95 из этих выборок истинное среднее будет находиться внутри 95%-ного доверительного интервала (при этом в каждой выборке этот интервал будет свой).

Исходя из этого, утверждения 1 и 2 из опросника неверны, поскольку оперируют понятием «вероятность того, что истинное среднее…», которое предполагает, что у значения истинного среднего есть вероятностное распределение. Схожим образом, утверждение 3 некорректно присваивает вероятность нуль-гипотезе. Понимание истинного среднего также проверяется в утверждении 6 (истинное среднее не изменяется от эксперимента к эксперименту), к тому же, ошибочно указано, что границы доверительного интервала не будут изменяться. Наиболее противоречивыми являются утверждения 4 и 5 — «С 95% вероятностью/Мы можем быть на 95% уверены в том, что истинное среднее лежит между 0.1 и 0.4». Авторы исследования, и часть читателей вместе с ними, принимает консервативную позицию, утверждая, что мы не можем говорить о вероятности попадания истинного среднего в конкретный доверительный интервал, поскольку это событие не повторяется, а значит, в рамках частотной парадигмы, не имеет вероятности. По их мнению, утверждение «в 95% случаев доверительный интервал содержит истинное среднее» не эквивалентно утверждению «у истинного среднего есть 95% вероятности оказаться внутри данного конкретного доверительного интервала», ведь во втором случае мы подразумеваем, что истинное среднее может принимать различные значения. Эту позицию также поддерживает часть учебников статистики. Другой лагерь, вооружившись своими учебниками, резонно утверждает, что формально это разделение существует, но с практической точки зрения смысла не имееет, и для простоты вещей вполне можно говорить о вероятности попадания среднего в конкретный доверительный интервал. В ответ, конечно же, звучат полушутливые обвинения в расшатывании столпов и подпольном байесизме. Дискуссии на эту тему — весьма любопытное чтение и еще более любопытное упражнение, так что мы будем рады высказанным мнениям и комментариям читателей.

Но вернемся к голландским психологам. По замыслу авторов исследования, правильных утверждений в списке нет, и несмотря на дискуссии вокруг формулировок, результаты остаются интересными. В большинстве, и студенты-психологи, и их преподаватели, независимо от субъективного уровня владения статистикой, были готовы согласиться с неправильной интерпретацией доверительных интервалов. Значит, замена p-значений на доверительные интервалы при описании результатов исследований мало что изменит с точки зрения ясности интерпретаций этих цифр. Более того, тот факт, что мнение профессионального сообщества по этому вопросу разделилось, лишь подчеркивает сделанный вывод. Что ж, война вокруг «наиболее правильного» способа описания психологических результатов началась не вчера, и закончится еще не скоро.

Ссылки на тему (в хронологическом порядке):

Статья: http://www.ejwagenmakers.com/inpress/HoekstraEtAlPBR.pdf

Пост в блоге Эндрю Гельмана и длинная дискуссия: http://andrewgelman.com/2014/03/15/problematic-interpretations-confidence-intervals/

Две темы на CrossValidated:

stats.stackexchange.com/questions/95 016/why-do-these-statements-not-follow-logically-from-a-95-ci-for-the-mean

stats.stackexchange.com/questions/26 450/why-does-a-95-ci-not-imply-a-95-chance-of-containing-the-mean

Твиттер-дискуссия: twitter.com/Psych_Writer/status/5 332 041 582 588 80512

Пост Алекса Этца: http://nicebrain.wordpress.com/2014/11/16/can-confidence-intervals-save-psychology-part-1/

Ответ Райана Шермана: http://rynesherman.com/blog/misinterpreting-confidence-intervals/

Зарядка для хвоста

Современные люди не просто хотят дольше жить, они хотят дольше сохранять ясную память, внимание и способность учиться. Интерес к продлению когнитивной молодости вызвал всплеск исследований «тренировки мозга», например, с помощью «специальных» компьютерных игр (таких как Lumosity).

В связи с повальным распространением «мозготренингов» и отсутствием возможности как-то контролировать их продажу и распространение (в конце концов, это всего лишь игра), довольно многочисленная группа нейроученых из разных стран и исследовательских центров высказала общее мнение на тему эффективности этих программ. Ученые утверждают, что научного доказательства того, что «тренировки мозга» улучшают общие когнитивные способности или продлевают когнитивную сохранность, не существует, и вряд ли очень скоро появится. На данный момент известно лишь то, что когнитивное здоровье в пожилом возрасте связано с длительным поддержанием здорового и активного образа жизни.

#горячимюнымкогнитивным из этого можно сделать два вывода. Первый — не тратьте время на тренировки мозга, и не давайте этого делать другим (кстати, обычные компьютерные игры иногда бывают не менее эффективны для улучшения когнитивных показателей). Второй — «игровой» тип интервенций это молодая и бурно развивающаяся область, как в клинической психологии, так и с целью улучшить жизнь здоровых людей. Но подходить к этому вопросу нужно с научной критичностью, а не с бизнес-хваткой.

Студенческие стипендии для поездки на ECVP

В мире есть две главных конференции, посвященные зрению, где собираются когнитивные психологи: ECVP (European Conference on Visual Perception) и VSS (Vision Science Society). Первая проводится в Европе, вторая — в Америке. Если вы занимаетесь чем-то хотя бы отдаленно связанным со зрительным восприятием (включая внимание, сознание, и т. п.), ездить на эти конференции крайне полезно. Если вы студент, то это еще и не так дорого.

Помимо университетских грантов на поездки, вы можете также попробовать получить грант на поездку от организаторов конференции. В этом году ECVP проводится в Ливерпуле (Англия), и организаторы объявили целых две стипендии (http://ecvp.org/2015/awards.html): первая из них, на которую вы можете подать уже через неделю, позволяет не платить оргвзнос. Чтобы ее получить, вам надо послать организаторам () письмо, содержащее подтверждение того, что вы студент (например, письмо на университетском бланке от вашего руководителя), и мотивационное письмо, объясняющее, почему вы считаете, что ваша заявка должна быть одобрена. Подать эту заявку можно с 15го ноября до 1го марта, но лучше не затягивать, чтобы получить одобрение до даты регистрации. Вторая стипендия будет объявлена позже, участвовать можно в обеих.

Вообще, общий принцип обычно такой — чем раньше вы озаботитесь тем, куда вы хотите поехать, тем проще и дешевле вам это будет сделать. Это относится не только к оргвзносам и грантам, но и к более прозаическим вещам, таким как авиаперелеты и отели. Так что если вы еще не думали о том, куда вы хотите поехать летом — самое время подумать.

Выживание в науке

Хороший совет от Нобелевского лауреата: если вам не нравится заниматься вашей темой исследований — подойдите к научному руководителю и попросите его дать вам другую задачу. Если он не может дать вам другую задачу — попробуйте найти другого руководителя. Если же вы вдруг обнаружите, что вам не нравится заниматься наукой — не занимайтесь ей. И это относится не только к тем, кто сейчас в аспирантуре, это про науку вообще.

ПС. Что, конечно, не отменяет того факта, что в любом занятии есть более приятные и менее приятные стороны, здесь вопрос их соотношения.

Oliver Smithies, geneticist, Nobel laureate-2007. At Lindau Nobel Laureates Meeting-2014:

«When doing your PhD — no matter what you do to get a PhD, but you have to enjoy it, because you just learn to do good science. If you don’t enjoy it, go to your adviser and say „I am not enjoying what I’m doing“. I’m serious. And then, if your adviser can’t give you another problem, change your adviser. The secret of scientific life is do something that you enjoy. And if you find you don’t like science — go and play the guitar, or go and write a book or go climbing».

http://www.mediatheque.lindau-nobel.org/videos/33 668/.

Oliver Smithies, geneticist, Nobel laureate-2007

Спасибо за ссылку Янине Ледовой: vk.com/wall762881_10 280

Чем определяется влияние генов на успешную сдачу экзаменов?

Неплохой способ занять себя в субботу за кофе — почитать интересную статью. Например, статью «The high heritability of educational achievement reflects many genetically influenced traits, not just intelligence», опубликованную 6 октября в журнале Proceedings of the National Academy of Sciences, PNAS. В работе команды исследователей из разных стран анализировался вклад различных факторов в наследуемость результатов стандартизированного тестирования в английских школах (General Certificate of Secondary Education, GCSE).

Предыдущее исследование с помощью близнецового метода показало, что показатели GCSE действительно частично определяются генетическими факторами — у монозиготных близнецов корреляции средних оценок GCSE составляют 0.88, у дизиготных одного пола — 0.62. По одному из принятых вариатов расчета, можно оценить вклад наследуемости в корреляцию признаков как 2*(0.88−0.62) = 0.52. Но чем именно определяется этот вклад — неизвестно.

Почему это важно? Представьте, что исследователи обнаруживают, что показатели по ЕГЭ по математике на 80% определяются вкладом генов. Это может значить, что наследуются генетические различия по способности к решению математических задач, может значить, что наследуется стрессоустойчивость, а может значить, что влияет устойчивость к разного рода заболеваниям, которая определяет, как часто ученик пропускает занятия, что в свою очередь влияет на уровень его подготовки.

Замечу на полях, что интуивные высказывания типа GCSE на 52% определяется генами — неправильны, речь идет о вкладе наследуемости в корреляцию. И когда на Элементах пишут фразы типа «К примеру, наследуемость роста составляет 76%, а наследуемость цвета глаз — почти 100%. Таким образом, цвет глаз зависит почти исключительно от генов, а вот на рост влияют также и факторы внешней среды (хотя их влияние в этом случае слабее, чем влияние генов)» это журналистская неточность (может цвет глаз и зависит почти исключительно от генов, но показатель наследуемости сам по себе об этом ничего не говорит).

Так вот задачей нового исследования была оценка вклада 9 групп показателей в наследуемость GCSE: интеллекта, само-эффективности, школьного и домашнего окружения, здоровью, поведения в школе и дома, «личности», и так далее. Основной результат — на картинке ниже:

Вклад групп показателей в наследуемость GCSE. Красный — вклад генетических факторов, светло-синий — общей среды, темно-синий — все остальное. Картинка из статьи: www.pnas.org/content/111/42/15 273/F2.large.jpg

Результаты достаточно интересные, хотя и предсказуемые — не только общие показатели интелекта (были включены матрицы Равена и тест на вербальный интеллект), но и практически все остальное коррелирует с оценками GCSE. Однако если внимательно просмотреть статью (в такого рода исследованиях очень часто все самое интересное — в приложениях), то окажется, что как и во многих других корреляционных исследованиях оценки по 9 группам показателей коррелируют между собой. И эта внутренняя корреляция исследователями не учитывалась, а значит непонятно, какова вероятность того, что полученные данные по корреляции, например, «личности» с GCSE объясняются корреляцией «личности» с интеллектом.

Кроме того, тем, кто интересуется близнецовым методом и вкладом генетических факторов в разного рода показатели «социальной успешности», к которым во многом относится и GCSE, важно помнить про стандартную критику: предположение о том, что для монозиготных близнецов вклад социальных факторов (семьи, окружения, и т. п.) равен вкладу социальных факторов для дизиготных близнецов сомнительно. Например, поскольку монозиготные близнецы физически более схожи, другие люди могут относится к ним более одинаково. Подробнее про такого рода влияния можно почитать, например в работе «Rethinking Twins and Environments: Possible Social Sources for Assumed Genetic Influences in Twin Research».

Хороших выходных!

Ссылки:

Krapohl et al. The high heritability of educational achievement reflects many genetically influenced traits, not just intelligence PNAS 2014 111 (42) 15 273−15 278; published ahead of print October 6, 2014, doi:10.1073/pnas.1 408 777 111. URL: http://www.pnas.org/content/111/42/15 273.abstract
Shakeshaft NG, Trzaskowski M, McMillan A, Rimfeld K, Krapohl E, et al. (2013) Strong Genetic Influence on a UK Nationwide Test of Educational Achievement at the End of Compulsory Education at Age 16. PLoS ONE 8(12): e80341. doi:10.1371/journal.pone.80 341. URL: http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.80 341
Статья про это исследование на Элементах: http://elementy.ru/news/432 343
Horwitz et al. Rethinking Twins and Environments: Possible Social Sources for Assumed Genetic Influences in Twin Research. Journal of Health and Social Behavior, Vol. 44, No. 2 (Jun., 2003), pp. 111−129. URL: http://www.jstor.org/stable/1 519 802
За ссылку на статью спасибо Дайджесту психологических исследований: http://vk.com/wall-41 240 468_1164

Online Workshop: Introduction to Power Analyses

Завтра, 24 октября, на платформе Centre for Open Science пройдет первая онлайн-мастерская по анализу статистической мощности.

Ребята будут рассказывать о том, зачем нужен анализ мощности, какие проблемы могут возникать у исследователей при оценке размера эффекта, а также покажут базовые способы расчета мощности в R и в G*Power. Это занятие базового уровня, на дальнейших встречах будут разбираться более сложные вопросы. Очень рекомендуем тем, кто хочет осваивать расчеты подобного рода, но не знает, с чего начать.

Для записи необходимо открыть календарь COS, выбрать интересующее время занятия 24 октября (внимание, GMT-5!) и перейти по ссылке, открывающейся в описании проекта. И да пребудет с вами мощность.