«Можете ли вы объяснить свое исследование 12-летнему ребенку?» — под этим девизом американская ассоциация исследований в области зрения и офтальмологии объявила мини-конкурс. Задача действительно интересная — объясните в одном — двух предложениях, чем вы занимаетесь, причем так, чтоб это было понятно 12-летнему. Описание должно быть на английском, но, как подчеркивают организаторы, идеальный английский не обязателен. Так что если ваши исследования как-то связаны со зрением (восприятием, вниманием, …) — дерзайте!
Автор: organisers
Обзор учебников по статистике и мат. методам анализа данных
Ниже перечислены те учебные материалы по мат. методам анализа данных, к которым я так или иначе обращаюсь. Это не самый полный список и даже может быть не самый лучший набор, особенно в части англоязычных материалов. Если вы знаете какой-нибудь интересный и адекватный учебник, который я обошел вниманием — пишите в комментариях.
Учебников по мат. методам много, и в каждой специальности они разные. Так, русскоязычные психологи используют обычно учебник А. Наследова (ранее — Е. Сидоренко). Социологи отдают предпочтение другим учебникам — «Измерение в социологии» Ю. Толстой и «Математическая обработка данных в социальных науках. Современные методы» Д. Крамера, медики — «Медико-биологическая статистика» С.Гланца. Все специальности, как правило, имеют свои традиции использования методов и описания результатов, иногда очень специфические или необычные — особенно в этом отношении преуспели медики и экономисты (экoнометристы).
Когда меня спрашивают, какой учебник читать, я обычно рекомендую начинать с учебника Наследова и потом переходить на англоязычные учебники. И, отдельным пунктом — не очень рекомендую учебник Сидоренко, ввиду его некоторой старости и акцента на ручных методах анализа. Не говоря уже о некоторых фактических ошибках, о которых как-то мне говорили коллеги. Учебник Наследова достаточно прост в понимании, содержит, как я уже ранее упоминал, примеры работы в SPSS
Англоязычные учебники, как правило, либо совсем простенькие (и я, честно говоря, их не знаю, не назову), либо, что чаще, затрагивают какую-то определенную группу методов. Психологи чаще всего пользуются многомерными методами, помимо примитивных методов проверки значимости нулевой гипотезы. В этой области вполне хороши учебники «Applied multivariate research» от Meyers, Gamst & Guarino. Естественно, хорош «Using Multivariate Statistics» от Tabachnick, Fidell. Коллеги утверждают, что неплох ранее упоминавшийся учебник Филда «Discovering Statistics using IBM SPSS Statistics». Я в последнее время эпизодически обращаюсь к «Handbook of statistics. Volume 26 Psychometrics» под редакцией Rao и Sinharay. Несмотря на то, что в названии фигурирует «психометрика» (к слову, самая «статистически"-емкая дисциплина в психологии; или, как мне тут под руку ворчат намекают, как минимум, «одна из»), это более тысячи страниц концентрированной радости аналитика.
Для тех, кто уже более опытен в аналитизе данных и знает свою область исследований и релевантные методы анализа, могу порекомендовать две серии:
1) небольшие, достаточно давние, но весьма подробные тексты по конкретным методам или парадигмам.
2) современная и динамично пополняющаяся серия книг от Springer. Ощущается небольшой уклон в сторону промышленно-программистских тем и методов, но может быть полезно и академическим психологам.
Из онлайн-ресурсов очень хорош электронный учебник от компании StatSoft Statistica — statsoft.ru/home/textbook/default.htm. Рассмотрены и внятно описаны базовые понятия и алгоритмы. Естественно, так как это продукт компании, которая выпускает программу Statistica, многие разделы выглядят как статистическая справка к реализованным в программе методам. Ну и, естественно, все иллюстрации из Statistica.
___________
OSF ищет волонтеров
Open Science Framework ищет волонтеров для международного проекта.
Наверняка, многие из вас слышали про Open Science Framework — проект, призванный поддерживать совместные проекты большого количества исследователей. В числе текущих инициатив — проект Reproducibility: Psychology, на данный момент объединяющий более 150 ученых. Цель проекта — оценить воспроизводимость опубликованных в литературе исследований (в том числе когнитивного направления).
В основном, участники проекта занимаются репликациями — выбирают статью и внимательно воспроизводят протокол сбора данных и анализа, после чего описывают результаты. Но есть и другой, более доступный для студентов способ участия в проекте — кодирование статей для базы данных. Заниматься этим может любой человек, способный прочесть выбранную статью и извлечь из нее информацию согласно анкете (например, процитировать основной результат, указанную рядом с ним статистику, количество человек в выборке). Любой человек, добавивший в базу хотя бы одну статью, будет упомянут в итоговой публикации, а добавивший 10 — будет в числе авторов. Это ли не мотивация? К тому же, помимо несомненной пользы для науки, это отличное упражнение по чтению и анализу статей.
Как всегда, TCTS готов поддержать волонтеров — если вы хотите попробовать свои силы, но боитесь сделать что-то не так, не стесняйтесь обратиться к нам за помощью или советом! Подробные инструкции здесь: docs.google.com/spreadsheet/viewform?formkey=dGRpdDkwU01NeXlUS3ZVVGVvb2ltdWc6MQ

Российский журнал когнитивной науки
Приятная новость — в России наконец-то появился журнал, посвященный когнитивной науке! Он так и называется, «Российский журнал когнитивной науки», cogjournal.org/. Это электронный журнал с открытым доступом, в котором будут публиковаться статьи на русском и английском языке.
Электронная форма публикации значительно облегчает технологический процесс производства журнала и ускоряет публикационный цикл. В печатном журнале жестко ограничен объем каждого номера, из-за чего сроки публикации могут быть, особенно в России, очень долгими. В электронном журнале проблем с этим нет. Сравните: «Вестник СПбГУ» — объем статьи для кандидатов наук 19 т. знаков (в скобках заметим, что вот это классовое разделение отвратительно). «Российский журнал когнитивной науки» — краткие сообщения на русском до 20 т. зн, статьи — до 70 т.зн.
Английские публикации являются дополнительным бонусом. Как пишет редакция, «те авторы, кто еще не пробовал представить результаты своего исследования в виде журнальной статьи на английском языке, но уже готов это сделать, получат возможность осуществить „пробу пера“ в контакте с российскими рецензентами и редакторами».
Ну и вообще, нормальное рецензирование — то, чего российской психологии сильно не хватает. Здесь же, судя по составу редколлегии и наличию внешних экспертов, все будет хорошо. В общем, помните, что исследование не опубликованное это исследование не проведенное, и теперь есть еще одно место, где можно нормально что-то публиковать.

Смотри таблица пять
За время моего обучения в университете курс «информатики» был два или три раза в разных ипостасях. Ничего более бесполезного я в жизни не видел. Но на самом деле, есть все же пара вещей про Word, которые стоит знать, и которые почему-то не рассказывают всем перед написанием первой курсовой. Я, например, про последнюю часть сегодняшней инструкции узнал только в момент написания диссертации =)
Первое, что надо знать, это как использовать перекрестные ссылки. Когда вы вставляете картинку или таблицу, не нужно писать ниже Рисунок 1 или Таблица 1. Нужно использовать команду Вставить заголовок (меню References или Ссылки). В появившемся меню вам нужно выбрать тип ссылки (Рисунок), и дописать название.
После этого, когда вам нужно в тексте сослаться на этот рисунок (NB: по требованиям большинства журналов, если у вас есть в тексте таблица или рисунок, вы обязательно должны ссылаться на нее где-то в тексте), вы можете использовать командру «перекрестная ссылка» (cross-reference), она рядом с вставкой заголовка. В появившемся меню вам нужно выбрать тип ссылки (например, Рисунок) и формат — «Only label and number».
Есть проблема: Word не понимает, что такое склонения существительных, и всегда вставляет тип ссылки в именительном падеже, например, «это можно увидеть на Рисунок 1». LibreOffice такой проблемы лишен, но речь сейчас не о нем. Чтобы решить эту проблему, нужно проделать еще одну операцию. Сначала вам нужно щелкнуть правой кнопкой на перекрестной ссылке в тексте, которую вы только что вставили и выбрать пункт меню «Toggle field code». Вместо ссылки появится ее код, например, {REF _Ref383120336 \h}. Вам нужно перед «\h» вписать «\# 0» (без кавычек). Эти магические знаки говорят Word, что вы хотите видеть только номер ссылки, больше ничего. После этого снова жмем правой кнопкой мыши на ссылке и выбираем Update Field. Теперь от ссылки остался только номер, и вы можете вписать перед ним слово Рисунок в любом нужном вам падеже.
_____________



pur-pur-pur
Нам показалось, что в TCTS в последнее время слишком много статистики и слишком мало котиков, что чревато. К тому же, котики тоже весьма академически активны. Например, вот этот — #горячийюныйкогнитивный — явно просит рекомендательное письмо у научного руководителя :)

Инструментарий аналитика: R
Ниже перечислены пакеты, с которыми я сталкиваюсь в своей работе с той или иной частотой, поэтому набор может выглядеть несколько однобоким. Общие описания пакетов по направлениям и формам работы можно найти в официальном репозитории: cran.r-project.org/web/packages/. Так же есть симпатичная reference card от Yanchang Zhao: cran.r-project.org/doc/contrib/YanchangZhao-refcard-data-mining.pdf. Следует помнить, что немалая часть функций доступна в базовом пакете.
Манипуляции с данными
data.table — ключевой пакет для тех, кто работает с большими датасетами (сотни тысяч, миллионы строк), так как оптимизирован для максимально быстрой работы (сортировки, расщепления, слияния и проч). Операции с таблицами типа data. table совершаются в десятки или даже сотни раз быстрее, чем с простыми таблицами типа data.frame. К сожалению, синтаксис пакета ощутимо отличается от привычного синтаксиса R, и вызывает ощущение некоторой неотмирности и увлеченностью психотропными веществами авторов пакета.
reshape2 — пакет для перевода данных из формата wide в формат long и обратно, быстрый аналог базовой функции reshape.
Визуализация
ggplot2 — графики черные, графики белые, графики испанские… графики плотности, графики круговые, гистограммы — в общем, все, что душа пожелает. Даже есть возможность работать с географическими картами (spatial visualisation). Если что-то не нашлось — скорее всего, это и не нужно. Настраивается все, от цвета и формы графика, до цвета и размера шрифтов легенд. Впрочем, по специфичности и изощренности синтаксиса не уступает data.table. Есть еще другие пакеты для визуализации, например, lattice — но я с ним не работал, мне вполне достаточно и ggplot2.
Психометрика
sem — моделирование структурными уравнениями, конфирматорный факторный анализ во всей красе. Естественно, может применяться не только для психометрических исследований, но я для меня это первоочередное применение.
ltm — IRT-модели Раша и Бирнбаума (кроме 4PL) для дихотомических ответов, сложные политомические модели. Есть демо-примеры.
Линейные модели
lme4 — линейные модели со случайными эффектами. К сожалению, простую линейную модель с фиксированными эффектами построить нельзя, для этого лучше использовать nle. Для получения p-values, если они зачем-то потребуются, к пакету lme4 следует добавить пакет lmerTest.
Кластерный анализ
cluster — аггломеративный и дивизивный кластерные анализы, k-средних и k-медиан, кластерный анализ по подвыборкам для больших датасетов.
Работа с распределениями
gamlss — пакет для аппроксимации теоретической функции эмпирического распределения, оценки параметров эмпирического распределения, генерации данных с определенными параметрами и формой распределения (для симуляционных Монте-Карло-экспериментов).
Анализ нормальности распределения
nortest — базовые критерии для проверки гипотезы об отличии распределения от нормального.
moments — моменты (асимметрия и эксцесс).
Оценка мощности
pwr — простейший пакет для оценки размера выборки при определенных значениях ошибки измерения I/II типа и предполагаемом размере эффекта. Фактически, по трем данным параметрам можно вычислить четвертый.
Интерфейсы доступа к SQL-базам данных
RODBC — простой коннектор к MS SQL базам.
RPostgreSQL — такой же простой коннектор к PostgreSQL базам, единственное, надо научиться использовать ‘' и «» одновременно при написании запроса к базе (т.к. в PostgreSQL таблицы задаются через имена схем и таблиц в виде schema."Table", и эти двойные кавычки вызывают проблемы в синтаксисе команды в R).
Доступ к другим сервисам
RCurl, ROAuth — пакетs, необходимыt для работы с ssl-сертификатами и верификации доступа к API.
twitteR — пакет для импорта данных из твиттера
rga — пакет для доступа к Google Analytics (находится не в CRAN, надо отдельно устанавливать из гит-репозитория).
Отчеты в TeX
knitr — пакет для создания гибридного скрипта, с использованием TeX и чанками с R-кодом.
Профилирование кода
rbenchmark, microbenchmark — оценка времени выполнения функций, сравнение функций по скорости (вплоть до оценки статистической значимости различий).
Прочее
scale — позволяет переходить от академической формы отображения чисел (3,6E +05) к классическим, и обратно.
stringr — работа с текстовыми данными.
boot — пакет для бутстрепов функций.
foreign — импорт данных других программ (SPSS, например).
_____________
Выступление Игоря Уточкина на Science Slam
Замечательный московский ученый, заведующий научно-учебной лабораторией когнитивных исследований НИУ ВШЭ и эксперт TCTS Игорь Уточкин с увлекательным рассказом о зрительном внимании для Science Slam.
R: учебники
Бумажные учебники по R, как и по большинству динамично развивающихся областей, устаревают очень быстро. Поэтому если что-то читать — то лучше читать либо электронные англоязычные учебники, либо тематические блоги и сообщества. Вообще, настоятельно рекомендую забыть о мысли искать и читать на русском языке какие-либо тексты по анализу данных, как и в целом академические тексты. (Вторая иллюзия, которая возникает у новичков при работе с данными — что нужно постоянно видеть таблицу данных, через некоторое время также развеивается. Но это уже детали.)
Если все же хочется какого-то введения на русском языке, то рекомендую «Наглядная статистика. Используем R!» Шипунова и коллег, базовые вещи там вполне неплохо описаны. Из англоязычных — Burns P. The R Inferno; Kabacoff R. R in Action: Data Analysis and Graphics With R; Zhao Y., Cen Y. Data Mining Applications with R. В сети большая часть учебников или прочих дополнительных материалов легко гуглится. Например, очень большую коллекцию книг по R собрал мой друг и коллега Артем Клевцов: psylab.info/R:Литература
Из онлайн-учебников весьма хорош сайт www.statmethods.net/, где описаны основные методы манипуляции с данными (слияние, расщепление, транспонирование и проч.), методы анализа данных (проверка гипотез, многомерные методы, оценка мощности) и визуализации (гистограммы, дендрограмы, графики рассеяния, графики плотности и проч.).
Для тех, кто предпочитает различные онлайн-курсы, есть набор заданий, которые охватывают базовые разделы работы с R. Точно так же ряд тематических курсов на https://www.coursera.org/, которые посвящены анализу данных и близким темам, предполагают выполнение заданий на R.
В конце концов, сам R имеет достаточно подробную справку для каждой функции. Помимо просто описания функции, ее аргументов и структуры вывода, для многих команд есть еще и демо-примеры (команда demo ()). Не так давно вышел пакет swirl, который, по сути, является интерактивным учебником по R, в котором взаимодействие с пользователем строится через консоль.
Тем не менее, ситуации, когда приходится лезть в гугл и искать, как же можно решить свою задачу, случаются практически всегда, особенно на первых порах освоения языка. Благо, экосистема R включает в себя не только пакеты методы на любой вкус, но и обширное сообщество, у которого можно что-либо спросить. Ранее я упоминал уже про рассылку Nabble (http://r.789 695.n4.nabble.com/). Мне лично больше нравятся два других ресурса — CrossValidated и StackOverflow. Это форумы, на которых можно что-то спросить и получить ответ. CrossValidated — это сеть, которая объединяет различные ресурсы вопрос-ответного плана, StackOverflow, который посвящен языкам программирования (ветка по R — stackoverflow.com/questions/tagged/r), входит в нее. На CrossValidated есть и спец. форумы по статистике (http://stats.stackexchange.com). Таким образом, если гуглить что-то в духе «how to do xxx in R» или «k-medoids in R», ссылки на эти два форума будут в первой десятке.
Для любителей видео-курсов есть различные YouTube-каналы и плейлисты, например www.youtube.com/playlist?list=PL69A9CCD816A5F3A5.
Следует все же отметить, что большая часть учебников и учебных материалов по R посвящена именно каким-то основным принципам написания скриптов или работы с пакетами. Другие аспекты работы в R, такие как принципы грамотного программирования и оптимизация кода, написание собственных пакетов или разработка web-приложений для анализа данных на основе Shiny — практически не рассматриваются. Впрочем, для большинства психологов это требуется в очень редких случаях."
_____________
СПбГУ: семинары Web of Science
Для #горячихюныхкогнитивных СПбГУ — мастер-класс об эффективном использовании базы данных Web of Science и менеджера цитирования EndNote. Поиск, хранение и использование онлайн-литературы — навыки, без которых сложно в современной науке, так что не пропустите.
