Lady Data

Посвящается фрустрации от анализа данных, упорно не желающих поддаваться логическому объяснению.

vk.com/video-64 839 783_169010464?list=44de24311f9017b026

(по ссылке — видео)


«You should be just terrified»

«Не-статистикам, опасающимся научных цифр в литературе, я могу сказать следующее: «Цифр, которые вы слышите, не нужно бояться. Иногда от них стоит приходить в ужас».

(«To non-statisticians who are afraid of scientific numbers in the literature, I can tell you that you should not be afraid of the numbers you hear. Sometimes, you should just be terrified»)

Речь Джона Иоаннидиса на факультете статистики в Университете Калифорнии в Беркли — «Ошибки (мои собственные) и устрашающая неопределенность чисел».

Полный текст речи опубликован в European Journal of Clinical Investigation: http://www.ncbi.nlm.nih.gov/pubmed/24 785 138?dopt=Abstract

pic: http://xkcd.com/605/


«The Meaning of „Significance“ for Different Types of Research»

В Acta Psychologica опубликован перевод на английский статьи классика голландской психологии Адриана де Гроота «The Meaning of „Significance“ for Different Types of Research».

Несмотря на то, что статья была написана в 1956 году, к 2014 она стала лишь актуальнее — в ней рассматривается острый для современной психологии вопрос различия «эксплораторного» и «конфирматорного» типов исследования и соответствующих аналитических практик.

Текст, несмотря на тему, читается очень легко, а в комментариях переводчики анализируют идеи автора в современном контексте.

#TCTS весьма рекомендует к прочтению!

Препринт статьи в открытом доступе: http://www.ejwagenmakers.com/inpress/DeGroot1956_TA.pdf

pic: http://pps.sagepub.com/content/7/6/632/F1.large.jpg

Original: http://pps.sagepub.com/content/7/6/632/F1.large.jpg


«10 советов по анализу данных, которые я хотела бы узнать раньше» от Дороти Бишоп

Британский нейропсихолог Дороти Бишоп опубликовала в своем блоге «10 советов по анализу данных, которые я хотела бы узнать раньше», и любезно согласилась поделиться ими с #горячимиюнымикогнитивными. Советы в основном касаются сбора и систематизации данных, и рассчитаны на психологов, использующих SPSS и Excel. Кстати, TCTS горячо рекомендует блоги Дороти — deevybee.blogspot.com/. Там можно найти много интересного, в том числе вводные занятия по R, анализу близнецовых данных, анализу ЭЭГ, нейропсихологические тексты и просто около-академические размышления.

Итак, по мнению Дороти, при планировании эксперимента нужно держать в уме следующее:

• От того, как построен набор данных, напрямую зависит то, насколько просто будет его анализировать

• Через несколько месяцев, и тем более лет, вы о своих данных забудете практически все

• Совместное использование данных стремительно набирает популярность — подумайте о том, чтобы хранить свои данные в публичном репозитории.

Именно на эти основные идеи опираются сами рекомендации.

«1. Называйте файлы испытуемых однообразно и анонимно.

Большинство этических комиссий при использовании людей в качестве испытуемых требует анонимизировать данные. Не используйте в качестве названий файлов имена, инициалы и даты рождения испытуемых! Обычно для названий вполне подходят цифры. Но нужно помнить о двух вещах. Во-первых, вам может понадобиться возможность сортировки испытуемых по группам, поэтому к цифре удобно приставить букву, обозначающую группу (например, для групп young-middle aged-old подойдет Y1, Y2, … M1, M2 и т. д.). Но не забывайте о том, что вам скорее всего придется столкнуться с автоматической сортировкой по алфавиту, так что наилучшим выбором будет естественная последовательность букв. К тому же, последовательность из двадцати файлов может при сортировке превратиться в «S1, S10, S11, S12, S13, S14, S15, S16, S17, S18, S19, S2, S20, S3, S4, S5, S6, S7, S8, S9». Чтобы избежать этого, достаточно проследить за тем, чтобы все названия были одной длины — S01, S02 и т. д.

С другой стороны, если вы планируете использовать автоматическую обработку данных, убедитесь в том, что для названий файлов легко придумать цикл. Гораздо проще попросить программу последовательно обработать файлы, начинающиеся с S и заканчивающиеся номерами от 1 до 20, чем вводить названия файлов вручную.

А если вам нужно проанализировать большое количество файлов, задумайтесь о систематизации папок. Некоторые хранят все файлы по отдельному испытуемому в отдельной папке, а эту папку — в папке соответствующей группы — как неудобно! Мне нравится, когда все файлы, которые должны быть проанализированы вместе, хранятся вместе. Если продумать систему наименования файлов, нет никакой вероятности запутаться, где кто, и можно при анализе добраться до одной нужной папки не прибегая к большому количеству циклов.

2. Называйте переменные единообразно и интуитивно понятно, так чтобы эти названия работали в любой среде.

Если вы собираетесь анализировать свои данные в SPPS, назовите свои переменные так как этого требует SPSS — без пробелов, цифр в начале или запрещенных символов (и латиницей — прим.пер.). Подумайте о том, как вы будете называть эту переменную при описании результатов исследования. Часто рецензентов раздражает, когда одна и та же переменная называется по-разному в разных разделах текста. Гораздо правильнее начать с того названия, которое продержится как можно дольше.

3. Используйте закрепленные области в Excel

Это очень просто, но на удивление мало людей об этом знает. При прокручивании файла вниз или вправо в Excel, название переменной или наблюдения скрывается с листа. Если же вы наведете курсор на ячейку непосредственно под названиями переменных и справа от названий строк (т.е. на первую ячейку собственно данных, и выберете «окно"→"закрепить области», и столбцы, и строки над выделенной ячейкой будут оставаться на месте, когда вы прокручиваете таблицы.

Кроме того, есть (не очень удобный) способ заморозить области в SPSS — он описан здесь.

4. Ведите список переменных с их описанием.

В SPSS для сохранения подробностей можно использовать «метки» переменных, но они ограничены по длине и не всегда вмещают все необходимое. Имеет смысл держать отдельный файл для описания кодировки данных, включающий в себя список переменных, их описание, как обозначены отсутствующие данные и т. д. Если вы планируете выкладывать данные в открытый доступ — это обязательный пункт. И лучше всегда работать так, будто в ваших данных должен будет разобраться кто-то другой.

5. Используйте один большой файл вместо множества маленьких, и скрывайте переменные, которые вы не используете в конкретный момент.

Если вы работаете с большим набором данных, часто хочется разбить его на несколько более простых в обращении. У вас могут быть сотни переменных, из которых вы хотите взять несколько интересующих в конкретный момент, и выделить в отдельный файл. Проблема в том, что сделав это, вы можете легко потеряться в собственных данных.

Представьте, что у вас есть гигантский файл, и вы выделили несколько переменных для нового файла, и в нем нашли ошибку. Теперь вам придется исправить ее в двух файлах, что неудобно — настолько неудобно, что вы можете пропустить этот шаг и у вас будет две разные версии данных, и вы забудете, какая из них правильная.

Кроме того, если вам захочется проанализировать связь между выделенными переменными и переменными в том большом файле, вам придется еще дольше возиться с переносом данных, что является прямым путем к ошибкам — особенно если вы копируете и вставляете. Поэтому я советую работать с большим файлом, содержащим все данные, скрупулезно переименовывая его в случае изменений. Проблема «слишком много данных» решается скрыванием ненужных частей файла.

В Excel это делается просто. Выделите колонки, которые хотите скрыть, и нажмите «Ячейки—Формат--Скрыть «. Чтобы вернуть их назад, выделите колонки рядом со скрытыми и нажмите «Отобразить».

Похожую операцию можно сделать в SPSS, она называется «набор переменных». Она требует чуть больше шагов чем в Excel, но достаточно определить набор один раз, и он сохраняется вместе с файлом, так что выбрать те же переменные заново можно очень просто. Инструкции — здесь.

Кстати, этот сайт полон полезностей. Например, там есть инструкция по созданию таблиц в формате APA в SPSS.

6. Никогда не добавляйте к названию файла «final» и всегда храните копии основных данных.

Назвать файл «финальным» очень хочется. Но у вас обязательно окажутся файлы с названиями «final final», «действительно final» или «final версия 10». Для определения наиболее свежей версии лучше использовать даты.

Совет о резервном копировании элементарен до боли, но даже самые опытные из нас забывают это делать. Если вы потратили на что-то несколько дней, пусть оно хранится в безопасности, даже если компьютер сломается или его украдут.

7. Смотрите на данные

Прежде чем хвататься за статистику, важно визуализировать ваши данные. Это хороший способ обнаружения странностей в вашем наборе данных, например, выходящих за ожидаемые рамки значений. Например, если у вас есть сырые и взвешенные значения, построив график рассеивания, вы убедитесь, что конвертация произошла правильно. Также следует проверить распределение данных, и определиться с дальнейшими шагами, если анализ предполагает нормальность, а данные распределены иначе. Об этой часто встречающейся ситуации можно прочесть в учебнике Филда «Discovering Statistics Using SPSS» (да и в других учебниках по статистике, список которых можно найти в блоге по тегу stats — прим. пер).

8. Ведите журнал анализа.

Обычно я продумываю то, что я хочу сделать, составляю список аналитических процедур и таблиц, которые я хочу получить, и работаю по этому списку. На практике, работа редко идет гладко. Можно обнаружить отсутствующий или поврежденный файл, или понять, что данные нужно трансформировать. Традиционно в процессе анализа используют с"лабораторный журнал", в который заносят соответствующие записи. Я предпочитаю использовать обычный файл Word, который держу открытым в процессе анализа, и в который я записываю все что делаю, по дням.

Эти записи включают в себя названия созданных файлов, их местоположение, и что в них находится. Это действительно важно, если вы не хотите через некоторое время оказаться посреди огромного количества разных версий разных файлов, пытаясь найти тот, который вы едва помните как создавали.

Кроме того, я веду записи о возникших проблемах. Например, у вас есть экспериментальная задача, которая была несколько раз проведена неправильно, так что эти случаи нужно будет исключить. В журнале вы можете сделать запись о том, когда ошибка была замечена, какая часть данных была затронута, и какие меры были предприняты. Если вы этого не сделаете, вполне возможно что вы, или кто-то другой, работая с данными позднее, не будет понимать, откуда проблема. Или, как это, пожалуй, слишком часто бывает со мной, вы проведете все утро, пытаясь найти проблему, которую уже находили месяц назад.

10. Используйте скрипты SPSS

При использовании SPSS нужно хранить скрипты проведенных тестов и манипуляций — это касается всех нас. Даже если вы ничего не знаете о скриптах, это очень просто начать делать. Сделайте все нужные настройки через меню SPSS, но вместо OK нажмите Paste. Откроется окно, в котором выбранные вами команды записаны в виде скрипта. Теперь можно выделить весь скрипт или его часть, и запустить его, нажав на большую зеленую стрелку. Если вы проведете другой анализ, и снова нажмете Paste, новые команды будут дописаны к тому же скрипту.

Такой способ имеет четыре преимущества:

1) Скрипт можно сохранить, и у вас будет постоянная запись о проведенном анализе. Она может дополнять ваш журнал (в котором можно хранить имя файла со скриптом).

2) Скрипт можно комментировать. Любой текст, начинающийся звездочкой и заканчивающийся точкой, является комментарием. Их можно использовать для заметок о том, что именно проверяет анализ.

3) Можно всегда вернуться и провести анализ заново. Например, если вы обнаружили ошибку в данных и исправили её, вам не нужно повторять все свои шаги заново — вы можете просто еще раз запустить скрипт.

4) Это отличный способ научиться скриптам SPSS. Очень многому можно научиться просто взяв сгенерированный код в качестве основы и изменяя параметры (например, названия переменных). Если вы хотите параллельно провести анализ нескольких переменных, гораздо проще скопировать часть скрипта и подставить нужные названия, чем возвращаться в меню.

10. Проверьте весь анализ перед публикацией.

Очень важно проверить все шаги прежде чем сдать работу. Всегда проверяйте, все ли таблицы и цифры вы можете воспроизвести. Удивительно, насколько часто, делая анализ второй раз, получаешь другие результаты! Иногда кажется, что это какой-то злой дух вселился в компьютер и дразнится. Даже если различия небольшие, они все равно вызывают беспокойство. В моем опыте, такие вещи часто происходят из-за того, что забываешь выделить нужную группу испытуемых (если есть критерии исключения). Или код отсутствия данных по ошибке был включен в данные. При плохом развитии событий, вы могли скопировать и вставить что-то в файл, забыв о том, что данные были определенным образом отсортированы. И иногда (лишь иногда), эти ошибки распространяются и на файл в Excel и на файл в SPSS. Полезно хранить данные в обоих форматах, чтобы в таких случаях иметь возможность грубо сравнить, например, средние. И здесь вы оцените скрипты SPSS. Со скриптом гораздо проще провести анализ заново. Более того, при финальной проверке, можно подписать, какая таблица в статье к какому фрагменту кода относится, и таким образом всегда иметь возможность вернуться и перепроверить результаты."

Оригинальная запись тут.


Обзор учебников по статистике и мат. методам анализа данных

Ниже перечислены те учебные материалы по мат. методам анализа данных, к которым я так или иначе обращаюсь. Это не самый полный список и даже может быть не самый лучший набор, особенно в части англоязычных материалов. Если вы знаете какой-нибудь интересный и адекватный учебник, который я обошел вниманием — пишите в комментариях.

Учебников по мат. методам много, и в каждой специальности они разные. Так, русскоязычные психологи используют обычно учебник А. Наследова (ранее — Е. Сидоренко). Социологи отдают предпочтение другим учебникам — «Измерение в социологии» Ю. Толстой и «Математическая обработка данных в социальных науках. Современные методы» Д. Крамера, медики — «Медико-биологическая статистика» С.Гланца. Все специальности, как правило, имеют свои традиции использования методов и описания результатов, иногда очень специфические или необычные — особенно в этом отношении преуспели медики и экономисты (экoнометристы).

Когда меня спрашивают, какой учебник читать, я обычно рекомендую начинать с учебника Наследова и потом переходить на англоязычные учебники. И, отдельным пунктом — не очень рекомендую учебник Сидоренко, ввиду его некоторой старости и акцента на ручных методах анализа. Не говоря уже о некоторых фактических ошибках, о которых как-то мне говорили коллеги. Учебник Наследова достаточно прост в понимании, содержит, как я уже ранее упоминал, примеры работы в SPSS и т. д. Хотя у этого учебника тоже есть некоторые недостатки: есть определенного рода претензии к этому учебнику — предельная алгоритмизация методов анализа (если переменные интервальны — один метод, если интервальные и номинальные — другой, если они зависимы — третий и т. д.). Из-за этой алгоритмизации может пропасть желание понимать, как же реально ведут себя данные, что же происходит с процессами. К тому же, многие вещи из современного инструментария просто опущены — те же бутстрепы и доверительные интервалы. Однако справедливости ради стоит сказать, что учебнику уже десять лет, и АДН уже давно ведет речь и вроде бы даже пишет новый учебник. В общем, ждем.

Англоязычные учебники, как правило, либо совсем простенькие (и я, честно говоря, их не знаю, не назову), либо, что чаще, затрагивают какую-то определенную группу методов. Психологи чаще всего пользуются многомерными методами, помимо примитивных методов проверки значимости нулевой гипотезы. В этой области вполне хороши учебники «Applied multivariate research» от Meyers, Gamst & Guarino. Естественно, хорош «Using Multivariate Statistics» от Tabachnick, Fidell. Коллеги утверждают, что неплох ранее упоминавшийся учебник Филда «Discovering Statistics using IBM SPSS Statistics». Я в последнее время эпизодически обращаюсь к «Handbook of statistics. Volume 26 Psychometrics» под редакцией Rao и Sinharay. Несмотря на то, что в названии фигурирует «психометрика» (к слову, самая «статистически"-емкая дисциплина в психологии; или, как мне тут под руку ворчат намекают, как минимум, «одна из»), это более тысячи страниц концентрированной радости аналитика.

Для тех, кто уже более опытен в аналитизе данных и знает свою область исследований и релевантные методы анализа, могу порекомендовать две серии:

1) небольшие, достаточно давние, но весьма подробные тексты по конкретным методам или парадигмам.

2) современная и динамично пополняющаяся серия книг от Springer. Ощущается небольшой уклон в сторону промышленно-программистских тем и методов, но может быть полезно и академическим психологам.

Из онлайн-ресурсов очень хорош электронный учебник от компании StatSoft Statistica — statsoft.ru/home/textbook/default.htm. Рассмотрены и внятно описаны базовые понятия и алгоритмы. Естественно, так как это продукт компании, которая выпускает программу Statistica, многие разделы выглядят как статистическая справка к реализованным в программе методам. Ну и, естественно, все иллюстрации из Statistica.

___________

Филипп Управителев


Инструментарий аналитика: R

Ниже перечислены пакеты, с которыми я сталкиваюсь в своей работе с той или иной частотой, поэтому набор может выглядеть несколько однобоким. Общие описания пакетов по направлениям и формам работы можно найти в официальном репозитории: cran.r-project.org/web/packages/. Так же есть симпатичная reference card от Yanchang Zhao: cran.r-project.org/doc/contrib/YanchangZhao-refcard-data-mining.pdf. Следует помнить, что немалая часть функций доступна в базовом пакете.

Манипуляции с данными

data.table — ключевой пакет для тех, кто работает с большими датасетами (сотни тысяч, миллионы строк), так как оптимизирован для максимально быстрой работы (сортировки, расщепления, слияния и проч). Операции с таблицами типа data. table совершаются в десятки или даже сотни раз быстрее, чем с простыми таблицами типа data.frame. К сожалению, синтаксис пакета ощутимо отличается от привычного синтаксиса R, и вызывает ощущение некоторой неотмирности и увлеченностью психотропными веществами авторов пакета.

reshape2 — пакет для перевода данных из формата wide в формат long и обратно, быстрый аналог базовой функции reshape.

Визуализация

ggplot2 — графики черные, графики белые, графики испанские… графики плотности, графики круговые, гистограммы — в общем, все, что душа пожелает. Даже есть возможность работать с географическими картами (spatial visualisation). Если что-то не нашлось — скорее всего, это и не нужно. Настраивается все, от цвета и формы графика, до цвета и размера шрифтов легенд. Впрочем, по специфичности и изощренности синтаксиса не уступает data.table. Есть еще другие пакеты для визуализации, например, lattice — но я с ним не работал, мне вполне достаточно и ggplot2.

Психометрика

sem — моделирование структурными уравнениями, конфирматорный факторный анализ во всей красе. Естественно, может применяться не только для психометрических исследований, но я для меня это первоочередное применение.

ltm — IRT-модели Раша и Бирнбаума (кроме 4PL) для дихотомических ответов, сложные политомические модели. Есть демо-примеры.

Линейные модели

lme4 — линейные модели со случайными эффектами. К сожалению, простую линейную модель с фиксированными эффектами построить нельзя, для этого лучше использовать nle. Для получения p-values, если они зачем-то потребуются, к пакету lme4 следует добавить пакет lmerTest.

Кластерный анализ

cluster — аггломеративный и дивизивный кластерные анализы, k-средних и k-медиан, кластерный анализ по подвыборкам для больших датасетов.

Работа с распределениями

gamlss — пакет для аппроксимации теоретической функции эмпирического распределения, оценки параметров эмпирического распределения, генерации данных с определенными параметрами и формой распределения (для симуляционных Монте-Карло-экспериментов).

Анализ нормальности распределения

nortest — базовые критерии для проверки гипотезы об отличии распределения от нормального.

moments — моменты (асимметрия и эксцесс).

Оценка мощности

pwr — простейший пакет для оценки размера выборки при определенных значениях ошибки измерения I/II типа и предполагаемом размере эффекта. Фактически, по трем данным параметрам можно вычислить четвертый.

Интерфейсы доступа к SQL-базам данных

RODBC — простой коннектор к MS SQL базам.

RPostgreSQL — такой же простой коннектор к PostgreSQL базам, единственное, надо научиться использовать ‘' и «» одновременно при написании запроса к базе (т.к. в PostgreSQL таблицы задаются через имена схем и таблиц в виде schema."Table", и эти двойные кавычки вызывают проблемы в синтаксисе команды в R).

Доступ к другим сервисам

RCurl, ROAuth — пакетs, необходимыt для работы с ssl-сертификатами и верификации доступа к API.

twitteR — пакет для импорта данных из твиттера

rga — пакет для доступа к Google Analytics (находится не в CRAN, надо отдельно устанавливать из гит-репозитория).

Отчеты в TeX

knitr — пакет для создания гибридного скрипта, с использованием TeX и чанками с R-кодом.

Профилирование кода

rbenchmark, microbenchmark — оценка времени выполнения функций, сравнение функций по скорости (вплоть до оценки статистической значимости различий).

Прочее

scale — позволяет переходить от академической формы отображения чисел (3,6E +05) к классическим, и обратно.

stringr — работа с текстовыми данными.

boot — пакет для бутстрепов функций.

foreign — импорт данных других программ (SPSS, например).

_____________

Филипп Управителев


R: учебники

Бумажные учебники по R, как и по большинству динамично развивающихся областей, устаревают очень быстро. Поэтому если что-то читать — то лучше читать либо электронные англоязычные учебники, либо тематические блоги и сообщества. Вообще, настоятельно рекомендую забыть о мысли искать и читать на русском языке какие-либо тексты по анализу данных, как и в целом академические тексты. (Вторая иллюзия, которая возникает у новичков при работе с данными — что нужно постоянно видеть таблицу данных, через некоторое время также развеивается. Но это уже детали.)

Если все же хочется какого-то введения на русском языке, то рекомендую «Наглядная статистика. Используем R!» Шипунова и коллег, базовые вещи там вполне неплохо описаны. Из англоязычных — Burns P. The R Inferno; Kabacoff R. R in Action: Data Analysis and Graphics With R; Zhao Y., Cen Y. Data Mining Applications with R. В сети большая часть учебников или прочих дополнительных материалов легко гуглится. Например, очень большую коллекцию книг по R собрал мой друг и коллега Артем Клевцов: psylab.info/R:Литература

Из онлайн-учебников весьма хорош сайт www.statmethods.net/, где описаны основные методы манипуляции с данными (слияние, расщепление, транспонирование и проч.), методы анализа данных (проверка гипотез, многомерные методы, оценка мощности) и визуализации (гистограммы, дендрограмы, графики рассеяния, графики плотности и проч.).

Для тех, кто предпочитает различные онлайн-курсы, есть набор заданий, которые охватывают базовые разделы работы с R. Точно так же ряд тематических курсов на https://www.coursera.org/, которые посвящены анализу данных и близким темам, предполагают выполнение заданий на R.

В конце концов, сам R имеет достаточно подробную справку для каждой функции. Помимо просто описания функции, ее аргументов и структуры вывода, для многих команд есть еще и демо-примеры (команда demo ()). Не так давно вышел пакет swirl, который, по сути, является интерактивным учебником по R, в котором взаимодействие с пользователем строится через консоль.

Тем не менее, ситуации, когда приходится лезть в гугл и искать, как же можно решить свою задачу, случаются практически всегда, особенно на первых порах освоения языка. Благо, экосистема R включает в себя не только пакеты методы на любой вкус, но и обширное сообщество, у которого можно что-либо спросить. Ранее я упоминал уже про рассылку Nabble (http://r.789 695.n4.nabble.com/). Мне лично больше нравятся два других ресурса — CrossValidated и StackOverflow. Это форумы, на которых можно что-то спросить и получить ответ. CrossValidated — это сеть, которая объединяет различные ресурсы вопрос-ответного плана, StackOverflow, который посвящен языкам программирования (ветка по R — stackoverflow.com/questions/tagged/r), входит в нее. На CrossValidated есть и спец. форумы по статистике (http://stats.stackexchange.com). Таким образом, если гуглить что-то в духе «how to do xxx in R» или «k-medoids in R», ссылки на эти два форума будут в первой десятке.

Для любителей видео-курсов есть различные YouTube-каналы и плейлисты, например www.youtube.com/playlist?list=PL69A9CCD816A5F3A5.

Следует все же отметить, что большая часть учебников и учебных материалов по R посвящена именно каким-то основным принципам написания скриптов или работы с пакетами. Другие аспекты работы в R, такие как принципы грамотного программирования и оптимизация кода, написание собственных пакетов или разработка web-приложений для анализа данных на основе Shiny — практически не рассматриваются. Впрочем, для большинства психологов это требуется в очень редких случаях."

_____________

Филипп Управителев


Инструментарий аналитика: SPSS

За почти двенадцать лет дружбы с SPSS я встречал не так уж много учебников по SPSS на русской языке — это учебники Пациорковских, Таганова, Крыштановского и Наследова. Первые три — учебники для маркетологов и социологов, там практически нет многомерных методов. В общем и целом, я склонен на данный момент считать учебники Наследова лучшими из доступных русскоязычных учебных материалов по мат. методам и их реализации в SPSS.

Первый учебник, «Математические методы психологического исследования. Анализ и интерпретация данных», знакомый, подозреваю, практически всем, посвящен логике и структуре методов анализа данных, каждая глава содержит в себе краткую иллюстрацию практики использования этого метода в SPSS. Второй учебник, «IBM SPSS Statistics 20 и AMOS. Профессиональный статистический анализ данных», больше посвящен именно SPSS — более детально раскрываются дополнительные параметры методов и содержание таблиц вывода. Тем не менее, учебник также содержит некоторые общие описания логики методов. Также этот учебник, в отличие от предыдущих учебников по версиям SPSS, содержит раздел по AMOS — модулю IBM SPSS, с помощью которого работают с задачами структурного моделирования (SEM). Конечно, учебники А.Д.Наследова вызывают ряд вопросов и претензий, особенно первый, однако для начинающих или не очень уверенных пользователей они будут лучшим выбором.

В англоязычном академическом мире традиционно лучшим учебником по анализу данных в SPSS, да и просто хорошим учебником по статистике, считается учебник Филда, Discovering Statistics Using IBM SPSS Statistics by Andy Field. Подробнее можно посмотреть здесь: www.uk.sagepub.com/field4e/main.htm или на весьма любопытном личном сайте автора www.statisticshell.com/.

Временами случается, что учебника под рукой нет, или надо посмотреть пример использования того или иного метода, который не описан у АДН, например, как делать логистическую регресию в SPSS. В таких случаях я шел на этот неплохой онлайн-учебник по основным методам анализа данных. которые могут потребоваться исследователям. Правда, по ощущениям, для иллюстраций авторы использовали какую-то очень уж древнюю версию SPSS, чуть ли не 9.0/11.0. Также, как и бумажные учебники, подойдет только для newbie-analysts.

Для тех, кто хочет приближенных к реальности пошаговых инструкций, могу порекомендовать соответствующие YouTube-каналы, например, www.youtube.com/playlist?list=PL6B445216E3B93D2C.

Ранее я уже упоминал, что SPSS имеет достаточно удобную возможность работать со скриптами. Если быть корректным, то оконный интерфейс дает лишь базовые возможности для аналитиков, в том случае, когда есть желание повышать навыки анализа данных в SPSS, переход к скриптам является следующим и обязательным шагом. Другое дело, что, на мой взгляд, если уж и переходить на уровень кода, то лучше сразу переходить к использованию R. Однако это вопросы личного выбора. Возвращаясь к скриптам в SPSS, в первую очередь рекомендую посмотреть встроенный мануал SPSS Syntax. А во вторую очередь, воспользоваться ресурсами www.spsstools.ru/ - это перевод англоязычного сайта www.spsstools.net/, где опубликовано около 700 примеров синтаксиса, макросов и скриптов, которые были написаны автором сайта во время консультаций на форумах и в рассылках. Вообще, на сайте достаточно много справочных материалов, ссылок, полезных приемов и так далее. К сожалению, сайт уже пару лет как не обновляется — судя по всему, автор мигрировал на Python.

И напоследок. Для тех, кто совсем отчаялся и не может решить задачу, есть возможность попросить совета в ЖЖ-коммьюнити ru-spss.livejournal.com, где обитает достаточно большое количество дружелюбных и высокопрофессиональных аналитиков и пользователей SPSS.

_____________

Филипп Управителев


Кейс по систематизации работы с информацией

По просьбам некоторых наших подписчиков публикую ряд рассылок из своей feedly-ленты. Я постарался перечислить самые интересные рассылки, которые я смотрю в первую очередь. Менее интересные, или которые обновляются очень редко, или которые просто носят более локальный характер (по psycholinguistics, human-computer Interaction, social network analysis etc.) я не стал вносить в этот список, чтобы не создавать лишний информационный шум (в моей ленте порядка 130 рассылок, все перечислять избыточно). Если вы знаете интересные блоги/рассылки — делитесь, пожалуйста, в комментариях.

Stats

arxiv.org/archive/stat/ - группа рассылок ArXive по статистике. Интересно будет, в первую очередь профессиональным математикам и методологам стататистики. Прикладникам-аналитикам будет сложно и временами бессмысленно, я сам нередко пропускаю эти записи.

www.theanalysisfactor.com/ - неплохой блог, авторы которого достаточно много времени уделяют регрессионным моделям и работе в SPSS, вплоть до проведения вебинаров. Правда, в последнее время ощущается медленная миграция в R.

www.thejuliagroup.com/blog/ - блог лидера группы разработчиков языка Julia (вроде как еще более гибкого и быстрого аналога R), про сам язык не так уж и много, скорее, различные заметки из жизни аналитика. Например, один из постов: Drinking and teaching statistics: Day 10 of the 20-day blogging challenge.

statswithcats.wordpress.com/ - симпатичный блог, в котом рассказываются различные нюансы проведения стат. анализов — моделирование, написание отчетов и т. д. И, естественно, котики. Недавно была серия постов о том, как писать отчеты, например, последний пост серии: statswithcats.wordpress.com/2013/09/22/how-to-write-data-analysis-reports-lesson-6/. К сожалению, блог обновляется весьма нечасто.

andrewgelman.com/ - блог достаточно известного статистика, заметки и размышления по моделированию, правилах сообществ (недавно был пост о том, ка кписать статьи) и так далее. Достаточно регулярно встречаются иллюстративные вставки на R.

R

feeds.feedburner.com/RBloggers/ - аггрегатор блогов, которые посвящены R и Revolutions. Достаточно активная лента, за пару дней может накопиться несколько десятков постов. Еще есть различные рассылки-листы наподобие Nabble (http://r.789 695.n4.nabble.com/), но я в какой-то момент отказался от них — слишком уж часто появляются новые сообщения, многие из которых весьма бессмысленны.

r-statistics.livejournal.com/ - русскоязычное ЖЖ-коммьюнити, посвященное R. Отпочковалось в свое время от аналогичного сообщества, посвященного SPSS, поэтому активные участники одни и те же. Обновления не так уж часты, в основном информационные сообщения или просьбы помощи.

Mathematical psychology

В России область математической психологии, которая посвящена методологии и практике анализа данных психологических экспериментов, в лучшем случае является непризнанной дисциплиной. Между тем, существует достаточно много журналов, в которых рассматриваются логика и методология статистического вывода, нюансы применения, мощность или ограничения различных методов анализа и т. д. Вот некоторые из них:

Psychometrika, Springer

Behavior Research Methods, Springer

Journal of Mathematical Psychology, Elsevier

Cognitive psychology

Журналов по когнитивной психологии, естественно, намного больше, и многие из них носят более узкую специализацию, например, Attention, Perception, Psychophysics (издательство Springer) или Brain And Cognition, Elsevier. Ниже перечислены самые общие журналы.

Trends In Cognitive Sciences, Elsevier

Cognition, Elsevier

Cognitive Psychology, Elsevier

Fun

whatshouldwecallgradschool.tumblr.com/ - блог со смищными гифками, все посвящено одной теме — тяготам жизни аспирантов (PhD-students).

Visualisation

flowingdata.com/ - блог посвящен визуализации данных. Очень много интересных решений, нестандартных кейсов визуализации и так далее.

infosthetics.com/ - еще один блог по визуализации, еще больший акцент на конкретные кейсы.

_____________

Филипп Управителев


Инструментарий аналитика: софт

Программ для анализа данных, которые обычно используют в академической среде, достаточно много. Нередко выбор программы зависит от сложившихся традиций в той или оной области. В этом отношении психологи всегда были близки социологам по аналитическому инструментарию, в первую очередь из-за увлечения опросами и потоковыми психодиагностическими обследованиями.

В России, на заре времен, использовались либо локальные программные решения, типа ДА-системы (как правило, социологами для анализа данных опросов), либо Statistica. Последняя — проприетарный продукт компании StatSoft, содержит достаточно большое число модулей по самым разным видам анализов, но больше ориентированный, все же, на индустриально-промышленные задачи. Примерно в то же время у социологов была популярна программа Stata — в ней основная работа ведется через командную строку, а основной набор методов ориентирован на регрессии и работу с номинальными и порядковыми данными. Я, когда работал со Stata, достаточно долго привыкал к ее несколько негибкому языку и некоторым сложностям с манипулированием данными. Некоторые эстеты работали также с Matematica, Weka, в особых случаях — SAS.

Через некоторое время, в начале '00 годов, практика сместилась в сторону SPSS. В немалой части причиной этого стали учебники А.Д.Наследова. На первых порах SPSS пугает определенной лаконичностью интерфейса (а до 15 версии еще и отсутствием русскоязычной локализации), но через некоторое время это проходит. В настоящее время SPSS является наиболее распространенной программой анализа данных, с которой работают психологи. К сожалению, несмотря на регулярно выходящие новые версии (следует отметить, что наиболее стабильными традиционно являются нечетные версии), набор методов анализа в SPSS весьма традиционен, и включает в себя описательные статистики, регрессии, многомерные и непараметрические методы. Относительно неплохо реализована возможность работать множественными вариантами ответов на вопросы. Изыски вроде анализа временных рядов, ROC-кривых или нейронных сетей появились относительно недавно, и психологами, как правило, не используются. К сожалению, SPSS в базовой комплектации SPSS Statistics не дает возможности полноценно работать с текстовыми данными, оценками размера эффекта, IRT-моделями, структурным моделированием, байесовскими методами и некоторыми прочими. Для некоторых из них нужны дополнительные модули, или же они вообще не реализованы. Дополнительным плюсом является достаточно комфортная возможность работать с скриптами.

В общем и целом SPSS (или PSPP, ее бесплатный аналог для linux) является базовым инструментом для тех, кто работает с данными лишь несколько раз в год и, в целом, не особо искушен в области анализа количественных данных. Однако нередко возникают ситуации, особенно при работе с экспериментальными данными, когда необходимо иметь лучшее понимание того, что происходит с данными или просто использовать методы, не включенные в стандартный набор SPSS. Например, когда необходимо аппроксимировать теоретическую функцию распределения эмпирических данных, провести симуляционный эксперримент, использовать непараметрический факторный анализ, проанализировать данные ЭЭГ или же просто построить и оценить SEM-модель при процедуре валидизации опросника. В подобных ситуациях естественным и закономерным будет переход к другим инструментам.

Такими инструментами в настоящее время выступают MATLAB, Python и R. Все это, в первую очередь, языки программирования. Python является наиболее гибким по применению языком программирования, и анализ данных — лишь одна из областей его использования (пакет pandas, например), как и проектирование экспериментов в PsychoPy. MATLAB, конечно же, создан для боли и страданий, но в настоящий момент является самым общепризнанным в академической среде инструментом для проектирования экспериментов, сбора и анализа данных (особенно психофизиологических). К сожалению, проприетарен, но есть бесплатный аналог — Octave.

R, по сравнению с Python и MATLAB выглядит бедным родственником, несмотря на Shiny, так как полностью ориентирован на работу с данными. В настоящее время для R написано несколько тысяч пакетов с разнообразными методами манипуляций и анализа данных, на любой, даже самый притязательный вкус. В качестве дополнительных бонусов, помимо собственно повышения навыков программирования и алгоритмичного мышления, использование R повышает грамотность аналитика в области практики применения различных методов анализа данных. Второй бонус — R, как и Python, обладает возможностью доступа к различным источникам данных, типа facebook или twitter, не говоря уже о просто SQL-базах, что существенно расширяет не только область применения R, но и возможный инструментарий и области для психологических исследований.

Таким образом, если подходить профессионально и дотошно к анализу эмпирических данных, то, на мой взгляд, естественным выбором аналитика будет что-нибудь из списка Python/R/MATLAB. В крайнем случае SPSS, а для редких ценителей — со скриптами и включением кусков кода на R.