Программ для анализа данных, которые обычно используют в академической среде, достаточно много. Нередко выбор программы зависит от сложившихся традиций в той или оной области. В этом отношении психологи всегда были близки социологам по аналитическому инструментарию, в первую очередь из-за увлечения опросами и потоковыми психодиагностическими обследованиями.
В России, на заре времен, использовались либо локальные программные решения, типа ДА-системы (как правило, социологами для анализа данных опросов), либо Statistica. Последняя — проприетарный продукт компании StatSoft, содержит достаточно большое число модулей по самым разным видам анализов, но больше ориентированный, все же, на индустриально-промышленные задачи. Примерно в то же время у социологов была популярна программа Stata — в ней основная работа ведется через командную строку, а основной набор методов ориентирован на регрессии и работу с номинальными и порядковыми данными. Я, когда работал со Stata, достаточно долго привыкал к ее несколько негибкому языку и некоторым сложностям с манипулированием данными. Некоторые эстеты работали также с Matematica, Weka, в особых случаях — SAS.
Через некоторое время, в начале '00 годов, практика сместилась в сторону SPSS. В немалой части причиной этого стали учебники А.Д.Наследова. На первых порах SPSS пугает определенной лаконичностью интерфейса (а до 15 версии еще и отсутствием русскоязычной локализации), но через некоторое время это проходит. В настоящее время SPSS является наиболее распространенной программой анализа данных, с которой работают психологи. К сожалению, несмотря на регулярно выходящие новые версии (следует отметить, что наиболее стабильными традиционно являются нечетные версии), набор методов анализа в SPSS весьма традиционен, и включает в себя описательные статистики, регрессии, многомерные и непараметрические методы. Относительно неплохо реализована возможность работать множественными вариантами ответов на вопросы. Изыски вроде анализа временных рядов, ROC-кривых или нейронных сетей появились относительно недавно, и психологами, как правило, не используются. К сожалению, SPSS в базовой комплектации SPSS Statistics не дает возможности полноценно работать с текстовыми данными, оценками размера эффекта, IRT-моделями, структурным моделированием, байесовскими методами и некоторыми прочими. Для некоторых из них нужны дополнительные модули, или же они вообще не реализованы. Дополнительным плюсом является достаточно комфортная возможность работать с скриптами.
В общем и целом SPSS (или PSPP, ее бесплатный аналог для linux) является базовым инструментом для тех, кто работает с данными лишь несколько раз в год и, в целом, не особо искушен в области анализа количественных данных. Однако нередко возникают ситуации, особенно при работе с экспериментальными данными, когда необходимо иметь лучшее понимание того, что происходит с данными или просто использовать методы, не включенные в стандартный набор SPSS. Например, когда необходимо аппроксимировать теоретическую функцию распределения эмпирических данных, провести симуляционный эксперримент, использовать непараметрический факторный анализ, проанализировать данные ЭЭГ или же просто построить и оценить SEM-модель при процедуре валидизации опросника. В подобных ситуациях естественным и закономерным будет переход к другим инструментам.
Такими инструментами в настоящее время выступают MATLAB, Python и R. Все это, в первую очередь, языки программирования. Python является наиболее гибким по применению языком программирования, и анализ данных — лишь одна из областей его использования (пакет pandas, например), как и проектирование экспериментов в PsychoPy. MATLAB, конечно же, создан для боли и страданий, но в настоящий момент является самым общепризнанным в академической среде инструментом для проектирования экспериментов, сбора и анализа данных (особенно психофизиологических). К сожалению, проприетарен, но есть бесплатный аналог — Octave.
R, по сравнению с Python и MATLAB выглядит бедным родственником, несмотря на Shiny, так как полностью ориентирован на работу с данными. В настоящее время для R написано несколько тысяч пакетов с разнообразными методами манипуляций и анализа данных, на любой, даже самый притязательный вкус. В качестве дополнительных бонусов, помимо собственно повышения навыков программирования и алгоритмичного мышления, использование R повышает грамотность аналитика в области практики применения различных методов анализа данных. Второй бонус — R, как и Python, обладает возможностью доступа к различным источникам данных, типа facebook или twitter, не говоря уже о просто SQL-базах, что существенно расширяет не только область применения R, но и возможный инструментарий и области для психологических исследований.
Таким образом, если подходить профессионально и дотошно к анализу эмпирических данных, то, на мой взгляд, естественным выбором аналитика будет что-нибудь из списка Python/R/MATLAB. В крайнем случае SPSS, а для редких ценителей — со скриптами и включением кусков кода на R.