Часто считается, что доверительные интервалы интерпретируются проще и корректнее, чем результаты так называемых тестов проверки нуль-гипотез (NHST). Так ли это?
Голландские ученые опубликовали результаты опроса студентов и преподавателей факультетов психологии на эту тему, чем вызвали ряд постов и дискуссий о смысле доверительных интервалов и потенциале использования этой величины для описания научных результатов. Итак, респондентам задавался следующий вопрос:
Профессор Бамблдорф провел эксперимент, проанализировал данные и сказал: «95%-ный доверительный интервал для среднего лежит в интервале от 0.1 до 0.4». Какие из приведенных ниже утверждений являются правильными (т.е. логически следуют из результата, полученного профессором), а какие -- нет? Правильными могут быть все утверждения, некоторые, одно, а может не быть вообще.
- Вероятность того, что истинное среднее больше 0 — как минимум 95%
- Вероятность того, что истинное среднее равно нулю, меньше 5%
- «Нуль-гипотеза» о том, что истинное среднее равно 0, скорее всего неверна
- Вероятность того, что истинное среднее находится в интервале от 0.1 до 0.4 — 95%
- Мы можем быть на 95% уверены в том, что истинное среднее лежит между 0.1 и 0.4
- Если бы мы повторили эксперимент много-много раз, в 95% случаях истинное среднее находилось бы в интервале от 0.1 до 0.4
Сколько утверждений кажутся вам правильными?
В среднем, студенты и преподаватели психологии считают правильными 3−4 вывода из 6. А на самом деле…
Поговорим о доверительном интервале. Доверительный интервал — это интервал, который строится вокруг приблизительного значения параметра. Этот интервал сам по себе ничего не говорит о параметре — он описывает процедуру, которая привела к его получению (грубо говоря, действия исследователя по сбору и обработке данных). В результате многократного проведения этой процедуры, будут получены интервалы, внутри которых в (например) 95% случаев находится истинное среднее. Помимо этого, важно помнить, что в рамках частотной парадигмы истинное среднее (то есть, среднее значение измеряемой величины у всей популяции) — величина постоянная, и у этой величины, поскольку она не изменяется, нет и не может быть вероятностного распределения. Таким образом, правильная интерпретация утверждения профессора Бамблдорфа заключается в том, что, если провести эксперимент 100 раз и получить 100 выборок, в 95 из этих выборок истинное среднее будет находиться внутри 95%-ного доверительного интервала (при этом в каждой выборке этот интервал будет свой).
Исходя из этого, утверждения 1 и 2 из опросника неверны, поскольку оперируют понятием «вероятность того, что истинное среднее…», которое предполагает, что у значения истинного среднего есть вероятностное распределение. Схожим образом, утверждение 3 некорректно присваивает вероятность нуль-гипотезе. Понимание истинного среднего также проверяется в утверждении 6 (истинное среднее не изменяется от эксперимента к эксперименту), к тому же, ошибочно указано, что границы доверительного интервала не будут изменяться. Наиболее противоречивыми являются утверждения 4 и 5 — «С 95% вероятностью/Мы можем быть на 95% уверены в том, что истинное среднее лежит между 0.1 и 0.4». Авторы исследования, и часть читателей вместе с ними, принимает консервативную позицию, утверждая, что мы не можем говорить о вероятности попадания истинного среднего в конкретный доверительный интервал, поскольку это событие не повторяется, а значит, в рамках частотной парадигмы, не имеет вероятности. По их мнению, утверждение «в 95% случаев доверительный интервал содержит истинное среднее» не эквивалентно утверждению «у истинного среднего есть 95% вероятности оказаться внутри данного конкретного доверительного интервала», ведь во втором случае мы подразумеваем, что истинное среднее может принимать различные значения. Эту позицию также поддерживает часть учебников статистики. Другой лагерь, вооружившись своими учебниками, резонно утверждает, что формально это разделение существует, но с практической точки зрения смысла не имееет, и для простоты вещей вполне можно говорить о вероятности попадания среднего в конкретный доверительный интервал. В ответ, конечно же, звучат полушутливые обвинения в расшатывании столпов и подпольном байесизме. Дискуссии на эту тему — весьма любопытное чтение и еще более любопытное упражнение, так что мы будем рады высказанным мнениям и комментариям читателей.
Но вернемся к голландским психологам. По замыслу авторов исследования, правильных утверждений в списке нет, и несмотря на дискуссии вокруг формулировок, результаты остаются интересными. В большинстве, и студенты-психологи, и их преподаватели, независимо от субъективного уровня владения статистикой, были готовы согласиться с неправильной интерпретацией доверительных интервалов. Значит, замена p-значений на доверительные интервалы при описании результатов исследований мало что изменит с точки зрения ясности интерпретаций этих цифр. Более того, тот факт, что мнение профессионального сообщества по этому вопросу разделилось, лишь подчеркивает сделанный вывод. Что ж, война вокруг «наиболее правильного» способа описания психологических результатов началась не вчера, и закончится еще не скоро.
Ссылки на тему (в хронологическом порядке):
Статья: http://www.ejwagenmakers.com/inpress/HoekstraEtAlPBR.pdf
Пост в блоге Эндрю Гельмана и длинная дискуссия: http://andrewgelman.com/2014/03/15/problematic-interpretations-confidence-intervals/
Две темы на CrossValidated:
Твиттер-дискуссия: twitter.com/Psych_Writer/status/5 332 041 582 588 80512
Пост Алекса Этца: http://nicebrain.wordpress.com/2014/11/16/can-confidence-intervals-save-psychology-part-1/
Ответ Райана Шермана: http://rynesherman.com/blog/misinterpreting-confidence-intervals/