Значимость корреляции при малых выборках

В экспериментально-ориентированных научных исследованиях нередко возникают ситуации, когда необходимо провести статистический анализ в условиях малых выборок. При этом увеличение выборки может быть попросту невозможно как из-за принципиальных ограничений, так и вследствие чрезвычайной трудности выполнения измерительных экспериментов.

Предметом обсуждения данной заметки будет исследование значимости корреляционных зависимостей при малых выборках. В контексте этой статистической задачи наличие принципиальных ограничений можно интерпретировать следующим образом. Например, имеется набор измерений высоты и ширины объектов видов A, B и C. Эти измерения представлены соответственно парами значений \((h_a, w_a), (h_b, w_b), (h_c, w_c) \); если задача исследования состоит в установлении факта зависимости ширины от длины для совокупности объектов данных трех видов, то на размеры выборки имеет место принципиальное (неустранимое) ограничение — в данном случае измерений не может быть больше трех (поскольку других видов, кроме обозначенных не существует). Конечно, можно возразить, что каждый вид может быть представлен не одним измерением, и тогда для решения обозначенной задачи достаточно будет объединить все измерения и посчитать коэффициент корреляции для полных наборов измерений. Однако, вполне вероятно, что  измерения в отношении видов выполнены разными исследователями в разное время, и по литературным источникам удается восстановить только общие черты изменчивости (распределения) измерений, а именно, может быть так, что измерения для вида А принадлежат двумерной интервальной области \( (h_a, w_a)\in[h_1, h_2]\times[w_1, w_2] \) c доверительной вероятностью 0.95. Аналогичная информация, но с другими интервалами изменения имеет место в отношении видов B и C. Как поступить в этом случае? Выполнить расчет коэффициента корреляции для трех измерений, представляющих, например, центроиды областей возможной изменчивости измерений. Но тогда в расчетах будут участвовать только 3 значения, и традиционная процедура оценки значимости коэффициента корреляции, скорее всего (в силу такой малой выборки), покажет факт незначимости зависимости.  Можно ли доверять такому результату, каким либо образом улучшить его, ведь увеличить выборку, вообще говоря, не представляется возможным?

Схематичный пример областей вариации измерений видов A, B и C

 Возможны следующие варианты анализа корреляции в этом случае:

  • зная области изменения измерений расширить объемы выборки с помощью процедуры статистических испытаний.  Иными словами сформировать искусственную выборку измерений, полученную, например, как объединение выборок, любого, достаточно большого объема, из равномерных распределений внутри соответствующих областей (цветные квадраты на схеме). Следует, однако, помнить, что выводы в этом случае будут иметь уровень достоверности \(0.95^{3\cdot N}\), если исходные области возможных вариаций измерений по видам даны с 0.95 доверительной вероятностью (\(N\) — размер имитируемой выборки для каждой области). Чтобы иметь 0.95 доверительную вероятность на выходе следуя такой схеме имитации измерений необходимо рассматривать области вариации для каждого из видов с доверительным уровнем \(0.95^{1/3\cdot N}\), что несколько больше получаемой на выходе доверительной вероятности.
  • Другой подход заключается в вычислении минимально возможного (по модулю — т.к. отрицательные значения также указывают на факт коррелирования величин) коэффициента корреляции для трех пар измерений, когда каждая из пар принадлежит соответствующей области изменений (на схеме — цветные квадраты).  Такую минимизацию можно выполнить численно и крайние точки областей — первые кандидаты, приводящие к искомому минимальному значению корреляции. Как и в предыдущем случае, для получения доверительной вероятности (или 5% уровня значимости) на выходе необходимо рассматривать области вариации для каждого из видов измерений при \(0.95^{1/3}\) уровне.
Реальные 0.95 доверительные области (квадраты) и как "представляет" распределение (эллипс) классический тест оценки значимости коэффициента корреляции (Пирсона).

Почему же не следует использовать традиционную схему оценки значимости коэффициента корреляции в данном случае (т.е. при объеме выборки, равном 3). В принципе можно, но это почти наверняка приведет к тому, что полученное значение корреляции будет не значимо. Дело здесь в том, что традиционная схема анализа предполагает, что измерения получены из некоторого нормального (в данном случае двумерного) распределения, а такое предположение может быть весьма грубым, особенно, если области не перекрываются и измерения сконцентрированы около своих средних значений.

Таким образом, классический тест может не учитывать специфику распределения данных, которая может быть решающей для принятия решения о значимости.

blog comments powered by Disqus