Стандартное отклонение:
нужно ли делить на n-1?

Характеристики выборок — среднее значение и стандартное отклонение — известны всем. Первая из них описывает где сосредоточена основная масса выборочных значений, второе — характеризует их разброс относительно этой позиции. Формулы для этих характеристик просты:
$$ \begin{array}{l} m =\frac{1}{N} \sum\limits_{i=0}^N x_i \\ s = \sqrt{\frac{1}{N-1}\sum\limits_{i=0}^N(x_i - m)^2}\end{array}$$

где \(N\) — количество элементов в выборке; \(x_i\) — выборочные значения.

К смещению в оценке дисперсии по выборочным данным

Обратимся к "нестатистической" интерпретации среднего — это такое значение, сумма квадратов уклонений от которого до каждого из элементов выборки минимальна. Решение данной оптимизационной задачи — сумма всех элементов выборки деленная на их число. Формулировка такой оптимизационной задачи вполне естественна: нам удобно найти число, которое будет наименьшим образом удалено от основной массы значений выборки (оно будет адекватно описывать выборку в целом), и минимизация суммы квадратов в этом случае выглядит вполне объяснимой.

Если среднее (\(m\)) — решение задачи оптимизации, то величина \(\frac{1}{N}\sum\limits_{i=0}^{N}(x_i-m)^2\) — минимальная сумма отклонений — будет характеризовать разброс. Единственное, если выборочные значения были даны в одних единицах измерения (например, метрах), то такая характеристика будет иметь квадрат единиц измерения (если исходные единицы – метры, то разброс будет в квадратных метрах). Удобно, однако, характеризовать разброс в тех же единицах измерения, что и выборочные значения. Извлекая квадратный корень из полученной характеристики разброса придем к "стандартному отклонению" (в кавычках, так как в знаменателе у нас пока \(N\)).

На данный момент,  все выводы выглядят последовательными, а рассуждения привели нас к формуле для характеристики разброса, в которой в знаменателе стоит \(N\),  а не \(N-1\) как пишут в учебниках по математической статистике. Неужели где-то допущена ошибка, или, почему в математической статистике предпочитают формулу со значением \(N-1\), откуда она следует?!

Ошибки в наших рассуждениях никакой нет, просто в математической статистике все характеристики строятся на базе модельных представлений теории вероятностей; именно вероятностные представления (законы распределения случайных величин и т.п.) "привязанные" к выборочным значениям приводят к выводу, что делить на \(N-1\) правильней (удобней). Поэтому, если мы просто вычисляем среднее и хотим описать разброс выборочных значений относительного этого среднего, вполне достаточно ограничиться формулой, где в знаменателе \(N\). Но тогда возникает вполне естественный вопрос, зачем нужна такая "сложная" формула, если для характеристики разброса достаточно взять, например, разность максимального и минимального выборочных значений?! Здесь и корень извлекать не нужно, все будет в тех единицах измерения, в которых даны значения.

Ответы на эти вопросы возможны только после полного "погружения"  в теоретико-вероятностные представления. Вывод формулы для несмещенной оценки дисперсии по выборочным данным и, как следствие, формулы для стандартного отклонения (формулы с \(N-1\) в знаменателе), потребовал бы введения понятий случайных величин из теории вероятностей, а это привело бы к увеличению материала, либо оперированию понятиями, объяснения которым пришлось бы искать в специализированных учебниках.

Здесь, учитывая ориентированность статей на проведение вычислительных экспериментов, мы рассмотрим эксперимент, демонстрирующий, почему все-таки делить на \(N-1\) для характеристики разброса "правильней".

Будем генерировать выборки из нормального распределения различного размера (размер варьируется от 3 до 100 элементов) по 500 раз каждую. Таким образом, будем иметь 500 трехэлементных выборок, 500 четырехэлементных выборок и т.п. Для каждой из выборок вычислим стандартное отклонение по формуле:
$$ \hat{s} = \sqrt{\frac{1}{N}\sum\limits_{i=0}^N(x_i - m)^2}$$
Далее построим оценки плотностей распределения (для ясности — "сглаженные" гистограммы значений) для полученных наборов при различных объемах выборок. Например, для объема выборки "5" будем иметь следующий график оценки плотности:

Пример оценки плотности значений стандартных отклонений

Таким образом, из рисунка следует, что основная "масса" стандартных отклонений несколько меньше их ожидаемого значения (которое равно 1, вследствие единичной дисперсии по построению). Иначе говоря, имеет место смещение. Из-за этого смещения, даже осредняя полученный набор из 500 оценок стандартных отклонений для нашей выборки из 5 элементов, мы не получим  значение, близкое к 1 (а очень хотелось бы; нужно еще отметить, что свой вклад в "смещение" вносит операция взятия корня, поэтому более рационально рассматривать квадрат стандартного отклонения, или оценку дисперсии; но здесь это не принципиально, важно – наличие смещения).

По набору сгенерированных оценок плотности можно проследить как изменяется положение "смещения" в зависимости от размеров (параметр N на рисунке) выборки:

Влияние размеров выборки на смещение оценки среднеквадратического отклонения

Для генерации набора рисунков использовался следующий код Python, а файл анимации собран при помощи редактора ImageMagick:

from pylab import *
import seaborn as sns


for j in xrange(3, 100):
    x = np.random.randn(500, j)
    vx = np.sqrt(np.var(x, axis=1, ddof=1))
    f = figure(figsize=(3, 2))
    sns.kdeplot(vx)
    ax = gca()
    ax.set_xlim(0, 5)
    ax.set_ylim(0, 5)
    f.suptitle("N = {0}".format(j))
    f.savefig("{0:02}.png".format(j), dpi=100)
    close(f)

В заключение, приведем графики иллюстрирующие наличие смещения в оценках дисперсии (когда в знаменателе N - рисунок справа) и (когда в знаменателе N-1 - рисунок слева):

  К иллюстрации дисперсии при оценки дисперсии по выборочным данным Иллюстрация смещения при оценке дисперсии по выборочным данным

Наличие смещение также характеризует вычисленное среднее значение (дано в заголовке рисунка — параметр mean): его величина, в случае отсутствия смещения, должна быть близка к 1.

В математической статистике, на базе представлений теории вероятностей, доказывается, что отсутствие смещения в оценке дисперсии по выборочным данным достигается, когда в знаменателе стоит \(N-1\). При больших выборках, даже начиная с выборок с несколькими десятками элементов, это смещение практически не проявляется.

Рассмотрим это доказательство. Пусть \(x_1, x_2, \ldots, x_N\) — независимые одинаково распределенные случайные величины (для упрощения выкладок также будем полагать, что их математическое ожидание равно нулю; оцениваемую дисперсию будем обозначать \(\sigma^2\)). Рассмотрим их оценку дисперсии: $$\hat{s}^2 = \frac{1}{N}\sum\limits_{i=1}^N(x_i-m)^2, m = \frac{1}{n}\sum\limits_{i=1}^Nx_i$$

С помощью простых алгебраических преобразований данное соотношение приводится к виду: $$\hat{s}^2 = \frac{N-1}{N^2}\sum\limits_{i=1}^Nx_i^2-2\sum\limits_{i<j}x_ix_j$$

В духе статистического анализа, полагая выборочные данные \(x_i\) случайными величинами и рассматривая математическое ожидание от выражения для \(\hat{s}^2\), придем,  в силу независимости случайных величин, к тому, что \(E\left(\sum\limits_{i<j}x_ix_j\right) = 0\) где \(E(\cdot)\) — операция взятия математического ожидания, и $$E\left(\hat{s}^2\right) = \frac{N-1}{N^2}\sum\limits_{i=1}^NE(x_i^2) = \frac{(N-1)\cdot N}{N^2}\sigma^2.$$

Несмещенность оценки означает, что ее математическое ожидание должно быть равно теоретическому значению оцениваемого параметра; в данной формуле это было бы достижимо, если множитель \(\frac{N(N-1)}{N^2}\) был бы равен единице, чего можно достигнуть, используя в первоначальной формуле для \(\hat s^2\) знаменатель \(N-1\).

Из рассуждений следует, что при увеличении объемов выборки вклад смещения весьма мал, но, тем не менее, имеет место вывод: занимаясь прикладной обработкой данных, лучше использовать классическую (с \(N-1\) в знаменателе) формулу для стандартного отклонения (и оценки дисперсии) — она позволяет избежать нежелательных смещений в оценке; использовать формулу со значением \(N\)  в знаменателе можно, либо если исследования ведутся в отрыве от представлений математической статистики (это не значит, что такие исследования не заслуживают доверия; подробней об этом можно прочесть здесь: Алимов Ю.И. Альтернатива методу математической статистики (1980)), либо в случае выборок достаточно большого объема; однако, риск, что в этом случае вас поймут неправильно, существенно возврастает...

blog comments powered by Disqus