Понятие среднего значения

Роль математики в развитии естественных наук сегодня трудно переоценить. Ее методы все глубже проникают в трудно формализуемые области знаний, обогащая последние интерпретациями и, как результат, стимулируют в них появление новых идей. Сейчас уже сложно согласиться с мнением, что использование математики, например, в биологических науках, ограничивается лишь методической ее частью и связана исключительно с обработкой данных.

Рассмотрим наиболее часто используемую в прикладных исследованиях статистическую величину — среднее значение — и дадим ей геометрическую интерпретацию.

Среднее значение, к интерпретации

Среднее значение и дисперсия

Понятия среднего и дисперсии возникли из нужд практики численно характеризовать набор измерений, объединенных по тому или иному принципу в группу. Для "средней величины" при этом отводится роль числа, характеризующего набор имеющихся значений в целом. Выбор такого значения — определение средней величины — очевидно, может быть реализовано множеством способов, в зависимости от требуемых свойств вводимой величины. В частности, если имеется множество измерений некоторого физического параметра (например, длины какого-либо объекта), выполненных прибором, имеющем определенную погрешность инструментальных измерений, среднее значение может быть определено как число, лежащее на минимальном суммарном "расстоянии" от всех остальных чисел. Тогда, искомое среднее значение (обозначим его \(m\)) — число досталяющее минимум функции \(Q_1(a)=|x_1-a|+|x_2-a|+\ldots+|x_n-a|\), где \(x_1,\ldots,x_n\) — набор значений, для которого вычисляется среднее. Тем не менее, определенное таким образом среднее обладает рядом особенностей. Во-первых, в случае выборки, состоящей из двух значений (или даже любого четного их числа), функция \(Q_1(a)\) имеет не один минимум (см. рис. слева, на котором  дано определение среднего арифметического (\(a^{\ast}\)) и медианы (\(m\)) (по оси ординат масштабы для каждого из графиков разные)) и, следовательно, возникает вопрос какое из них должно быть выбрано в качестве определения среднего. Другим нежелательным следствием прямого использования расстояния между числами является недиффиренцируемость расстояния (функции модуля числа), вносящее определенные математические трудности, в частности, затрудняющее поиск минимума функции \(Q_1(a)\). Поскольку квадрат расстояния обладает теми же прикладными качествами, что и исходное расстояние (точнее, возрастает, убывает и обращается в нуль одновременно с расстоянием), среднее значение можно определить как число, сумма квадратов расстояний от которого до остальных чисел минимальна. Квадрат расстояния между числами — функция гладкая (не имеет углов; строгое определение гладкости функции можно найти в (Фихтенгольц, 2001)), и задача об определении среднего значения в этом случае может быть решена средствами классического математического анализа. Ее решение — хорошо известное среднее арифметическое. Таким образом, среднее арифметическое совокупности величин \(\{x_1,\ldots, x_n\}\) доставляет минимальное (убедиться в этом можно воспользовавшись сначала необходимыми, а потом достаточными условиями локального экстремума функции (Фихтенгольц, 2001): \(\dfrac{dQ_2}{da}=0\)(приводит к уравнению для среднего арифметического) и \(\dfrac{d^2Q_2}{da^2}>0\) (подтверждает, что среднее арифметическое — минимум \(Q_2(a)\)) значение функции \(Q_2(a)=\sum\limits_i(x_i-a)^2\).

Графики функций \(Q_1(a)\) и \(Q_2(a)\) приведенные на рисунке для определенного набора значений \(\{x_1,x_2,x_3,x_4\}\). Из представленной иллюстрации видно, что минимальное значение функции \(Q_1(a)\)достигается для любой точки из интервала \([x_2,x_3]\), и, таким образом, имеет
место отмеченная выше неопределенность в выборе среднего. В этом случае в качестве среднего (по соглашению) может быть  выбрана середина интервала, на котором достигается минимум функции \(Q_1(a)\). Это значение называется медианой выборки (на рисунке). В случае нечетного числа элементов выборки (при условии, что все элементы различны) такой ситуации не возникает, и медиана определяется однозначно. Среднее арифметическое (\(a^{\ast}\)) вне зависимости от четности или повторяемости элементов выборки определяется однозначно, что следует из вида функции \(Q_2(a)\) и условий локального минимума (Фихтенгольц, 2003).

Общее определение средней величины было дано французским математиком О. Коши (1789–1857), который называл средним значением величин  \(\{x_1,\ldots, x_n\}\) любую их функцию \(f(x_1,\ldots,x_n)\), результат действия которой лежит между максимальным и минимальным значениями ее аргументов. Более определенная, аксиоматическая характеристика среднего была дана А.Н.Колмогоровым (1908–1987), который на базе введенных четырех аксиом указал конкретный вид выражения для функции  \(f(x_1,\ldots,x_n)\). Среднее по А.Н. Колмогорову имеет вид:$$
f(x_1,\ldots,x_n)=\varphi^{-1}\left(\sum\limits_{i=1}^n\varphi(x_i)\right),
$$
где \(\varphi(x)\) — строго неубывающая или невозрастающая непрерывная функция, \(\varphi^{-1}(x)\) — обратная функция к \(\varphi(x)\), т.е. для любого \(x\) справедливо \(\varphi^{-1}(\varphi(x))=x\).

Таким образом, среднее арифметическое и медиана удовлетворяют аксиоматике Коши, однако медиана не является средней величиной по Колмогорову. Причина тому нарушение аксиомы непрерывности среднего  от выборочных значений.

На практике распространены задачи, когда требуется численно охарактеризовать разброс выборочных значений, что, например, важно для оценки инструментальных погрешностей прибора по набору однородных измерений какого-либо физического параметра, при объективной оценке ширины ареала обитания вида в факторном пространстве по эмпирическому материалу и др. Как и в случае определения среднего значения эта задача может быть решена множеством способов. Первостепенный шаг в ее решении — определение опорного значения (не обязательно принадлежащего выборке), относительно которого будет вычисляться мера разброса.

Внимательный читатель может заметить, что можно ввести меру разброса не привязываясь к какому-либо опорному значению, например, положив в качестве разброса расстояние между максимальным и минимальным элементами выборки: \(s=x_{\max}-x_{\min}\). Однако и в этом, и в любом другом случае, опорное значение может быть введено искусственно: \(s=(x_{\max}-r)+(r-x_{\min})\), где выражения в скобках — суть расстояния от \(x_{\min}\) и \(x_{\max}\) до произвольной опорной точки \(r\). Поэтому в дальнейших построениях будем полагать существование такой опорной точки.

Возвращаясь к определению средней величины заметим, что значения функций \(Q_1(a)\) и \(Q_2(a)\) могут рассматриваться как разбросы выборочных значений относительно точки \(a\), измеряемые суммой расстояний и квадратов расстояний соответственно. Учитывая, что \(Q_1(m)\) и \(Q_2(a^{\ast})\) определяются однозначно, то они могут быть приняты в качестве мер разброса. Опорными значениями в этом случае будут \(m\) и \(a^{\ast}\).  Значение \(Q_1(m)\) в расчетах практически не используется, что связано прежде всего с нежелательными свойствами модуля, отмеченными выше. Величина \(\sigma^2=\dfrac{Q_2(a^{\ast})}{n}=\dfrac{1}{n}\sum\limits_{i=1}^n(x_i-a^{\ast})^2\) хорошо известная выборочная дисперсия. Таким образом, \(\sigma^2\) — нормированная на \(n\) величина суммы квадратов уклонений выборочных значений относительно своего среднего; существуют и другие подходы к определению \(\sigma^2\): это значение можно рассматривать, как среднее арифметическое для производной от $\{x_1,\ldots.\,x_n\}$ выборки \(\{(x_1-a^{\ast})^2,\ldots.\,(x_n-a^{\ast})^2\}\), все элементы которой заведомо неотрицательны и характеризуют разброс относительно среднего арифметического \(a^{\ast}\), можно также мыслить \(\sigma^2\) и \(a^{\ast}\) как результат минимизации \(\hat Q_2(a)=\dfrac{1}{n}Q_2(a)\), в этом случае минимум \(\hat Q_2(a)\) достигается также при \(a=a^{\ast}\), а \(\sigma^2=\hat Q_2(a^{\ast})\).

Введенные числовые характеристики самодостаточны, они не требуют накаких дополнительных ограничений на элементы выборки. Даже вне вероятностного аппарата на  их основе могут быть решены некоторые задачи, например, задача о выявлении эффективности действия какого-либо удобрения на урожайность культуры. В этом случае, если у экспериментатора имеются две выборки, представляющие урожайность культуры, выращенной в условиях воздействия удобрения и в естественных условиях, то при различии средних значений у двух выборок могут быть сделаны первоначальные выводы относительно эффективности или неэффективности удобрения. Однако к полученным таким образом выводам следует относиться с известной осторожностью (вообще говоря, как и ко всем выводам, сделанным при помощи математической статистики), особенно в тех случаях, когда различия в средних значениях невелики и подвержены сильным флюктуациям при дальнейшем добавлении к выборкам новых элементов. Более определенная схема исследований возможна на базе представлений теории вероятностей, когда каждое измерение урожайности предполагается случайной величиной. В этом случае первую (полученную при использовании удобрения) выборку представляют одинаково распределенные случайные величины, имеющие  одно распределение,  а вторую (полученную в естественных условиях) — некоторое другое распределение. При достаточно общих условиях в теории вероятностей доказывается утверждение (центральная предельная теорема) о том, что  распределение суммы независимых одинаково распределенных случайных величин имеет вполне определенное расределение, не зависимо от того, какое распределением имели случайные величины, образующие сумму. Поскольку среднее арифметическое — сумма случайных величин,  оно в свою очередь также является случайной величиной и, более того, имеет вполне определеный закон распределения. Это позволяет строить выводы о различии средних двух выборок (в прикладной интерпретации — выводы об эффективности применения удобрения), давая им вероятностную характеристику. Более подробная информация по данному вопросу может быть найдена в (Гмурман, 2004). Изложенный вероятностный подход к решению задачи является общепринятым, однако и при его использовании есть свои тонкости (Алимов, 1980), связанные с адекватностью вероятностных моделей в  конкретных задачых.  Так в работе (Чайковский, 2004; с. 25), указывается что "почти всякий текст, даже очень длинный, обладает тем свойством, что около половины слов встречается в нем всего однажды, так что частоту его ввести всерьез нельзя; да и у часто употребляемых слов частоты могут варьировать, даже в пределах одного автора и тематики, так сильно, что о вероятности (если понимать ее как устойчивую частоту) говорить нет смысла"; там же (с. 62) указывается тот факт, что знаменитый эксперимент К. Пирсона, показавший поразительную сходимость частоты выпадения "герба" при 24000-ом подбрасывании монеты (частота оказалась равной 0.5005), вероятнее всего, — вовремя прерванный эксперимент (Тутубалин, 1992; с. 119): "... сначала Пирсон бросил монету 6000 раз, но результат ему не понравился. Тогда он бросил ее еще 6000 раз и опять не понравилось. Пришлось бросить монету еще 12000 раз, и результат (всех бросаний) оказался замечательным". Подробности, посвященные адекватности моделей теории вероятностей и обсуждению принципиальных вопросов примененимости методов математической статистики можно найти в работах (Алимов, 1980; Чайковский, 2004; Тутубалин, 1992).

Литература

  1. Колмогоров А.Н. Избранные труды. Математика и механика. 1985. С. 136-138
  2. Фихтенгольц Г.М. Курс математического анализа. 2003. Т. 1. 680 с.
  3. Гмурман В.Е.  Теория вероятностей и математическая статистика. 2004. 404 с.
  4. Алимов Ю.И. Альтернатива методу математической статистики.  1980. 64 с.
  5. Чайковский Ю.В. О природе случаности. [2 изд.]  2004. 280 с.
  6. Тутубалин В.Н. Теория вероятностей и случайных процессов. 1992. 400 с.

 

blog comments powered by Disqus