Документ взят из кэша поисковой машины. Адрес оригинального документа : http://ecology.genebee.msu.ru/3_SOTR/CV_Terekhin_publ/2002_Matstat.doc
Дата изменения: Mon Mar 16 11:00:12 2009
Дата индексирования: Mon Oct 1 21:03:51 2012
Кодировка: koi8-r

Глава 2. Основы математической статистики
[pic]

Задача математической статистики, в строгом понимании этого термина,
состоит в разработке и применении методов описания реальных явлений
вероятностными моделями, исходя из данных, полученных в результате
наблюдений за этими явлениями.

В более широком смысле математическая статистика понимается как
совокупность методов планирования экспериментов и обработки данных,
полученных в результате экспериментов или наблюдений, причем эти методы
могут не основываться на вероятностных моделях. При таком широком понимании
вместо термина «математическая статистика» часто используют термин «анализ
данных».

Исторически вначале сформировались методы обработки данных, не связанные
тесно с теорией вероятности, так называемая дескриптивная, или
описательная статистика. С начала этого века начали интенсивно развиваться
методы анализа данных, основанные на вероятностных моделях, - это, прежде
всего, методы статистического оценивания и статистической проверки гипотез,
о которых, в основном, и будет идти речь в данной главе.

Бурное развитие вычислительной техники вызвало к жизни ряд новых методов
анализа. Некоторые из этих методов разработаны на основе подходов, отличных
от теоретико-вероятностного (геометрические, оптимизационные и др.).
Вероятностное обоснование этих методов либо отсутствует, либо недостаточно
развито, что затрудняет количественную оценку степени достоверности
получаемых выводов аналитическими средствами классической математической
статистики. Однако в последние годы, в связи с быстрым ростом
производительности вычислительных машин, начали также получать
распространение процедуры так называемого случайного моделирования
(пермутационные методы, бут-стрэп и др.), позволяющие оценить
статистические свойства получаемых решений без использования аналитических
методов.

Начнем рассмотрение методов математической статистики с ее исходного
понятия - понятия случайной выборки.

2.1 Случайная выборка и ее описание

Понятие случайной выборки тесно связано с понятием случайного испытания и
случайной величины, о которых шла речь в предыдущей главе. Случайная
выборка представляет собой совокупность наблюдений [pic] случайной величины
[pic], полученных в [pic] независимых случайных испытаниях. Число
полученных наблюдений [pic] называется объемом выборки. Образно можно
представить процесс получения случайной выборки как извлечение наудачу
значений из гипотетической бесконечной генеральной совокупности, где
разные значения содержатся в пропорциях, соответствующих распределению
случайной величины, и тщательно перемешаны между собой. Случайная величина
может быть не только одномерной, но и многомерной, например, когда у
случайно выбранного животного измеряется несколько характеристик: размер,
вес и т.д. В этом случае каждая из компонент выборки будет вектором.

Конкретная случайная выборка - это просто набор значений случайной
величины [pic] (во избежание чрезмерного усложнения обозначений будем
считать ее одномерной). Однако при оценке информации, которую несет эта
выборка, мы должны рассматривать ее как одну из бесконечного числа
потенциально возможных выборок объема [pic], т. е. как векторную [pic]-
мерную случайную величину

[pic]

компонентами которой являются n элементов выборки. Из условий получения
выборки следует, что случайные величины [pic] имеют одинаковые функции
распределения [pic], совпадающие с функцией распределения [pic] исходной
случайной величины [pic]. Кроме того, случайные величины [pic] по
определению случайной выборки независимы, поэтому их совместная функция
распределения равна произведению одномерных функций распределения

[pic]

Как правило, информация, содержащаяся в выборке, интересует нас не
столько сама по себе, сколько как информация обо всей генеральной
совокупности. Однако чтобы отвечать этой цели, выборка должна быть
правильно организованной и представительной. Существует специальный раздел
математической статистики - планирование выборочных обследований. Мы будем
рассматривать только один способ получения выборки - простой случайный
выбор. В принципе схема его проста: из тщательно перемешанной генеральной
совокупности извлекается наудачу [pic] значений. На практике, однако, дело
обстоит сложнее. Предположим, что мы отловили [pic] взрослых животных
определенного вида и измерили их массу. Какую генеральную совокупность
представляет эта выборка? Всех животных данного вида, т. е. живущих в
разных местах, прошлых и будущих? Или популяцию, обитающую в данной
местности? Или популяцию, обитающую в данной местности в данный год?
Конечно, чем уже мы будем понимать генеральную совокупность, описываемую
данной выборкой, тем ближе мы будем к истине, но, возможно, тем меньший
интерес для нас она будет представлять.

Итак, мы имеем случайную выборку [pic] значений случайной величины [pic]
с неизвестным распределением [pic]. Как нам разумно распорядиться этими
значениями, чтобы получить представление о распределении [pic], т.е. о
генеральной совокупности, из которой извлечена эта выборка?

Можно использовать следующий эвристический принцип - будем считать, что
исследуемая нами генеральная совокупность близка к гипотетической
генеральной совокупности, состоящей только из значений [pic], содержащихся
в ней в равной пропорции, т.е. случайная величина [pic] близка к случайной
величине [pic], принимающей [pic] значений [pic] с вероятностями [pic]
(это, действительно, максимум информации о значениях случайной величины и
их вероятностях, которую можно извлечь из выборки). Распределение случайной
величины [pic] называется эмпирическим распределением случайной величины
[pic], а ее функция распределения [pic] - эмпирической функцией
распределения. Очевидно, что каждой выборке соответствует своя эмпирическая
функция распределения, т.е. можно сказать, что [pic] - случайная функция.
[pic] представляет собой ступенчатую функцию, возрастающую от 0 до 1 со
скачками высотой [pic] в точках [pic] (очевидно, если некоторое значение
повторяется [pic] раз, то ему будет соответствовать один скачок величиной
[pic]). Можно определить эмпирическую функцию формулой [pic], где [pic] -
число значений выборки, не превосходящих [pic].

Пример. Пусть случайная величина [pic] - это длина лепестка случайно
выбранного цветка ириса разноцветного (Iris versicolor). Следующий ряд
чисел содержит значения длин (в см) пятидесяти случайно выбранных
лепестков:

|4.6 |4.5 |4.8 |4.6 |5.1 |3.9 |4.5 |4.7 |4.7 |4.5 |
|4 |3.8 |4.5 |4 |4.4 |4.4 |4.5 |4.1 |4.5 |3.5 |
|4.2 |3.3 |4.2 |4.2 |4.6 |3.9 |4.5 |3.5 |3.7 |3.9 |
|4.3 |4.2 |4 |4.7 |4.4 |4.1 |4.9 |4.7 |4.3 |3 |
|4.1 |4.7 |3.6 |4.9 |4 |4 |4.4 |4.8 |5 |3.3 |

Упорядочим эти значения по величине, т.е. представим их в виде так
называемого вариационного ряда:

|3 |3.3 |3.3 |3.5 |3.5 |3.6 |3.7 |3.8 |3.9 |3.9 |
|3.9 |4 |4 |4 |4 |4 |4.1 |4.1 |4.1 |4.2 |
|4.2 |4.2 |4.2 |4.3 |4.3 |4.4 |4.4 |4.4 |4.4 |4.5 |
|4.5 |4.5 |4.5 |4.5 |4.5 |4.5 |4.6 |4.6 |4.6 |4.7 |
|4.7 |4.7 |4.7 |4.7 |4.8 |4.8 |4.9 |4.9 |5 |5.1 |

На рис. 2.1 представлено построенное на основе этого вариационного ряда
эмпирическое распределение случайной величины [pic], для этой выборки, т.е.
распределение случайной величины [pic], а на рис. 2.2 - соответствующая
эмпирическая функция распределения [pic].

[pic]

Рис.2.1. Пример эмпирического распределения
[pic]

Рис.2.2. Пример эмпирической функции распределения

Поскольку эмпирическая функция распределения [pic] является оценкой для
[pic] (можно доказать, что при [pic] вероятность того, что максимальное
расхождение между [pic] и [pic] не превзойдет заданного малого числа [pic],
стремится к единице), можно взять характеристики [pic] в качестве оценок
характеристик генерального распределения.

Ниже мы приводим полученные таким образом формулы для некоторых
выборочных характеристик.

|Название характеристики |Формула |
| |[pic] |
|Выборочный момент порядка [pic] | |
|Выборочный центральный момент |[pic] |
|порядка [pic] | |
|Выборочное среднее - первый нецентральный |[pic] |
|момент | |
|Выборочная дисперсия - второй центральный |[pic] |
|момент | |
| |[pic] |
|Выборочный коэффициент асимметрии | |
| |[pic] |
|Выборочный коэффициент эксцесса | |

Зная эмпирическую функцию распределения, можно также найти эмпирические
квантили, квартили и итерквартильную широту точно так же, как в случае
обычной (теоретической) функции распределения. А именно, выборочная
квантиль [pic] порядка [pic] получается как абсцисса точки пересечения
горизонтальной прямой, пересекающей ось ординат в точке [pic], с
эмпирической функцией распределения [pic] (если пересечение не точка, а
отрезок, то в качестве квантили можно взять абсциссу середины этого
отрезка). Выборочные квантили [pic] дают соответственно выборочную нижнюю
квартиль [pic], выборочную медиану [pic] и выборочную верхнюю квартиль
[pic], а разность [pic] - выборочную интерквартильную широту. Еще одна
характеристика разброса значений случайной величины - размах [pic]
определяется как разность между максимальным и минимальным значением в
выборке.

Если наблюдается не одномерная, а двумерная случайная величина [pic], т.
е. выборка состоит из [pic] пар значений [pic], то можно вычислить
выборочный коэффициент ковариации для [pic] и [pic]

[pic]

где

[pic]

Выборочный коэффициент корреляции определяется формулой

[pic]

где

[pic]

Выборочную моду [pic] целесообразно оценивать для дискретного и
непрерывного генерального распределения различными способами. В дискретном
случае оценкой моды будет значение, встретившееся в выборке наибольшее
число раз. В непрерывном случае повторяющиеся значения редки или вообще
отсутствуют, поэтому следует разбить диапазон изменения наблюденных
значений точками [pic] на [pic] равных промежутков [pic] длиной [pic] и в
качестве выборочной моды взять середину интервала, в который попало
наибольшее число значений.

Ниже даны значения характеристик, вычисленные для приведенного выше
примера данных о длинах лепестков ириса.

|Название характеристики |Значение характеристики |
|Выборочное среднее |[pic] |
|Выборочная дисперсия (несмещенная оценка |[pic] |
|- см. п. 2.2.1) | |
|Выборочный коэффициент асимметрии |[pic] |
|Выборочный коэффициент эксцесса |[pic] |
|Минимум |[pic] |
|Максимум |[pic] |
|Размах |[pic] |
|Нижняя квартиль |[pic] |
|Верхняя квартиль |[pic] |
|Интерквартильный размах |[pic] |
|Медиана |[pic] |
|Мода |[pic] |

Результаты разбиения диапазона изменения значений выборки на интервалы и
последующего подсчета числа значений [pic], попавших в интервалы [pic],
можно представить графически. Построив над каждым интервалом [pic] столбик
высотой [pic], мы получим так называемую гистограмму. Если при построении
гистограммы оперировать не числом значений, попавших в интервалы, а их
относительной частотой в выборке [pic] и откладывать столбики высотой
[pic], то полученная гистограмма будет выборочным аналогом плотности
непрерывного распределения. В частности, сумма площадей всех столбиков
гистограммы будет равна единице, как и для плотности распределения.
Очевидно, что поскольку частоты [pic] пропорциональны численностям [pic],
гистограммы для численностей и частот различаются только масштабом шкалы по
оси ординат. На рис. 2.3 приведен пример гистограммы для рассмотренной выше
выборки, содержащей 50 значений длин лепестков ириса (заметим, что рис. 2.3
можно рассматривать как результат преобразования рис. 2.1 путем группировки
значений на оси абсцисс).

[pic]

Рис.2.3. Пример гистограммы.

При построении гистограммы возникает трудно формализуемая проблема выбора
оптимальных длин интервалов разбиения [pic]. Обычно число интервалов
разбиения выбирают из расчета, чтобы в каждый интервал попало в среднем не
менее десяти наблюдений (при очень малых объемах выборки это число
уменьшают). Таким образом, при увеличении объема выборки [pic] можно
уменьшать длины интервалов разбиения и более детально характеризовать
выборку, а следовательно, и порождающее ее генеральное распределение. По
сравнению с эмпирической функцией распределения гистограмма более наглядна,
однако при ее построении привносится элемент субъективизма. В принципе,
можно построить гистограмму и на основе интервалов разбиения разной длины,
но тогда процедура ее построения несколько усложняется и поэтому такие
гистограммы используются довольно редко.

2.2. Статистическое оценивание

Допустим, что у нас имеется случайная выборка [pic] значений некоторой
случайной величины [pic]. Распределение этой случайной величины может быть
либо полностью неизвестным, либо частично известным, например, может быть
известна его функциональная форма (вид функции распределения или плотности
в непрерывном случае и формулы, определяющей вероятности отдельных
значений, - в дискретном). Если вид распределения неизвестен, то нас могут
интересовать различные его характеристики - математическое ожидание, мода,
медиана, дисперсия, интерквартильная широта, моменты, асимметрия, эксцесс и
т.д. Если же вид распределения известен, а неизвестны лишь значения
определяющих его параметров, нас могут интересовать также (или даже прежде
всего) значения этих параметров, например, параметров [pic] и [pic] в
случае нормального распределения, параметра [pic] - в случае
пуассоновского, параметра [pic] - в случае биномиального. Задача оценивания
неизвестного параметра или характеристики [pic] распределения случайной
величины [pic] состоит в вычислении на основе значений выборки [pic]
величины [pic], в каком-то смысле близкой к оцениваемому параметру или
характеристике и называемой точечной оценкой [pic], поскольку за оценку
неизвестного параметра [pic] принимается конкретное значение (точка),
вычисляемое по выборке (см., напр., Кендалл, Стьюарт, 1973). Точечные
оценки рассматриваются в п. 2.2.1. В п. 2.2.2 будут рассмотрены так
называемые интервальные оценки.

2.2.1. Точечное статистическое оценивание

Фактически мы решали задачу оценивания, когда рассматривали выборочные
математическое ожидание, дисперсию и т.д. как оценки неизвестных
генеральных характеристик. Однако этот подход к оцениванию был скорее
интуитивным, и сейчас мы попробуем его формализовать. Эта формализация
касается уточнения смысла близости выборочной оценки [pic] к оцениваемому
параметру [pic]. Заметим, прежде всего, что [pic] является случайной
величиной, значения которой меняются от выборки к выборке. Для некоторых
выборок значение [pic] может оказаться очень близким к оцениваемому
параметру [pic], для других - довольно далеким. Можно, однако, потребовать,
что хотя бы в среднем оценки для разных выборок группировались вокруг
оцениваемого параметра, т.е. чтобы выполнялось условие [pic]. Оценки,
удовлетворяющие этому условию называются несмещенными. Отметим, что в
зависимости от контекста мы рассматриваем [pic] либо как случайную величину
(и только в этом случае мы имеем право говорить о математическом ожидании
[pic] - как это было в приведенном определении несмещенности), либо как
алгебраическую формулу для вычисления значения оценки по выборке, либо
просто как конкретное значение, полученное для конкретной выборки.

Можно доказать, пользуясь свойствами математического ожидания и
определением выборки, что выборочное математическое ожидание (чаще
используется термин выборочное среднее) [pic] является несмещенной оценкой
истинного математического ожидания (генерального среднего) [pic].
Действительно, имеем

[pic]

(мы воспользовались также тем очевидным фактом, что распределение любой
компоненты выборки [pic], совпадает с распределением анализируемой
случайной величины [pic]).

Однако, вопреки нашей интуиции, математическое ожидание выборочного
второго центрального момента

[pic]

не равно генеральной дисперсии. Для получения несмещенной оценки дисперсии
[pic] надо разделить сумму квадратов на [pic], а не на [pic].
Действительно, пользуясь свойствами математического ожидания, в частности
тем, что математическое ожидание произведения независимых случайных величин
равно произведению их математических ожиданий, получаем

[pic]

Таким образом, несмещенной оценкой для [pic] будет [pic] - сумма
квадратов отклонений от среднего, деленная на [pic]

[pic]

Следует, однако, отметить, что хотя выборочный центральный момент второго
порядка не является несмещенной оценкой для дисперсии [pic], его смещение
(отклонение математического ожидания оценки от [pic]), равное [pic],
стремится к нулю при [pic]. Оценки, удовлетворяющие этому свойству,
называются асимптотически несмещенными, и часто, когда не удается найти
несмещенной оценки для оцениваемого параметра, довольствуются
асимптотически несмещенными оценками. Конечно, нас не очень интересует, что
происходит со смещением при [pic], когда мы имеем дело с конкретной
выборкой фиксированного объема [pic]. Скорее, мы предпочитаем
асимптотически несмещенные оценки из-за того, что, как правило, их смещение
относительно невелико при не очень малых объемах выборки. Например,
смещение [pic] при [pic] равно 2% .

Конечно, коль скоро [pic] есть несмещенная оценка для [pic], то ей и
следует пользоваться. Однако нас чаще интересует не столько оценка
дисперсии [pic] случайной величины (, сколько оценка ее среднеквадратичного
отклонения [pic]. Естественно взять в качестве оценки среднеквадратичного
отклонения квадратный корень несмещенной оценки, т.е. [pic], однако следует
помнить, что [pic] не будет несмещенной оценкой для [pic], а будет лишь
асимптотически несмещенной.

Итак, на примере с получением несмещенной оценки дисперсии мы убедились,
что "естественный" способ получения оценок, состоящий в использовании
характеристик выборочного распределения в качестве оценок характеристик
генерального распределения не всегда приводит к наилучшим результатам.
Существует ряд регулярных приемов получения оценок, такие как метод
моментов или метод максимального правдоподобия (см. ниже), но они не всегда
приводят к наилучшим оценкам (например, с точки зрения несмещенности).
Поэтому общий подход к задаче оценивания состоит в том, что в качестве
претендента на оценку характеристики или параметра (для краткости мы иногда
будем использовать только термин «параметр») [pic] генерального
распределения по случайной выборке [pic] в принципе может взята любая
функция [pic] от компонент выборки (вместо словосочетания «функция от
выборки» обычно используют более краткий термин «статистика»), среди
которых должна быть выбрана наилучшая.

У нас уже есть один критерий для сравнения оценок - это наличие или
отсутствие несмещенности (хотя бы асимптотической). Однако этого
недостаточно. Действительно, было показано, что выборочное среднее [pic]-
несмещенная оценка для математического ожидания [pic]. Но можно предложить
другие несмещенные оценки для математического ожидания. Например, полусумма
первого и второго значений выборки [pic], как легко показать, будет также
несмещенной оценкой для [pic]. Конечно, интуитивно мы чувствуем, что [pic]
- более предпочтительная оценка, поскольку она более полно учитывает
информацию, содержащуюся в выборке. Однако необходим какой-то критерий,
позволяющий чисто формально показать, что [pic] лучше оценок типа [pic].
Таким критерием, может служить состоятельность оценки. Оценка [pic]
называется состоятельной, если при [pic] она сходится по вероятности к
оцениваемому параметру [pic], т.е. если для любого положительного [pic]
выполняется условие

[pic]

Достаточным условием состоятельности оценки [pic] является ее
несмещенность и стремление дисперсии оценки [pic] к нулю при увеличении
объема выборки, т.е. оценка будет состоятельной, если [pic] и [pic].
Справедливость этого утверждения непосредственно следует из неравенства
Чебышева, которое в данном случае имеет следующий вид

[pic]

Пользуясь этим достаточным условием, покажем, что выборочное среднее
[pic] является состоятельной оценкой математического ожидания. Поскольку
несмещенность [pic] уже была доказана, осталось показать, что [pic] при
[pic]. Действительно, имеем

[pic]

Таким образом [pic] - состоятельная оценка для математического ожидания
[pic] случайной величины [pic]. И, наоборот, как легко видеть, полусумма
[pic] первого и второго значений выборки, будучи несмещенной, не является
состоятельной, поскольку ее дисперсия не стремится к 0 при неограниченном
увеличении [pic]

[pic]

Аналогично можно доказать, что несмещенная оценка дисперсии [pic]
является состоятельной оценкой для генеральной дисперсии [pic].

Еще одним желательным свойством оценки является ее эффективность.
Несмещенная оценка [pic] параметра [pic] называется эффективной оценкой,
если [pic] для любой другой несмещенной оценки [pic]. Дело в том, что две
оценки, будучи обе несмещенными и состоятельными, могут различаться своими
дисперсиями. Например, следующая оценка для математического ожидания

[pic]

будет, как легко проверить, несмещенной и состоятельной. Однако она не
будет эффективной, т.к. ее дисперсия [pic] больше дисперсии [pic], которая
равна [pic].

Выше было сказано, что любая функция от выборки может рассматриваться как
потенциальая оценка параметра или характеристики наблюдения. Тем не менее,
по крайней мере, для получения начальных выражений для оценок, полезно
использовать регулярные методы. Полученные таким методом оценки следует
проверить на несмещеннось, состоятельность и эффективность и затем, если
необходимо, подкорректировать (подобно тому, как это было сделано с
первоначально смещенной оценкой дисперсии). Наиболее часто для получения
оценок применяется метод моментов и метод максимума правдоподобия.

Метод моментов, предложенный К. Пирсоном в 1894 г., а еще ранее в частных
случаях применявшийся Гауссом, состоит в приравнивании некоторого числа
выборочных моментов соответствующим моментам неизвестного теоретического
распределения. Полученная система уравнений будет содержить в качестве
неизвестных параметры теоретического распределения (через которые
выражаются теоретические моменты) и известные выборочные значения, поэтому
решая эту систему относительно неизвестных параметров, мы получим для них
выражения в виде функций от выборочных значений. Можно сказать, что выше,
приравнивая математическое ожидание первому выборочному моменту, а
дисперсию - второму центральному выборочному моменту, мы применили этот
метод (во всяком случае, это так для нормального распределения, у которого
параметры [pic] и [pic] совпадают, соответственно, с первым моментом [pic]
и вторым центральным моментом [pic]).

Метод максимума правдоподобия был впервые предложен Р. Фишером в 1912 г.
Он состоит в том, что в качестве оценок параметров распределения берутся
такие значения неизвестных параметров [pic], которым соответствует
максимальное «правдоподобие» L (от англ. likelihood) появления полученной
выборки [pic], т.е. максимальная вероятность (в дискретном случае)

[pic]

или максимальная плотность вероятности (в непрерывном случае)

[pic]

Поскольку функция правдоподобия [pic] зависит как от неизвестных параметров
теоретического распределения, так и от выборочных значений, то, решая
задачу ее максимизации по [pic], мы найдем выражения неизвестных параметров
[pic] через известные выборочные значения [pic] (см., напр., Крамер, 1975).
Пример применения метода максимального правдоподобия для оценивания
неизвестных параметров можно найти далее в п. 3.3.5, посвященном
логистической регрессии.

2.2.2 Интервальное статистическое оценивание

В предыдущем параграфе мы рассматривали точечные оценки. Однако часто нас
интересует не только конкретное значение оценки, но и такие свойства
оценки, которые ассоциируются с ее точностью и надежностью. Этим
требованиям отвечают так называемые интервальные оценки. Интервальная
оценка - это некоторый интервал [pic] называемый доверительным интервалом,
концы которого (доверительные пределы) зависят от выборочных значений и
заданной доверительной вероятности [pic] и который с заданной вероятностью
[pic], содержит теоретическое («истинное») значение [pic] оцениваемого
неизвестного параметра, т.е.

[pic]

(дополнение [pic] до 1 будем обозначать [pic], т.е. [pic]). Наиболее часто
используются значения доверительной вероятности [pic] равные 0,95 или 0,99
(95%-ный и 99%-ный доверительные интервалы).

2.2.2.1 Доверительный интервал для математического ожидания нормально
распределенной случайной величины с известной дисперсией

Проще всего понять логику интервального оценивания на примере построения
доверительного интервала для математического ожидания нормально
распределенной случайной величины с известной дисперсией. Пусть [pic] -
нормально распределенная случайная величина с неизвестным математическим
ожиданием [pic] и дисперсией [pic], т.е. в наших обозначениях [pic], и
имеется выборка значений этой случайной величины [pic] объема [pic].
Требуется найти доверительный интервал для [pic] с доверительной
вероятностью [pic].

Выше было показано, что выборочное среднее (для любого распределения, в
том числе и нормального) имеет математическое ожидание, равное
математическому ожиданию исходной случайной величины, т.е. [pic], а
дисперсия - дисперсии исходной случайной величины, деленной на [pic], т.е.
[pic]. Следовательно, статистика

[pic]

полученная путем стандартизации выборочного среднего [pic], будет иметь
нулевое математическое ожидание и единичную дисперсию. Поскольку, как мы
знаем, линейные комбинации нормально распределенных случайных величин имеют
также нормальное распределение, а случайная величина [pic] фактически
является линейной комбинацией нормально распределенных случайных величин
[pic] то [pic] будет стандартно распределенной случайной величиной, т.е.
[pic]. Стандартное нормальное распределение - это конкретное, полностью
заданное распределение, квантили которого можно найти в соответствующих
таблицах (или вычислить путем численного интегрирования). В частности,
можно найти симметричные относительно центра распределения границы, внутрь
которых [pic] попадает с заданной вероятностью (

[pic]

или, с учетом симметрии,

[pic]

(через [pic] и [pic] обозначены квантили стандартного нормального
распределения порядка [pic] и [pic]). В частности, справедливы следующие
неравенства

[pic] и [pic]

Подставляя в (2.2) выражение для [pic] из (2.1), получаем

[pic]

или, после преобразований,

[pic]

Это означает, что интервал [pic] будет [pic]-ным доверительным интервалом
для неизвестного математического ожидания [pic] нормального распределения с
известной дисперсией [pic]. В частности, 95%-ным доверительным интервалом
будет интервал [pic], а 99%-ным - [pic]. Мы видим, что ширина
доверительного интервала уменьшается при уменьшении [pic], увеличении
объема выборки и снижении доверительной вероятности.

2.2.2.2 Доверительный интервал для математического ожидания нормально
распределенной случайной величины с неизвестной дисперсией

В случае неизвестной дисперсии постановка задачи и ход рассуждений при
построении доверительного интервала аналогичны случаю известной дисперсии,
рассмотренному в предыдущем параграфе. Разница состоит в том, что в
выражении (2.1) неизвестное среднеквадратичное отклонение [pic] заменяется
на его выборочную оценку [pic]

[pic]

Полученная таким путем статистика [pic], будучи довольно сложной функцией
от нормально распределенных случайных величин [pic], уже не будет нормально
распределенной. Можно, однако, доказать, что статистика [pic] имеет [pic]-
распределение с [pic] степенями свободы. Отсюда следует, что справедливо
равенство

[pic]

аналогичное уравнению (2.3) и отличающееся от него заменой [pic] на [pic] и
квантилей нормального распределения на соответствующие квантили [pic]-
распределения с [pic] степенями свободы. Соответственно [pic]-ный
доверительный интервал для неизвестного математического ожидания [pic]
нормального распределения с неизвестной дисперсией [pic] будет иметь
следующий вид

[pic] или [pic]

Известно, что этот доверительный интервал и доверительный интервал из
предыдущего раздела являются робастными, т.е. они нечувствительны к
умеренным отклонениям от предположения о нормальности распределения. Во
всяком случае, как отмечается в пособиях по математической статистике, при
объеме выборки не менее 15 становится целесообразно использовать
приведенные доверительные интервалы для математического ожидания и в случае
умеренного отклонения от предположения о нормальности.

Заметим, что при [pic] [pic]-распределение приближается к нормальному
распределению, а его квантили - к квантилям нормального распределения.
Например, при [pic]=60 квантиль [pic] равна 2,00, что не очень сильно
отличается от аналогичного значения [pic] для нормального распределения
(особенно на фоне выборочных флуктуаций [pic] и [pic]). Поэтому при числе
наблюдений порядка нескольких десятков можно пользоваться нормальным
приближением для t-распределения. Однако при небольшом числе степеней
свободы различие между квантилями [pic]-распределения и нормального
распределения довольно значительно. Например, для [pic]=1 имеем [pic], для
[pic]=2 - [pic], для [pic]=5 - [pic]. Но уже при [pic]=9 (т.е. для выборки
из 10 наблюдений) получаем значение [pic], что, в принципе, не очень сильно
отличается от 1,96.

Возвращаясь к примеру с длинами лепестков ириса и учитывая, что [pic],
[pic], [pic] (при числе степеней свободы [pic]=49), а также предполагая,
что распределение длин лепестков нормально (в следующем разделе мы
рассмотрим процедуру проверки этого предположения), получаем, что 95%-ным
доверительным интервалом для математического ожидания длины лепестка будет
интервал (4,13; 4,39). Т.е. мы можем утверждать, что с вероятностью 0,95
неизвестное [pic] находится между 4,13 и 4,39 (точнее следовало бы сказать,
что найденный доверительный интервал с вероятностью 0,95 накрывает
неизвестное значение [pic]).

2.2.2.3 Доверительный интервал для неизвестной дисперсии нормально
распределенной случайной величины (при неизвестном математическом ожидании)

Для нахождения доверительного интервала для неизвестной дисперсии
нормально распределенной случайной величины рассмотрим статистику

[pic]

Можно показать, что эта статистика имеет [pic]- распределение с [pic]
степенями свободы. Следовательно, справедливо равенство

[pic]

которое можно переписать в виде

[pic]

Таким образом, 100(%-ный доверительный интервал для неизвестной дисперсии
[pic] нормального распределения с неизвестным математическим ожиданием
[pic] будет иметь следующий вид

[pic]

где [pic] и [pic] - квантили распределения [pic] с [pic] степенями свободы.
В частности, для длины лепестков ириса, учитывая, что [pic] =0,22,
[pic]=49, [pic] и [pic], получаем, что 95%-ным доверительным интервалом для
дисперсии (в предположении нормальности распределения) будет интервал
(0,15; 0,34).

Заметим, что полученный доверительный интервал для дисперсии, в отличие
от доверительного интервала для математического ожидания, чувствителен к
отклонениям от исходного предположения о нормальности распределения.

2.2.2.4 Доверительный интервал для неизвестного параметра p биномиального
распределения

Пусть произведено [pic] независимых испытаний, в которых некоторое
событие A произошло [pic] раз. Требуется найти точечную и интервальную
оценку неизвестной вероятности [pic] появления этого события.

Эту задачу можно рассматривать в двух эквивалентных формулировках. В
первой формулировке считается, что получено [pic] наблюдений случайной
величины [pic], принимающей с вероятностью [pic] значение 1 в случае
появления события A и с вероятностью [pic] значение 0 - в случае
непоявления события A (распределение Бернулли). Во второй формулировке
считается, что имеется только одно наблюдение случайной величины [pic] -
числа появлений события A в одном сложном испытании (биномиальное
распределение).

Поскольку математическое ожидание [pic], как мы знаем, равно [pic], то
получение оценки для [pic] равносильно получению оценки для математического
ожидания [pic]. Несмещенной, состоятельной и эффективной оценкой для
математического ожидания является выборочное среднее, которое в данном
случае совпадает с частотой [pic] появления события A в выборке. Таким
образом, выборочная частота является несмещенной, состоятельной и
эффективной оценкой для неизвестной вероятности. Во второй формулировке
математическое ожидание [pic] равно [pic], а выборочное среднее для одного
наблюдения равно самому наблюдению, т.е. [pic]. И поскольку оценкой для
[pic] служит [pic] (среднее по одному наблюдению), то оценкой для [pic]
снова будет [pic].

Построение доверительных интервалов несколько проще обсуждать в терминах
биномиального распределения. Можно построить как точные доверительные
интервалы для [pic], так и приближенные. Математическая техника нахождения
точных доверительных интервалов довольно громоздка и мы приведем здесь лишь
окончательные формулы для доверительных пределов. Напротив, выражения для
приближенных доверительных пределов легко получаются на основе применения
центральной предельной теоремы, однако они применимы лишь при достаточно
большом [pic] - ориентировочно при [pic].

Точный доверительный интервал для параметра биномиального распределения
имеет вид

[pic]

где [pic] - число испытаний, [pic] - число появлений события A, а [pic]
обозначает квантиль порядка [pic] распределения [pic] с [pic] степенями
свободы.

Рассмотрим в качестве примера приведенные в п. 1.2 данные о длине
лепестков ириса с точки зрения оценки вероятности появления в случайной
выборке "длинных" лепестков, а именно, лепестков длиной 4,5 см и более. В
данном случае [pic]=50 и [pic]=21. Следовательно, точечной оценкой для
[pic] будет значение [pic]=0,42, а 95%-ным доверительным интервалом -
интервал

[pic]

Учитывая, что [pic] и [pic], получаем окончательно интервал (0,28; 0,57).

Приближенный доверительный интервал для параметра биномиального
распределения. Поскольку число появлений события A в [pic] испытаниях равно
сумме чисел появлений этого события в отдельных испытаниях (0 или 1), то в
соответствии с центральной предельной теоремой при больших [pic]
распределение биномиальной случайной величины будет близко к нормальному.
Учитывая, что дисперсия биномиальной случайной величины равна [pic],
получаем для ее математического ожидания приближенные доверительные
пределы [pic], а для параметра [pic] - соответственно [pic]. Заменяя
параметр [pic] его выборочной оценкой [pic], получаем окончательно для
приближенного доверительного интервала параметра [pic] следующее выражение

[pic].

В частности, для предыдущего примера, подставляя [pic]=0,42, [pic] и
[pic]=50, получаем приближенный доверительный интервал (0,28; 0,56), не
слишком отличающийся от точного доверительного интервала.

2.2.2.5 Доверительный интервал для неизвестного параметра [pic]
пуассоновского распределения

Пусть число появлений некоторого события A является случайной величиной,
имеющей пуассоновское распределение, и пусть в результате наблюдения
событие A произошло [pic] раз. Требуется найти точечную и интервальную
оценку неизвестного параметра [pic] пуассоновского распределения. Поскольку
[pic] является математическим ожиданием пуассоновской случайной величины,
то несмещенной, состоятельной и эффективной оценкой для [pic] будет
выборочное среднее, которое для рассматриваемой ситуации единственного
наблюдения совпадает с [pic]. Что касается доверительных пределов для
параметра [pic], то, как и в случае биномиального распределения, можно
предложить точное и приближенное решения. Выражения для приближенных
доверительных пределов также основаны на применении центральной предельной
теоремы и применимы лишь при достаточно большом [pic]- ориентировочно при
[pic].

Точный доверительный интервал для параметра пуассоновского распределения
имеет вид

[pic]

где [pic] - число появлений события A, а [pic] обозначает квантиль порядка
[pic] распределения [pic] с [pic] степенями свободы.

Рассмотрим следующий пример. Пусть после фильтрования 1 мл воды на
фильтровальной бумаге обнаружено 100 клеток фитопланктона. Предполагая, что
число клеток в заданном объеме воды имеет пуассоновское распределение,
найти 95%-ные доверительные пределы для параметра [pic] этого
распределения. Подставляя [pic], [pic] и [pic] в приведенные выше
выражения, получаем 95%-ный доверительный интервал: (81,3; 121,7).

Приближенный доверительный интервал для параметра пуассоновского
распределения. Поскольку число появлений события A при наблюдении
пуассоновской случайной величины [pic] можно аппроксимировать биномиальным
распределением, а последнее - нормальным, то при не слишком малых [pic] в
соответствии с центральной предельной теоремой распределение случайной
величины [pic] будет близко к нормальному. Учитывая, что дисперсия
пуассоновской случайной величины равна [pic], получаем для ее
математического ожидания [pic] приближенные доверительные пределы [pic].
Заменяя параметр [pic] его выборочной оценкой [pic], получаем окончательно
для приближенного доверительного интервала параметра [pic] следующее
выражение

[pic].

В частности, для предыдущего примера, подставляя [pic] и [pic], получаем
приближенный доверительный интервал (80,4; 119,6), не слишком отличающийся
от точного доверительного интервала.

2.2.2.6 Приближенный доверительный интервал для неизвестного коэффициента
корреляции двумерного нормального распределения

Рассмотрим теперь вопрос построения доверительного интервала для
коэффициента корреляции. Пусть [pic] - случайная выборка объема [pic] из
двумерного нормального распределения. Пусть [pic] - коэффициент корреляции
случайных величин [pic] и [pic], а [pic] - выборочный коэффициент
корреляции. Распределение коэффициента корреляции [pic], особенно при
значениях [pic] близких к 0 или 1 может сильно отличаться от нормального.
Однако распределение следующей функции от [pic], называемой преобразованием
Фишера, довольно хорошо аппроксимируется нормальным распределением

[pic]

со средним [pic] и дисперсией [pic]. Соответственно, стандартизованная
случайная величина будет иметь стандартное нормальное распределение

[pic]

и с вероятностью [pic] будет заключена в пределах [pic], т.е.

[pic]

Решая неравенство под знаком вероятности относительно неизвестного
коэффициента корреляции [pic], получаем окончательно

[pic]

Заметим, что полученный доверительный интервал для коэффициента
корреляции чувствителен к отклонениям от исходного предположения о
двумерной нормальности случайных величин [pic] и [pic].

Пример. Пусть объем выборки [pic], а вычисленное по выборке значение
[pic], тогда 95%-ным доверительным интервалом для неизвестного коэффициента
корреляции будет интервал (0,05; 0,88).

2.3. Статистическая проверка гипотез

Пусть [pic] - случайная выборка значений случайной величины [pic],
имеющей некоторое полностью или частично неизвестное распределение [pic]. В
предыдущем разделе рассматривались методы получения оценок параметров или
характеристик этого неизвестного распределения. Однако часто нас интересуют
не столько конкретные количественные оценки, сколько правильность или
ошибочность некоторых утверждений, относящихся к распределению наблюдаемой
случайной величины. Например, является ли это распределение нормальным или
нет? Или, равно математическое ожидание заданному значению или нет? Если
кроме выборки [pic] имеется выборка [pic] значений другой случайной
величины [pic], то можно поставить вопрос о том, равны или нет
математические ожидания случайных величин [pic] и [pic]? Если имеется
выборка [pic] двумерной случайной величины [pic], то может возникнуть
вопрос о том, равен нулю или нет коэффициент корреляции между [pic] и
[pic]?

2.3.1. Логика проверки статистических гипотез

Решению задач проверки гипотез о генеральном распределении по выборке из
этого распределения посвящен специальный раздел математической статистики -
проверка статистических гипотез. Логика проверки гипотез в математической
статистике (она напоминает логику доказательства от противного) состоит в
следующем. Вначале предполагается, что проверяемая гипотеза (ее принято
называть нулевой гипотезой и обозначать [pic]) верна. В предположении, что
[pic] верна, ищется распределение вероятностей некоторой функции [pic] от
значений выборки, называемой статистикой критерия (правило проверки
гипотезы принято называть критерием), и в области значений этой статистики
выделяется некоторая область [pic], называемая критической областью, такая,
что вероятность [pic] попадания выборочного значения статистики [pic] в эту
область не превосходит заданного малого значения [pic], называемого уровнем
значимости критерия (обычно полагают [pic] равным 0,05 или 0,01). Если для
данной конкретной выборки [pic] попадает в критическую область [pic], то
гипотеза [pic] отвергается (говорят - «отвергается на уровне значимости
[pic]»), поскольку вероятность этого события, если в действительности верна
[pic], мала. Если же [pic] не попадает в критическую область [pic], то
говорят, что «гипотеза [pic] не отвергается на уровне значимости [pic]»
(или - «полученные данные не дают оснований отвергнуть гипотезу [pic] на
уровне значимости [pic]»).

Очевидно, однако, что можно разными способами задать статистику критерия
[pic], а для заданной статистики можно разными способами выбрать
критическую область [pic], удовлетворяющую условию [pic]. Поэтому следует
выбирать [pic] и [pic] в некотором смысле наилучшими из возможных, а именно
такими, чтобы полученный критерий был наиболее мощным.

Для определения понятия мощности критерия введем понятие альтернативной
гипотезы [pic], т.е. гипотезы, которая выполняется, если не выполняется
нулевая гипотеза [pic]. Тогда в терминах правильности или ошибочности
принятия [pic] и [pic] можно указать четыре потенциально возможных
результата применения критерия к выборке, как следующие

| |Принята гипотеза |
| |[pic] |[pic] |
| |[pi|[pic]-вероятность |[pic] |
| |c] |правильно принять [pic], |- вероятность ошибочно |
| | |когда верна [pic] |принять [pic], когда верна|
|Верна | | |[pic] (ошибка 1-го рода, |
|гипотеза | | |уровень значимости) |
| |[pi|[pic] |[pic] |
| |c] |- вероятность ошибочно |- вероятность правильно |
| | |принять [pic], когда |принять [pic], когда верна|
| | |верна [pic] (ошибка 2-го |[pic] (мощность критерия) |
| | |рода) | |

Как мы видим, мощность критерия - это вероятность принятия при применении
данного критерия альтернативной гипотезы [pic] при условии, что она верна.
Очевидно, что при фиксированной ошибке 1-го рода (ее мы задаем сами, и она
не зависит от свойств критерия) критерий будет тем лучше, чем больше его
мощность (т.е. чем меньше ошибка 2-го рода).

Проиллюстрируем основные понятия рассмотренной методологии на простом
примере проверки гипотезы о равенстве математического ожидания нормально
распределенной случайной величины с известной дисперсией заданному числу (с
точки зрения практического применения этот пример несколько искусственен,
поскольку дисперсия наблюдаемой случайной величины обычно неизвестна).

2.3.2. Проверка гипотез о математических ожиданиях

2.3.2.1 Проверка гипотезы о равенстве заданному числу математического
ожидания нормально распределенной случайной величины с известной дисперсией

Итак, пусть [pic], [pic] и [pic], и пусть имеется выборка [pic] значений
случайной величины [pic] объема [pic]. Предположим, что [pic] верна и мы
выбераем в качестве статистики критерия стандартизованное выборочное
среднее

[pic]

При верной [pic] статистика [pic] имеет стандартное нормальное
распределение, [pic], представленное на рис. 2.4. На этом рисунке также
указана критическая область уровня [pic], состоящая из двух бесконечных
полуинтервалов [pic] и [pic], вероятность попадания в каждый из которых
статистики u равна [pic].

[pic]

Рис. 2.4. Пример критической области.

Имеются формализованные подходы к выбору статистик критериев и построению
критических областей, приводящие к наиболее мощным критериям, но мы их
здесь не рассматриваем. Неформальное же правило состоит в том, чтобы
выбирать в качестве статистики величину, характеризующую степень отклонения
от нулевой гипотезы. Очевидно, разность [pic] удовлетворяет этому условию,
а деление на константу [pic], сохраняя это качество, приводит к величине
[pic] с полностью заданным распределением, что позволяет выбрать
критическую область с требуемым уровнем значимости. Неформальное же правило
выбора критической области состоит в том, чтобы она включала значения
статистики, соответствующие наибольшим отклонениям от нулевой гипотезы - на
рис. 2.4 эта рекомендация соблюдена.

До сих пор мы говорили о свойствах критерия в предположении, что верна
гипотеза [pic]. А что происходит, когда верна альтернативная гипотеза
[pic]? В этом случае распределение статистики критерия [pic] изменится.
Чтобы его найти, произведем преобразование

[pic],

из которого следует, что при гипотезе [pic] распределение статистики [pic]
отличается от стандартного нормального сдвигом на величину [pic], т.е.
[pic] при выполнении [pic].

На рис. 2.5 взаимное расположение плотностей распределения статистики
[pic] при гипотезах [pic] и [pic] показано для случая [pic] и [pic].
Вероятности ошибки 2-го рода [pic] соответствует площадь под кривой функции
плотности при [pic] на промежутке от -1,96 до 1,96, где не отвергается
гипотеза [pic], а следовательно, ошибочно не принимается гипотеза [pic]. В
данном случае ошибка 2-го рода, [pic], довольно велика. Это произошло,
главным образом, потому, что мал объем выборки - имеется всего одно
наблюдение, [pic]. При увеличении [pic] распределение, соответствующее
альтернативной гипотезе [pic], будет сдвигаться вправо, поскольку величина
[pic] будет увеличиваться, что приведет, как легко понять по рис. 2.5, к
уменьшению ошибки [pic]. Очевидно также, что большей величине разности
[pic] соответствует большая величина [pic], и следовательно, меньшая ошибка
2-го рода. Ошибка 2-го рода уменьшается также при уменьшении дисперсии
[pic] наблюдаемой случайной величины. Кроме того, [pic] уменьшается при
увеличении [pic], однако не принято брать [pic] больше 0,05. При уменьшении
[pic] ошибка [pic], напротив, растет, поэтому не следует брать [pic]
слишком малым, если число наблюдений [pic] мало, разность между[pic] и
[pic] невелика, а дисперсия [pic] - большая.

[pic]

Рис. 2.5. Взаимосвязь между ошибками 1-го и 2-го рода при двусторонней
альтернативе.

Содержательно, ошибка 1-го рода - это ошибка ложного обнаружения
несуществующего отклонения от нулевой гипотезы (ложного обнаружения
несуществующего эффекта). Ошибка же 2-го рода - это ошибка ложного
необнаружения существующего отклонения от нулевой гипотезы (ложного
необнаружения существующего эффекта). Мощность критерия - это его
способность обнаружить имеющееся отклонение от нулевой гипотезы.

В приведенном примере мы предполагали, что альтернативной гипотезе [pic]
соответствует вполне определенное распределение [pic], что позволило нам
найти конкретное значение ошибки 2-го рода. Такого рода альтернативные
гипотезы называются простыми альтернативами. Однако на практике чаще
встречается ситуация, когда конкретной нулевой гипотезе противопоставляется
целый спектр альтернатив. Например, [pic] или[pic]. Такого рода
альтернативные гипотезы называются сложными альтернативами. В случае
сложной альтернативной гипотезы мы не можем определить величину ошибки
второго рода. Например, в рассматриваемой ситуации она может быть
значительной даже при очень большом числе наблюдений, если различие между
[pic] и [pic] мало. Поэтому в ситуации, когда статистика критерия не
попадает в критическую область, не утверждают категорично, что «нулевая
гипотеза принимается», а формулируют вывод более осторожно: «нулевая
гипотеза не отвергается». Тем самым подчеркивается, что хотя мы и не
обнаружили отклонения от нулевой гипотезы, мы могли его при верной [pic]
ошибочно не обнаружить с вероятностью [pic], которую мы не знаем и которая,
возможно, довольно значительна. Если же ошибка [pic] действительно велика,
то утверждение «нулевая гипотеза принимается» не представляет большой
ценности. Например, положив равной нулю ошибку 1-го рода, мы, независимо от
результатов наблюдений, всегда будем принимать гипотезу [pic], поскольку
критическая область будет включать всю область определения статистики
критерия. Однако при этом ошибка 2-го рода будет равна единице, т.е. если
даже отклонение от нулевой гипотезы имеется, то мы его с вероятностью
единица не обнаружим.

Сложные альтернативы могут быть двусторонними ([pic]) и односторонними
([pic] или [pic]). Если имеется достоверная информация о направлении
отклонения от нулевой гипотезы, то использование односторонней альтернативы
предпочтительнее двусторонней, поскольку это повышает мощность критерия.
Если, например, известно, что отклонение математического ожидания [pic] от
гипотетического значения [pic] может произойти только в большую сторону,
то в качестве альтернативы следует взять гипотезу [pic]. Критическая
область уровня [pic] в этом случае будет состоять не из двух бесконечных
полуинтервалов [pic] и [pic], а из одного - [pic].

[pic]

Рис. 2.6. Взаимосвязь между ошибками 1-го и 2-го рода при односторонней
альтернативе.

На рис. 2.6 ситуация с односторонней альтернативой представлена для
случая [pic] и [pic]. Вероятности ошибки 2-го рода [pic] соответствует
площадь под кривой плотности статистики критерия [pic] при условии, что
верна гипотеза [pic], на промежутке от [pic] до 1,64, равная [pic], что
меньше величины [pic] для аналогичной двусторонней альтернативы,
представленной на рис. 2.5.

Пример. Известно, что датчик генерирует случайные числа, нормально
распределенные с дисперсией 1, но есть сомнения в том, что математическое
ожидание равно 0. Требуется проверить гипотезу о равенстве математического
ожидания нулю при двусторонней альтернативе по следующей случайной выборке
объема [pic]:

0,830 0,177 -0,294 0,471 -0,044 0,635 2,209 -0,394 -0,404

1,257 1,137 -0,839 1,668 0,751 0,416 -0,922 1,473 -0,317

0,220 0,414 0,428 1,088 -1,130 -0,015 0,142

Выборочное среднее равно [pic], следовательно, для статистики критерия
получаем

[pic]

Значение 1,79 не выходит за двусторонние 5%-ные критические пределы
[pic], поэтому гипотеза не отвергается.

На самом деле математическое ожидание датчика было равным 0,25, т.е.
отклонение ошибочно не было обнаружено - при проверке гипотезы была сделана
ошибка 2-го рода. Очевидно, мощность критерия при данном числе наблюдений
[pic], данной разности между гипотетическим и истинным математическими
ожиданиями [pic] и данной дисперсии [pic] недостаточна. (В другом
эксперименте с этим же датчиком была получена выборка значений объема
[pic]. Выборочное среднее оказалось равным [pic], а выборочное значение
статистики - равным [pic], что дало основание отвергнуть нулевую гипотезу.)

Примечание. В современных пакетах статистических программ кроме
вычисленного значения статистики критерия [pic] (в данном случае [pic])
выдается также так называемое p-значение (англ.: p-value, или, просто, p),
равное в случае двусторонней альтернативы вероятности выхода за пределы
[pic]

[pic]

(в случае односторонних альтернатив определение p-значения изменяется
очевидным образом). Вместо сравнения [pic] с границами критической области
[pic] проще сравнить соответствующее p-значение, равное [pic], с уровнем
значимости [pic]. Неравенство [pic] означает, что [pic] не попало в
критическую область и, следовательно, [pic] не должна быть отвергнута, и,
наоборот, если [pic], то [pic] должна быть отвергнута. В рассмотренном
примере [pic], следовательно, [pic] не должна быть отвергнута.

2.3.2.2 Проверка гипотезы о равенстве заданному числу математического
ожидания нормально распределенной случайной величины с неизвестной
дисперсией (одновыборочный t-критерий)
Аналогично случаю построения доверительного интервала для неизвестного
математического ожидания нормально распределенной случайной величины, в
случае неизвестной дисперсии мы возьмем в качестве статистики критерия
проверки гипотезы о равенстве математического ожидания заданному числу ту
же статистику, что и в случае с известной дисперсией, но с заменой
неизвестного среднеквадратичного отклонения [pic] на его выборочную оценку
[pic]

[pic]

При верной [pic] статистика [pic] имеет [pic] -распределение с [pic]
степенями свободы. Соответственно, критическая область для проверки
гипотезы [pic] против двусторонней альтернативы [pic] будет состоять из
двух бесконечных полуинтервалов [pic] и [pic], против односторонней
альтернативы [pic] - из одного полуинтервала [pic] и против односторонней
альтернативы [pic] - также из одного полуинтервала [pic], где [pic]
обозначают квантили [pic]-распределения с [pic] степенями свободы
соответствующего уровня значимости (в силу симметричности [pic]-
распределения справедливы равенства [pic] и [pic]).

Пример. Рассмотрим пример предыдущего параграфа с 25 случайными числами в
предположении, что дисперсия неизвестна. В этом случае необходимо вычислить
оценку среднеквадратичного отклонения, которая оказывается равной [pic].
Выборочное значение статистики критерия, соответственно, равно

[pic]

Это значение должно быть сравнено с 5%-ными двусторонними критическими
пределами, равными [pic]. Выборочное значение статистики выходит за эти
пределы, следовательно, гипотеза о равенстве математического ожидания нулю
должна быть отвергнута на уровне значимости 5%.

Заметим, что хотя применение [pic]-критерия требует нормальности исходной
случайной величины, он может применяться и при умеренных отклонениях от
нормальности и не слишком малых [pic].

2.3.2.3 Проверка гипотезы о равенстве математических ожиданий двух
нормально распределенных случайных величин (двухвыборочный t-критерий)

1. Независимые выборки. Предположим, что имеются случайные выборки [pic]
и [pic] значений двух независимых нормально распределенных случайных
величин [pic] и [pic] и требуется проверить гипотезу [pic] о равенстве
математических ожиданий этих случайных величин.

(а) Если известно, что дисперсии случайных величин ( и ( равны, [pic]
(значение [pic] неизвестно), то можно получить следующую объединенную
несмещенную оценку для [pic]

[pic]

В этом случае s2/n и s2/m будут несмещенными оценками для дисперсии
выборочных средних [pic] и[pic], а сумма s2/n+s2/m - несмещенной оценкой
для дисперсии разности средних [pic]. Соответственно, статистика

[pic]

как можно показать, будет иметь t-распределение с n+m-2 степенями свободы.
Критическая область уровня [pic] для проверки гипотезы [pic] против
двусторонней альтернативы [pic] будет состоять из двух бесконечных
полуинтервалов [pic] и [pic], против односторонней альтернативы [pic] - из
полуинтервала [pic] и против альтернативы [pic] - из полуинтервала [pic],
где [pic], [pic], [pic], [pic] обозначают соответствующие квантили [pic]-
распределения с [pic] степенями свободы.

(б) Если нет оснований считать, что дисперсии случайных величин [pic] и
[pic] равны, то для каждой из дисперсий [pic] и [pic] вычисляется своя
оценка

[pic]

и соответственно модифицируется статистика критерия

[pic]

которая, как можно показать, имеет [pic]-распределение с числом степеней
свободы, равным целой части от [pic], где [pic] выражается следующей
формулой

[pic]

2. Связанные выборки. Пусть теперь [pic] и [pic] - связанные
случайные выборки из нормальных распределений [pic] и [pic]. Например,
[pic] и [pic] - результаты измерения давления до и после приема лекарства,
соответственно, или длина и ширина цветка ириса Iris versicolor. Для
проверки гипотезы [pic] при двусторонней альтернативе [pic] используется
статистика

[pic], где [pic].

При условии, что верна гипотеза H0, статистика критерия имеет t-
распределение с n-1 степенями свободы. Критическая область уровня ? состоит
из двух интервалов [pic] и [pic], где [pic] - квантиль t-распределения
порядка [pic] с числом степени свободы n-1. Так построенный критерий
называется парным t-критерием или t-критерием для связанных выборок.

Заметим, что t-критерий для связанных выборок [pic] и [pic] совпадает с
одновыборочным t-критерием для выборки [pic], где [pic], для проверки
нулевой гипотезы [pic] против двусторонней альтернативы [pic].

2.3.3 Проверка гипотез о дисперсиях

2.3.3.1 Проверка гипотезы о равенстве заданному числу дисперсии нормально
распределенной случайной величины (одновыборочный (2-критерий)

Для проверки гипотезы [pic] о равенстве дисперсии [pic] нормально
распределенной случайной величины [pic] заданному числу [pic] рекомендуется
использовать статистику

[pic]

Можно показать, что эта статистика, при условии, что верна гипотеза
[pic], распределена по закону (2 с [pic] степенями свободы. Критическая
область уровня [pic] при двусторонней альтернативе [pic] состоит из двух
промежутков: [pic] и [pic], где [pic] и [pic] - квантили порядка [pic] и
[pic] распределения [pic] с [pic] степенями свободы. Для односторонней
альтернативы [pic] критическая область имеет вид [pic], а для альтернативы
[pic]- соответственно, [pic].

2.3.3.2 Проверка гипотезы о равенстве дисперсий двух независимых нормально
распределенных случайных величин (двухвыборочный F-критерий)

Выше мы видели, что процедура проверки гипотезы о равенстве двух
математических ожиданий двух нормально распределенных случайных величин
упрощается, если их дисперсии одинаковы. Следующий критерий позволяет
проверить нулевую гипотезу [pic] о равенстве дисперсий двух нормально
распределенных случайных величин. В качестве статистики критерия
используется отношение несмещенных оценок дисперсий этих случайных величин
[pic]

При условии, что верна гипотеза [pic], можно доказать, что статистика
критерия имеет [pic]-распределение с [pic] и [pic] степенями свободы.
Соответственно, критическая область уровня [pic] для проверки гипотезы
[pic] против двусторонней альтернативы [pic] будет состоять из двух
интервалов: [pic] и [pic], где [pic] - квантили порядка [pic] и [pic] [pic]-
распределения с [pic] и [pic] степенями свободы. Для односторонней
альтернативы [pic] критическая область имеет вид [pic], а для альтернативы
[pic] - соответственно [pic]. Если в качестве статистики использовать
отношение большей оценки дисперсии к меньшей, то в качестве критической
области при двусторонней альтернативе следует использовать одностороннюю
критическая область [pic] - это позволяет ограничиться таблицами [pic]-
распределения, содержащими значения функции распределения только для
аргументов больших единицы.

Заметим, что в отличие от [pic]-критерия [pic]-критерий чувствителен к
отклонениям исходных случайных величин от нормальности. При значительных
отклонениях от нормальности, особенно при небольшом числе наблюдений, его
не следует применять.

2.3.4 Сравнение параметров двух биномиальных распределений

Пусть две независимые биномиально распределенные случайные величины
[pic] и [pic] с параметрами [pic], [pic] и [pic], [pic], соответственно,
при проведении независимых испытаний приняли значения [pic] и [pic].
Требуется проверить гипотезу [pic] о равенстве параметров [pic] и [pic].
Для этого можно использовать статистику

[pic]

где [pic], [pic] и [pic] - выборочные частоты, вычисленные по первой,
второй и объединенной выборкам: [pic], [pic] и [pic]. Если верна гипотеза
[pic], то для [pic], [pic], не очень близких к 0 или 1, и при достаточно
больших [pic], [pic] эта статистика имеет приближенно стандартное
нормальное распределение. Практически приближение применимо, если каждая из
четырех численностей [pic] и [pic] больше пяти.

Критическая область уровня значимости [pic] для проверки гипотезы [pic]
против двусторонней альтернативы [pic] будет состоять из двух бесконечных
полуинтервалов [pic] и [pic], против односторонней альтернативы [pic] - из
одного полуинтервала [pic] и против односторонней альтернативы [pic] -
также из одного полуинтервала [pic], где [pic], [pic], [pic], и [pic]
обозначают квантили соответствующего порядка стандартного нормального
распределения.

Имеется также точный критерий Фишера для проверки этой гипотезы (см.,
напр., (Глотов, Животовский, Хованов, Хромов-Борисов,1982)).

2.3.5 Сравнение параметров двух пуассоновских распределений

Пусть две независимые случайные величины [pic] и [pic], имеющие
пуассоновское распределение с параметрами [pic] и [pic], соответственно,
при проведении испытаний приняли значения k и l. Требуется проверить
гипотезу [pic] о равенстве параметров [pic] и [pic] распределений этих
случайных величин. Для этого можно использовать статистику
[pic],

распределение которой при выполнении [pic] и при [pic] довольно точно
приближается стандартным нормальным распределением. Соответственно, как и в
предыдущем параграфе, критическая область уровня значимости [pic] для
проверки гипотезы [pic] против двусторонней альтернативы [pic] будет
состоять из двух бесконечных полуинтервалов [pic] и [pic], против
односторонней альтернативы [pic] - из одного полуинтервала [pic] и против
односторонней альтернативы [pic] - также из одного полуинтервала [pic].

2.3.6 Проверка гипотезы о равенстве нулю коэффициента корреляции

Пусть [pic] - случайная выборка пар значений двумерной случайной
величины [pic], имеющей двумерное нормальное распределение. Требуется
проверить гипотезу [pic] о равенстве коэффициента корреляции [pic] этого
двумерного распределения заданному числу [pic]. Для проверки этой гипотезы
можно использовать статистику

[pic],

распределение которой при выполнении [pic] и при достаточно большом [pic]
довольно точно приближается стандартным нормальным распределением.
Соответственно, как и в предыдущих двух параграфах, критическая область
уровня значимости [pic] для проверки гипотезы [pic] против двусторонней
альтернативы [pic] будет состоять из двух бесконечных полуинтервалов [pic]
и [pic], против односторонней альтернативы [pic] - из одного полуинтервала
[pic] и против односторонней альтернативы [pic] - также из одного
полуинтервала [pic].

Обычно проверяется гипотеза о равенстве коэффициента корреляции нулю, что
в случае двумерного нормального распределения, как ранее отмечалось,
эквивалентно проверке гипотезы о независимости [pic] и [pic]. В этом случае
приведенное выше выражение для статистики критерия упрощается

[pic]

Пример. Пусть объем выборки [pic], вычисленное по выборке значение [pic]
и требуется проверить гипотезу [pic] против альтернативы [pic].

Выборочное значение статистики [pic], вычисленное по формуле (2.5), равно
1,83. Поскольку оно не выходит за двусторонние 5%-ные критические пределы
стандартного нормального распределения [pic], то у нас нет оснований
отвергнуть нулевую гипотезу об отсутствии корреляции. Если бы у нас были
основания предполагать, что корреляционная зависимость в случае ее наличия
может быть только положительной, то следовало бы использовать для проверки
H0, одностороннюю критическую область, которая для [pic] представляет собой
бесконечный полуинтервал [pic]. Значение 1,83 попадает в эту критическую
область и, следовательно, гипотеза об отсутствии корреляции должна бы была
быть отвергнута. Заметим, однако, что число наблюдений в данном примере
недостаточно велико для уверенного использования данного приближенного
критерия. Если к этому добавить тот факт, что выборочное значение
статистики критерия находится вблизи границы критической области, то
следует заключить, что по имеющимся данным нельзя сделать надежного вывода
ни о наличии, ни об отсутствии корреляции.
Отметим, что если бы, скажем, значение [pic] было получено для [pic], то
выборочное значение статистики [pic] было бы равно 4,75, и гипотеза
однозначно должна бы была быть отвергнута не только на уровне значимости
5%, но и 1% (и даже более высоком, т.к. вероятность того, что стандартно
распределенная случайная величина примет значение большее 4,75, равна
0.000001).

2.3.7 Критерии согласия

Все рассмотренные до сих пор критерии принято относить к группе так
называемых параметрических критериев. Применение этих критериев требует
знания типа распределения наблюдаемых случайных величин (нормальное,
биномиальное, пуассоновское, двумерное нормальное или какое-либо иное), и
проверяемая гипотеза касается параметров данных распределений. Прежде чем
применять параметрические методы, необходимо убедиться в том, что мы
действительно имеем дело с распределением требуемого типа.
Предположение о виде распределения случайной величины - это
статистическая гипотеза, которую можно проверить с помощью
экспериментальных данных. Критерии для проверки согласия между
распределением выборочных значений и заданным теоретическим распределением
называются критериями согласия.

Пусть имеется выборка [pic] значений случайной величины [pic] с
неизвестной функцией распределения [pic]. Требуется проверить гипотезу
[pic] о том, что случайная величина имеет некоторое заданное распределение
F0(x) против альтернативной гипотезы [pic]. Распределение [pic] может быть
либо задано полностью (простая нулевая гипотеза), либо с точностью до
параметров (сложная нулевая гипотеза). Во втором случае фактически
проверяется принадлежность распределения к заданному типу, например,
проверяется гипотеза о нормальности. Часто это делается с целью обоснования
применения для обработки полученных данных методов, требующих
принадлежности распределения к заданному типу.

Рассмотрим два критерия согласия.

1. Критерий согласия [pic]. Относительно распределения [pic] не делается
никаких предположений, оно может быть как непрерывным, так и дискретным.
Для проверки простой нулевой гипотезы статистика критерия [pic] вычисляется
следующим образом. Область изменения значений выборки разбивается на [pic]
интервалов с таким расчетом, чтобы число наблюдений [pic] (наблюденная
частота), попавших в [pic]-ый интервал, [pic], в большинстве интервалов
было не менее 10. Для каждого из интервалов вычисляется также вероятность
[pic] попадания в этот интервал случайной величины при условии выполнения
гипотезы [pic]. Статистика [pic] равна нормированной сумме квадратов
отклонений числа наблюдений [pic] от гипотетической частоты [pic],

[pic]

Для легкости запоминания эту формулу можно рассматривать как сумму
квадратов пуассоновских случайных величин ni, стандартизованных путем
вычитания из них гипотетических средних npi и деления разности на их
среднеквадратические отклонения (npi)1/2.

Если верна гипотеза [pic], то при достаточно большом [pic] (не менее 50)
распределение данной статистики хорошо приближается распределением [pic] с
[pic] степенями свободы (одна степень свободы вычитается даже при полностью
заданном [pic], поскольку наблюдаемые частоты связаны соотношением [pic]).
Следовательно, критическое множество уровня значимости [pic] состоит из
одного полуинтервала [pic], где [pic]- квантиль [pic]-распределения с
числом степеней свободы [pic] порядка [pic].

Необходимость в проверке простых гипотез возникает относительно редко.
Наиболее интересным для практики является случай, когда [pic] известна с
точностью до [pic] параметров, [pic], где [pic] - неизвестные параметры.
Тогда статистика критерия имеет вид
[pic],
где [pic] - оценки вероятностей [pic], [pic], а [pic] - оценки параметров
[pic], определяемые через наблюдаемые частоты [pic].
Если нулевая гипотеза [pic] верна, то статистика критерия [pic] при [pic]
распределена асимптотически как [pic]с числом степеней свободы [pic].
Следовательно, критическое множество уровня значимости [pic] состоит из
полуинтервала [pic], где [pic] - квантиль [pic]-распределения с числом
степеней свободы [pic] порядка [pic].
Часто оценки неизвестных параметров [pic] определяются не по наблюдаемым
частотам [pic], а по всей выборке. Например, при проверке нормальности
ожидаемую частоту в [pic]-ом интервале, [pic], находят, используя
выборочное среднее [pic] и выборочную дисперсию [pic], определенные по всей
выборке. В этом случае статистика критерия [pic] при справедливости [pic]
не распределена асимптотически как [pic], ее распределение заключено между
[pic] и [pic]. Различием между ними можно пренебречь при больших [pic]. Но
для малых [pic] полезно убедиться, что выборочное значение статистики
критерия [pic] и [pic].
2. Для проверки соответствия непрерывного распределения [pic] заданному
[pic] используются одновыборочные критерии Колмогорова и Смирнова.
Статистика Колмогорова для проверки гипотезы [pic] против альтернативы
[pic] определяется как максимум модуля отклонения эмпирической функции
распределения [pic] от гипотетической F0(x):

[pic]

Статистика Смирнова, [pic], для проверки гипотезы [pic] против альтернативы
[pic] имеет вид

[pic]

Для случая простой нулевой гипотезы распределение статистик Dn и [pic]
при справедливости [pic] не зависят от типа [pic]. Если верна нулевая
гипотеза, предельным распределением статистики [pic] при [pic] является
распределение Колмогорова, а Смирнов получил точное предельное
распределение статистики [pic]. Соответственно, критическое множество
уровня значимости [pic] для проверки гипотезы [pic] против альтернативы
[pic] состоит из полуинтервала [pic], а против альтернативы [pic] - из
полуинтервала [pic], где [pic], [pic] - критические значения статистик Dn и
[pic], соответственно, уровня значимости [pic]. При [pic] [pic] с большой
точностью (большей, чем 0,00005).

В случае сложной нулевой гипотезы, когда [pic] известна с точностью до
параметров, [pic], где [pic] - неизвестные параметры, статистика критерия
для проверки гипотезы [pic] против двусторонней альтернативы имеет вид:

[pic]

где [pic] - оценки неизвестных параметров.

При условии, что нулевая гипотеза [pic] верна, распределение статистики
[pic] (и [pic]) уже зависит от конкретного вида распределения [pic]. Для
некоторых типов распределений - нормального, показательного, логистического
- Лиллиефорсом получены таблицы критических значений статистики [pic] при
условии, что гипотеза [pic] верна (Lilliefors, 1967, Sokal, Rohlf, 1995).
Соответственно, критическое множество уровня значимости [pic] для проверки
гипотезы [pic] против альтернативы [pic] состоит из одного полуинтервала
[pic], где [pic] - критическое значение статистики [pic] для заданных
[pic], [pic] и [pic].

Статистика [pic] может быть преобразована к виду, практически не
зависящему от n. Например, для нормального распределения Стефенсом получено
следующее выражение для модифицированной формы статистики Колмогорова [pic]
(Тюрин, 1978)

[pic]

Это дает возможность проводить проверку гипотезы практически при всех n,
зная значения [pic] для небольшого набора значений [pic]. В частности, для
[pic] имеем [pic].

При проверке гипотезы о нормальности распределения с неизвестными средним
и дисперсией критерии Колмогорова и Смирнова является более мощным, чем
критерий [pic].

Заметим, что в англоязычной литературе критерии Колмогорова и Смирнова
называют одновыборочным критерием Колмогорова-Смирнова, а статистики Dn и
[pic] - одновыборочными статистиками Колмогорова -Смирнова.

Среди других критериев согласия отметим критерий Шапиро - Уилка для
проверки нормальности.

Пример. Пусть получена следующая выборка 50 значений случайной величины
[pic] с неизвестным распределением:

|45 |89 |93 |40 |91 |60 |2 |59 |87 |78 |
|57 |39 |50 |0 |35 |91 |67 |62 |25 |93 |
|19 |98 |55 |78 |34 |45 |86 |31 |15 |95 |
|50 |52 |35 |66 |0 |44 |93 |36 |29 |44 |
|17 |85 |17 |63 |34 |43 |100 |75 |84 |9 |

Проверим гипотезу о том, что эта случайная величина имеет нормальное
распределение. После разбиения области изменения выборочных значений на 5
равных интервалов получаем следующие наблюденные и гипотетические частоты:

|Интервал |[pic] |(20, 40]|(40, 60] |(60, 80] |[pic] |
|Наблюденная | | | | | |
|частота, nI |8 |10 |12 |7 |13 |
|Гипотетическая | | | | | |
|частота, npi |6,1 |9,7 |13,4 |11,6 |9,2 |

Гипотетические частоты вычислялись для нормального распределения [pic] с
параметрами, оцененными по выборке, соответственно, число степеней
свободы статистики критерия равно 5-1-2=2. Выборочное значение статистики
равно [pic], а критическая граница равна[pic], т.е. критическое множество
уровня значимости [pic] состоит из полуинтервала [6,0; +?). Следовательно,
у нас нет оснований отвергнуть гипотезу о нормальности.

В действительности, выборка была получена с помощью датчика случайных
чисел, равномерно распределенных на отрезке [0, 100]. Т.е. мы видим, что
при данном числе наблюдений (в общем-то, конечно, небольшом для проверки
гипотезы о типе распределения) критерий [pic] не обнаруживает отклонения от
нормальности.

Выборочное значение статистики критерия Колмогорова- Смирнова равно
[pic], что также не выходит за 5%-ный предел этого критерия в
предположении, что гипотетические средние равны выборочным. Однако в случае
неизвестных параметров гипотетического нормального распределения лучше
пользоваться модификацией критерия Колмогорова - Смирнова, предложенной
Cтефенсом (Лиллиефорсом). Но [pic], что не дает нет оснований отвергнуть
гипотезу и по этому критерию.

Пример. Расчеты, аналогичные предыдущим, проведенные для выборки объема
150 значений случайной величины, равномерно распределенной на отрезке [0,
100], дали значение [pic], что позволило отвергнуть гипотезу о нормальности
на уровне значимости 5%. По критерию Колмогорова - Смирнова гипотеза
отвергалась лишь на уровне 10%, а по критерию Лиллиефорса - на уровне 1%,
что показывает неправомочность применения критерия Колмогорова - Смирнова в
данной ситуации.

Пример. Расчеты статистик критериев согласия для данных таблицы 1,
содержащей 50 выборочных значений длины лепестка ириса разноцветного,
приводят к значению статистики [pic] равному 2,1, и значению статистики
[pic], равному 0,117. В этом случае гипотеза о нормальности не отвергается
ни критерием [pic], ни критерием Колмогорова - Смирнова - Лиллиефорса.

Пример. В некоторых классических экспериментах с селекцией гороха Мендель
наблюдал частоты различных видов семян, получаемых при скрещивании растений
с круглыми желтыми семенами и растений с морщинистыми зелеными семенами.
Они приводятся ниже вместе с теоретическими вероятностями, вычисленными в
соответствии с теорией наследственности Менделя (Кендалл, Стьюарт, 1973).

|Семена |Наблюденная |Ожидаемая численность|
| |численность | |
|Круглые и желтые |315 |[pic] |
|Морщинистые и желтые |101 |[pic] |
|Круглые и зеленые |108 |[pic] |
|Морщинистые и зеленые |32 |[pic] |
|Всего |556 |556 |

В этом случае теоретическое распределение дискретно и известно полностью.
Для проверки согласия экспериментальных данных теоретическому распределению
используем критерий [pic] для простой гипотезы. Значение статистики,
вычисленное по выборке равно [pic], что меньше 5%-ного критического
значения [pic], [pic]. Следовательно, теория наследственности Менделя не
противоречит полученным экспериментальным данным.

Наряду с количественными статистическими критериями для определения типа
распределения по выборочным данным используются графические методы.

Простейший способ - построение по имеющейся выборке гистограммы
относительных частот и на том же графике и в том же масштабе, - кривой
плотности нормального распределения с выборочным средним и выборочной
дисперсией в качестве параметров. Значительные отклонения от нормальности
(сильная асимметрия, бимодальность) легко обнаруживаются на графике.

Пример. Применим этот прием к рассмотренной выше модельной выборке объема
[pic], извлеченной из равномерного распределения. На рис. 2.7 приведена
гистограмма и кривая нормальной плотности. Можно сказать, что визуально
отклонение от нормальности в пользу равномерности заметно (хотя, как мы
видели, статистически значимо при таком числе наблюдений оно не
подтверждается).

С точки зрения визуального обнаружения отклонений от нормальности
сравнение эмпирической и гипотетической функций распределения гораздо менее
наглядно, чем сравнение гистограммы с графиком плотности. Однако обычно
сравнивают не сами функции распределения, а обратные нормальные
преобразования от них, так называемые пробит-графики. Пробит-график от
теоретической нормальной функции распределения представляет собой прямую, а
пробит-график эмпирической функции распределения тем ближе к прямой, чем
ближе она к нормальной. Этот прием позволяет на первом этапе анализа данных
выявить их особенности, выдвинуть гипотезы о характере распределения,
решить вопрос о целесообразности замены переменной.

Если для конкретной выборки мы отклоняем гипотезу о нормальности, и,
следовательно, не можем пользоваться методами, которые предполагают
нормальность распределения выборочных значений, то для получения
статистических выводов можно поступать разными способами. Например, если
объем выборки достаточно велик, можно предпочесть использовать
параметрические критерии как приближенные. Другой путь состоит в подборе
замены переменной, приводящей к нормальному распределению. Третий путь -
применение непараметрических критериев.

[pic]

Рис. 2.7. Пример сравнения гистограммы и кривой нормальной плотности.

2.3.8 Непараметрические критерии

Часто надежная априорная информация о типе распределения отсутствует, а
имеющиеся выборочные данные слишком малочисленны для определения типа
распределения. В этих ситуациях для проверки гипотез применяются так
называемые непараметрические критерии. Непараметрические критерии
применяются ко всем непрерывным распределениям, и в качестве статистик этих
критериев используются такие функции от наблюдений, распределения которых
не зависят от вида распределения наблюдаемых случайных величин.

Часто статистики непараметрических критериев основаны не непосредственно
на численных значениях наблюдений выборки [pic], а на их рангах, т.е. на
порядковых номерах [pic] наблюдений при их упорядочении по возрастанию (в
их вариационном ряду). Хотя непараметрические критерии применяются для
непрерывных распределений, среди выборочных значений могут быть
совпадающие, хотя бы из-за неизбежных ошибок округления. В этом случае для
определения рангов равных величин используются различные методы. Метод
случайного ранга состоит в том, что ранги совпадающих наблюдений можно
взять в произвольном порядке. Например, для того чтобы решить, какой из
двух равных величин xi и xk приписать больший ранг, можно бросить монету.
Метод среднего ранга каждому из совпадающих наблюдений приписывет ранг,
равный среднему арифметическому их порядковых номеров в вариационном ряду.
Например, равным величинам xi=xk, которые в случае их неравенства имели бы
ранги r и r+1, приписывается средний ранг r+1/2. Третий метод заключается в
том, чтобы отбросить равные наблюдения. Ранги наблюдений, будучи функциями
выборочных значений, являются случайными величинами с возможными значениями
1, 2, ., n. Оказалось, что набор рангов [pic] cодержит значительную долю
информации о распределении наблюдаемой случайной величины, что обеспечивает
этим методам высокую эффективность.

Если статистика рангового критерия, [pic], - дискретная случайная
величина, то для заданного уровня значимости [pic] может не существовать
значения квантили распределения статистики критерия при справедливости
нулевой гипотезы. Поэтому для определения критического множества
используется верхнее критическое значение статистики критерия [pic], равное
наименьшему значению квантили распределения статистики критерия g, такому,
что [pic], и нижнее критическое значение [pic], равное наибольшему значению
квантили распределения статистики критерия g, такому, что [pic]. Значения
[pic] и [pic] находятся по таблицам. Для всех рассматриваемых ниже
критериев существуют таблицы критических значений статистики, например, в
(Большев, Смирнов, 1983).

Надо отметить, что ранговые критерии применяются и в тех случаях, когда
наблюдения не являются количественными, но допускают упорядочение, что
часто имеет место в исследованиях по биологии, медицине, психологии и
социологии. Рассмотрим некоторые непараметрические критерии.

2.3.8.1 Одновыборочные непараметрические критерии

Одновыборочные критерии предназначены для проверки гипотезы о равенстве
медианы заданному значению. Пусть имеется выборка [pic] значений случайной
величины [pic] с неизвестной непрерывной функцией распределения [pic], где
[pic] - неизвестная медиана. Требуется проверить гипотезу [pic], о
равенстве медианы заданному числу [pic]. Рассмотрим два наиболее часто
используемые критерия для проверки этой гипотезы.

1. Критерий знаков. В качестве статистики критерия, [pic], используется
число положительных разностей [pic], [pic]. Если верна нулевая гипотеза
[pic], то [pic] и, следовательно, статистика критерия [pic] - дискретная
случайная величина, распределенная по биномиальному закону с параметрами
[pic].

Критическая область уровня значимости [pic] против двусторонней
альтернативы [pic] будет состоять из двух интервалов [pic] и [pic], причем
[pic], так как распределение статистики критерия [pic] симметрично
относительно своего среднего [pic], где [pic] ( двусторонние критические
пределы статистики [pic]. Критическая область против односторонней
альтернативы [pic] состоит из одного интервала [pic] и против односторонней
альтернативы [pic] - из одного интервала [pic], где [pic] - нижнее и
верхнее критические значения статистики [pic], соответственно.

Для малых [pic] критические значения статистики можно вычислить с помощью
непосредственного перебора равновозможных [pic]последовательностей с [pic].
При [pic] случайная величина [pic] распределена асимптотически нормально,
[pic], и для нахождения критических значений можно воспользоваться
нормальным приближением.

Критерий знаков обладает недостаточной чувствительностью к различению
нулевой и альтернативной гипотез. Его асимптотическая эффективность по
отношению к одновыборочному t-критерию равна 0,637. Но из-за простоты и
наглядности он часто используется для предварительного анализа данных.

2. Критерий знаковых рангов (его асимптотическая эффективность по
отношению к одновыборочному [pic]-критерию равна 0,955). Статистика
знаковых рангов Вилкоксона равна сумме рангов положительных разностей

[pic]

где [pic] - ранг разности [pic], [pic], и суммирование рангов ведется по
положительным разностям.

Если нулевая гипотеза [pic] верна, вероятность каждого из возможных
[pic] исходов для набора рангов положительных разностей равна [pic], что и
определяет распределение статистики критерия для заданного [pic],
симметричное относительно среднего [pic], откуда следует, что. [pic], где
[pic] - нижнее и верхнее критические значения статистики критерия для
заданных [pic] и [pic], соответственно. Критическая область уровня
значимости [pic] против двусторонней альтернативы [pic] будет состоять из
двух интервалов [pic] и [pic], где [pic] - двусторонние критические
пределы статистики. Критическая область против односторонней
альтернативы [pic] - из одного интервала [pic] и против односторонней
альтернативы [pic] - также из одного интервала [pic].

Если верна гипотеза [pic], то при [pic] распределение статистики критерия
стремится к нормальному распределению, [pic]. При [pic] этим приближением
можно пользоваться для определения критических значений статистики.

2.3.8.2 Проверка гипотезы об отсутствии сдвига

Пусть имеются выборки [pic] и [pic] значений случайных величин [pic] и
[pic] с неизвестными непрерывными функциями распределения [pic] и [pic],
которые имеют одинаковую форму и могут различаться лишь параметром сдвига
?, т.е. [pic]. Требуется проверить гипотезу [pic] об отсутствии сдвига
между распределениями случайных величин [pic] и [pic].

Случай независимых выборок. Пусть [pic] и [pic] - независимые выборки из
непрерывных распределений [pic] и [pic]. Для решения задачи об отсутствии
сдвига между [pic] и [pic] можно применить критерий Вилкоксона или критерий
Манна - Уитни. Пусть [pic], в противном случае выборки поменяем местами.
Упорядочим [pic] наблюдений по возрастанию и обозначим через [pic] ранг
[pic]-ого наблюдения в объединенном ряду наблюдений, [pic]. Если есть
совпадающие значения внутри какой-либо из выборок, то их ранги можно взять
в произвольном порядке, метод случайного ранга. Если же совпадают значения,
принадлежащие разным выборкам, то для определения их рангов используется
метод среднего ранга (см. 2.3.8).

В качестве статистики Манна-Уитни [pic] используется общее число случаев
(инверсий) в упорядоченной по возрастанию последовательности из [pic] и
[pic], в которых [pic] появляется позднее некоторого [pic]:

[pic]

Если [pic], к значению [pic] прибавляется 1/2. Статистика [pic] -
дискретная случайная величина, принимающая значения от 0 до [pic].

Если нулевая гипотеза верна, [pic] последовательностей из [pic] и [pic]
являются равновероятными, что и определяет распределение статистики [pic],
симметричное относительно своего среднего [pic]. Критическая область уровня
значимости [pic] против двусторонней альтернативы [pic] будет состоять из
двух интервалов [pic] и [pic], где [pic] и [pic] - двусторонние критические
пределы статистики, связанные соотношением [pic]. Критическая область
против односторонней альтернативы [pic] - из одного интервала[pic] и против
односторонней альтернативы [pic] - из одного интервала [pic], где [pic] и
[pic] - нижнее и верхнее критические значения статистики [pic] порядка
[pic], соответственно.

При малых [pic] и [pic] критическое значение [pic] определяется
непосредственным подсчетом последовательностей с наименьшим количеством
инверсий. Для больших [pic] и [pic] распределение [pic] можно
аппроксимировать нормальным распределением. Если нулевая гипотеза [pic]
верна, то при [pic], [pic] статистика [pic] распределена асимптотически
нормально,[pic].

Статистику критерия [pic] можно также вычислить по формуле

[pic]

где [pic], сумма рангов наблюдений [pic], есть статистика критерия
Вилкоксона. Следовательно, критерии, основанные на статистиках [pic] и
[pic] эквивалентны.

Пример. Пусть получены выборки значений двух случайных величин [pic] и
[pic] объема n=4 и m=5:

[pic]: 174 175 183 174

[pic]: 187 185 185 179 181

Составим из них общий вариационный ряд (т.е. расположим в порядке
возрастания), сохранив информацию о принадлежности к выборке:

Ранг |1 |2 |3 |4 |5 |6 |7 |8 |9 | |[pic] |174 |174 |175 | | |183 | | | |
|[pic] | | | |179 |181 | |185 |185 |187 | |

Сумма рангов выборки значений случайной величины [pic] равна
W=1+2+3+6=12. Это значение не выходит за двусторонние критические пределы
[pic] и [pic] уровня значимости 5%. Выборочное значение статистики [pic] и
соответствующее ему [pic] и, следовательно, у нас нет оснований отвергнуть
нулевую гипотезу о том, что сдвиг между распределениями [pic] и [pic]
отсутствует.

Заметим, что приведенные данные были получены с помощью датчика нормально
распределенных случайных чисел [pic] и [pic]. Приведенные выше значения
могли бы быть, например, значениями роста четырех случайно выбранных
французов и пяти случайно выбранных норвежцев (средний рост взрослых мужчин
Франции и Норвегии равен 175 и 180 см, соответственно). Т.е. в
действительности сдвиг [pic] между распределениями отличен от нуля (он
равен [pic]=175-180=-5) и гипотеза [pic] неверна, но критерии Вилкоксона и
Манна - Уитни не обнаружили различия между распределениями [pic] и [pic].
Если применить к приведенным данным [pic]-критерий Стьюдента для сравнения
математических ожиданий двух нормально распределенных случайных величин с
неизвестными дисперсиями, то получим выборочное значение [pic] для
статистики критерия. Поскольку это значение выходит за 5%-ные критические
пределы [pic] и [pic] [pic]-распределения с 4+5-2=7 степенями свободы, то
гипотеза о равенстве математических ожиданий должна быть отвергнута. Это
типичная ситуация - непараметрические критерии обладают меньшей мощностью
по сравнению с аналогичными параметрическими критериями, использующими
дополнительную информацию о наблюдаемых случайных величинах. Поэтому, если
имеется достоверная дополнительная информация, то предпочтительнее
использовать критерий, учитывающий эту информацию.

Гипотезу [pic] об отсутствии сдвига можно проверить также с помощью
критерия Ван-дер-Вардена. Обозначим через [pic]. Статистика критерия имеет
вид

[pic]

где [pic] - ранг наблюдения [pic], а [pic] - [pic]-квантиль стандартного
нормального распределения.

Если нулевая гипотеза [pic] верна, то [pic] последовательностей длиной
[pic] из [pic] и [pic] являются равновероятными. При малых [pic] и [pic]
критические значения статистики [pic] можно вычислить точно с помощью
непосредственного перебора равновозможных последовательностей из [pic] и
[pic]. Верхнее, [pic], и нижнее, [pic], критические значения,
соответствующие уровню значимости [pic], при заданных [pic] и [pic] связаны
соотношением [pic]. Критическая область уровня значимости [pic] против
двусторонней альтернативы [pic] будет состоять из двух бесконечных
полуинтервалов [pic] и [pic]. Критическая область против односторонней
альтернативы [pic] - из одного полуинтервала [pic] и против односторонней
альтернативы [pic] - также из одного полуинтервала [pic]. При [pic],
независимо от поведения [pic] и [pic] по отдельности, статистика [pic]
распределена асимптотически нормально, [pic].

Критерий Ван-дер-Вардена является наиболее мощным непараметрическим
критерием для решения задачи двух выборок, если два сравниваемых
распределения отличаются лишь параметром сдвига. Если обе выборки извлечены
из нормальных совокупностей, то при постоянном [pic] и [pic] критерий Ван-
дер-Вардена имеет такую же мощность, как и двухвыборочный [pic]-критерий.

Случай связанных выборок. Пусть [pic] и [pic] - связанные выборки из
непрерывных распределений [pic] и [pic], соответственно, причем [pic].
Например, каждая пара наблюдений [pic], принадлежит одному объекту, либо
[pic] попарно связаны тем, что условия проведения наблюдений менялись от
опыта к опыту, но для каждой пары [pic] оставались постоянными, что в
практике биологического эксперимента встречается очень часто.

Обозначим через [pic]. Тогда проверка гипотезы об отсутствии сдвига между
[pic] и [pic] сводится к проверке гипотезы о равентстве медианы нулю для
выборки [pic]. Для этого можно применить критерий знаков или критерий
знаковых рангов, рассмотренные в п.3.11.1.
Асимптотическая относительная эффективность критерия знаков для связанных
выборок по отношению к двухвыборочному [pic]-критерию для связанных выборок
равна 0,637, а критерия знаковых рангов Вилкоксона - 0,955.

2.3.8.3 Критерии однородности

Критерии Манна - Уитни (Вилкоксона) и Ван-дер-Вардена позволяют
обнаруживать лишь различия в центральных тенденциях непрерывных
распределений двух случайных величин. Если важно обнаружить любые
расхождения в форме непрерывных распределений, то пользуются критериями
однородности, например, двухвыборочным критерием Смирнова. С помощью этого
критерия проверяется гипотеза [pic] о том, что функции распределения [pic]
и [pic] случайных величин [pic] и [pic] идентичны, против альтернативной
гипотезы [pic] о том, что они различны.

Статистика критерия Смирнова [pic] определяется как максимум модуля
разности между эмпирической функцией [pic], построенной по выборке [pic], и
эмпирической функцией [pic], построенной по выборке [pic]

[pic]

При справедливости гипотезы [pic] статистика [pic] имеет асимптотическое
(при [pic] так, что отношение [pic] остается постоянным) распределение
Колмогорова. Критическая область уровня значимости [pic] против
двусторонней альтернативы [pic] будет состоять из одного полуинтервала
[pic], где [pic] - квантиль распределения статистики [pic] при [pic]
порядка [pic].

Заметим, что в англоязычной литературе критерий однородности двух выборок
Смирнова называют двухвыборочным критерием Колмогорова-Смирнова.

2.3.8.4 Проверка гипотезы о независимости

Пусть имеется двумерная выборка [pic] из неизвестного двумерного
распределения. Причем наблюдаемые признаки могут быть как количественными,
так и порядковыми. Найдем ранги, [pic] и [pic], в последовательностях [pic]
и [pic], упорядоченных по отдельности. Мерой зависимости двух случайных
величин является коэффициент ранговой корреляции Спирмена, определяемый
формулой

[pic]

где [pic]. Как и обычный коэффициент корреляции, коэффициент ранговой
корреляции [pic] принимает значения [pic], причем [pic], когда [pic], и
[pic], когда последовательности рангов полностью противоположны, [pic].
Коэффициент [pic] используется для проверки гипотезы о независимости
признаков. Нулевая гипотеза [pic] чаще всего проверяется против
альтернативы [pic]. Статистикой критерия является [pic]. Можно показать,
что, если нулевая гипотеза [pic] верна, то распределение статистики [pic]
симметрично относительно 0 с [pic] и [pic]. Следовательно, критическое
множество принятия нулевой гипотезы имеет вид [pic], где [pic] - верхнее
критическое значение статистики критерия [pic], соответствующее уровню
значимости [pic] при заданном [pic].

Если верна нулевая гипотеза, случайная величина [pic] при [pic]
распределена асимптотически нормально с параметрами (0, 1). При [pic]
критические значения статистики критерия находят по таблицам точного
распределения [pic] при [pic], а при [pic] пользуются нормальной
аппроксимацией.

Асимптотическая относительная эффективность критерия, основанного на
статистике [pic], по отношению к критерию, основанному на выборочном
коэффициенте корреляции, равна 0,912.

-----------------------
[pic]