Документ взят из кэша поисковой машины. Адрес оригинального документа : http://ecology.genebee.msu.ru/3_SOTR/CV_Terekhin_publ/2007_Multivar.doc
Дата изменения: Mon Mar 16 11:08:23 2009
Дата индексирования: Mon Oct 1 21:10:15 2012
Кодировка: koi8-r


Глава 3. Анализ многомерных данных
[pic]


В предыдущей главе рассматривались методы статистического анализа
данных, описываемых, в основном, одной переменной. Теперь мы рассмотрим
методы, позволяющие анализировать данные, описываемые любым числом
переменных, т.е. так называемые многомерные данные.

3.1 Классификация методов анализа многомерных данных

Несмотря на чрезвычайное разнообразие методов анализа многомерных
данных, имеется четкая система представления как самих данных, так и
результатов их анализа. Данные представляются в виде прямоугольной таблицы
(матрицы), строки которой соответствуют различным ситуациям (наблюдениям),
а столбцы - переменным, наблюдаемым в этих ситуациях. Результаты же
представляются в виде функций, выражающих одни переменные (называемые
зависимыми переменными, или откликами) через другие переменные (называемые
независимыми переменными, или факторами). Такое представление исходных
данных и результатов анализа чрезвычайно удобно, поскольку предлагает ясную
схему для сбора данных, их обработки и интерпретации полученных
результатов.

Предлагаемая ниже классификация методов анализа данных проведена по
двум основаниям: отсутствию или наличию независимых переменных, а также по
типу зависимых и независимых переменных, которые могут быть качественными
или количественными. Схема этой классификации представлена на рис. 3.1.
Основным служит деление на методы, предполагающие наличие независимых
переменных (левая часть схемы) и не предполагающие их наличие (правая
часть). Это деление определяет содержательную постановку задачи, тогда как
дальнейшее деление методов по типу зависимых и независимых переменных носит
скорее технический характер, детализируя математическую процедуру ее
решения.

В случае априорного разделения переменных на зависимые и независимые
(см. левую часть рис. 3.1) задача анализа состоит в получении описания
зависимости Y от X. Выбор метода решения зависит прежде всего от того,
являются ли качественными или количественными зависимые переменные Y.
Окончательное решение о выборе метода анализа данных принимается в
зависимости от типа независимых переменных X.

Наиболее часто на практике для установления связи между независимыми и
зависимыми переменными применяют регрессионный анализ и дисперсионный
анализ. В обоих случаях откликами служат количественные переменные, однако
факторы в регрессионном анализе количественные, а в дисперсионном -
качественные.

[pic]









Рис 3.1. Классификация методов анализа данных



В регрессионном анализе наиболее явно виден функциональный характер
модели анализа данных. Задача регрессионного анализа прямо формулируется
как задача поиска функциональной зависимости Y от X, причем задача поиска
формы связи не менее важна, чем вопросы статистической значимости
полученных результатов. Наиболее широко применяется модель множественного
линейного регрессионного анализа, позволяющая получать аналитически все
стандартные статистические оценки. В более сложных ситуациях (например, при
использовании пошаговых процедур) для получения статистических выводов
приходится применять методы, основанные на стохастическом моделировании,
такие как случайная пермутация или бут-стрэп.

Задачей дисперсионного анализа является установление связи между
независимыми качественными переменными и зависимыми количественными. Однако
поскольку функциональная структура связи очень проста - отклики
представляются как линейные комбинации бинарных переменных - уровней
факторов, то основное внимание в дисперсионном анализе уделяется вопросам
статистической значимости влияния отдельных факторов.

Если отклики Y качественные, то для анализа используется группа
методов, известная под общим названием распознавания образов. Наиболее
используемым методом распознавания в случае количественных факторов
является дискриминантный анализ. Примерами методов распознавания,
ориентированных на случай качественных факторов, могут служить
сегментационный анализ и метод обобщенного портрета.

Целью дискриминантного анализа является получение правила,
позволяющего на основе наблюденных значений количественных независимых
переменных X предсказывать значение качественной переменной Y, указывающей
на принадлежность наблюдения к одному из заданных классов.

Сегментационный анализ состоит в последовательном разбиении
совокупности наблюдений с целью получения, в конечном итоге, групп,
максимально однородных по классовому составу.

Случай отсутствия зависимых переменных (правая часть рис. 3.1)
предполагает, что все анализируемые переменные в некотором смысле
равноправны, и мы принимаем их за отклики (для простоты будем считать их
количественными), значения которых определяются какими-то нам неизвестными
факторами. Примерами могут служить морфологические или генетические
характеристики растений, животных или людей, принадлежащих определенному
таксону или обитающих на определенной территории. Задача анализа состоит в
поиске этих неизвестных факторов. Выбор метода решения зависит от того,
считаем ли мы искомые факторы качественными или количественными.

Для поиска качественных факторов используется группа методов,
известная под названием кластерный анализ, среди которых наиболее часто
используется так называемый агломеративно-иерархический метод, основанный
на последовательном объединении многомерных наблюдений сначала в мелкие, а
затем во все более и более крупные группы. Результатом кластерного анализа
является разбиение всей совокупности наблюдений на классы. Полученной
классификации соответствует качественная переменная (или несколько
переменных, если используются несколько классификаций разной степени
дробности или пересекающиеся классификации), категориями которой служат
номера классов. Именно эта переменная (или переменные) и будет искомым
качественным фактором. Найдя такой фактор (классифицирующую переменную), мы
получаем возможность объяснять сходство или различие в значениях откликов
для разных наблюдений принадлежностью их к одному или к разным классам.

Если же неизвестные факторы ищутся в форме количественных переменных,
то используются методы факторного анализа. В этом случае задача состоит в
представлении имеющихся откликов, Y, в виде линейных комбинаций
неизвестных количественных факторов, X . С практической точки зрения
применение этого метода оправдано, если удается с достаточной степенью
приближения выразить большое количество откликов через малое число
факторов. Одним из наиболее часто используемых методов этого класса
является метод главных компонент, основанный на ортогональном
проектировании исходного многомерного пространства в пространство меньшей
размерности, в котором точки-наблюдения имеют наибольший разброс. Метод
позволяет записать исходные данные в более компактном виде с сохранением
максимума содержащейся в них информации и даже представить их графически на
плоскости для случая двух факторов.

Следует еще раз подчеркнуть, что основным является деление методов
анализа на те, в которых переменные делятся на зависимые и независимые
(анализ связи), и те, в которых такого деления нет (анализ факторов).
Дальнейшее деление методов по типу откликов и факторов довольно
относительно. Дело в том, что уровни качественных факторов можно
рассматривать как бинарные переменные, которые, в свою очередь, можно
считать количественными переменными со значениями 0 и 1. С другой стороны,
непрерывную шкалу значений количественной переменной можно категоризовать и
рассматривать эту переменную как качественную. Во всяком случае, такого
рода преобразования приходится делать вынужденно, когда по типу различаются
не только факторы и отклики, но и разные переменные среди факторов или
среди откликов.



3.2 Матричная алгебра

Адекватным математическим аппаратом для описания методов
статистического анализа многомерных данных является матричная алгебра.
Напомним ее основные понятия.

Матрицей порядка nвm (или nвm-матрицей) называется любая таблица из n
строк и m столбцов. Если n=m, то матрица называется квадратной, а число n=m
- ее порядком. Например, матрицей является таблица многомерных
статистических данных, содержащая значения m переменных для n наблюдений

[pic]

Другой пример - матрица выборочных корреляций, вычисленная для этих данных,
которая имеет порядок m(m

[pic]

Матрица из одного столбца называется также вектором-столбцом, или
просто вектором. Например, совокупность наблюдений зависимой переменной Y
можно представить в виде вектора-столбца

[pic]

Для матриц одного порядка определена операция сложения - элементы
матрицы суммы равны сумме соответствующих элементов матриц-слагаемых



[pic]

Умножение матрицы на число определяется как умножение каждого
элемента матрицы на это число

[pic]

Если число столбцов одной матрицы равно числу строк другой (такие
матрицы называются соответственными), то для них определена операция
умножения матриц по правилу «строка на столбец»

[pic]

Мы видим, что умножение матрицы т(m порядка на матрицу порядка m(k дает
матрицу порядка n(k.

Операция транспонирования матрицы состоит в том, что строки исходной
матрицы становятся столбцами транспонированной

[pic]

Квадратная матрица может иметь обратную матрицу. Матрица [pic]
называется обратной к квадратной матрице [pic] порядка n(n, если [pic],
где [pic] - единичная матрица, т.е. матрица, диагональные элементы которой
единицы, а внедиагональные - нули. Единичная матрица обладает тем
свойством, что умножение любой квадратной матрицы [pic] на единичную
матрицу того же порядка не меняет [pic], т.е. [pic]. Обратная матрица для
единичной матрицы является также единичной матрицей, т.е. [pic].

Обратная матрица может быть вычислена по формуле

[pic]

где [pic] - так называемая присоединенная матрица для [pic], а [pic] - ее
определитель, часто обозначаемый также как [pic]. Определитель матрицы -
это связанное с ней числовое значение, определяемое выражением

[pic]

в котором суммирование ведется по всем n! перестановкам индексов 1, 2, .,
n, а r - число парных инверсий, необходимых для получения перестановки k1,
k2, ., kn из исходного упорядочения 1, 2, ., n. Например для определителя
квадратной матрицы 2(2

[pic]

получаем следующий результат

[pic]

Определитель матрицы порядка 1(1 равен значению ее единственного элемента.

Квадратная матрица [pic] называется ортогональной, если [pic], т.е.
если обратная матрица может быть получена из исходной просто путем ее
транспонирования [pic].

Очевидно, если определитель матрицы равен нулю (в этом случае она
называется вырожденной), то для нее не существует обратной матрицы (т.к. в
формуле для вычисления обратной матрицы определитель находится в
знаменателе). В частности, если элементы какой-либо строки или столбца
матрицы пропорциональны другой строке или столбцу (т.е. получены путем
умножения их элементов на одно и то же число), то определитель будет равен
нулю, и такая матрица не будет иметь обратной. Например,

[pic]

Вообще, определитель будет равен нулю в случае, если какая-либо строка или
столбец матрицы является линейной комбинацией других ее строк или
столбцов.

С любой квадратной матрицей [pic] порядка n(n связан также набор ее
собственных значений (1, (2, ., (n - решений уравнения n-ой степени

[pic]

В свою очередь, каждому собственному значению (i соответствует собственный
вектор [pic], удовлетворяющий уравнению

[pic]
которое означает, что умножение слева собственного вектора [pic] на матрицу
[pic] сводится к умножению его на скаляр - собственное значение (i. Отсюда
следует, что если из n собственных векторов-столбцов составить квадратную
матрицу [pic], то будет выполняться соотношение

[pic]

([pic] - матрица, главная диагональ которой образована собственными
значениями (1, (2, ., (n, а вне диагональные элементы - нули). Можно
показать, что если все собственные значения матрицы [pic] различны, то она
не вырождена и имеет обратную матрицу [pic]. В этом случае, умножая
полученное соотношение слева на [pic], получаем

[pic]

т.е. умножая [pic] слева на [pic], а справа на [pic], мы приводим ее к
диагональному виду.



3.3 Регрессионный анализ
Выше уже отмечалось, что одними из самых распространенных методов
анализа связи между количественными переменными являются методы
регрессионного анализа. Пусть в эксперименте наблюдаются значения [pic]
переменной [pic]. Рассмотрим матрицу экспериментальных данных
[pic]
где [pic] и [pic] - значения переменных [pic] и [pic], соответственно, в i-
м эксперименте.
В регрессионном анализе (regression analysis) рассматривается связь
между переменной [pic], называемой зависимой переменной (dependent
variable), и переменными [pic], называемыми независимыми переменными
(independent variables) (слово «независимые» здесь применяется не в
вероятностном смысле). Эта связь описывается некоторой математической
моделью, выражаемой функцией
[pic]
где [pic] - неизвестные параметры, а [pic] - ошибка предсказания [pic]
посредством функции регрессии [pic].
Если функция регрессии линейна по параметрам (но не обязательно
линейна по независимым переменным), то эта модель называется моделью
линейного регрессионного анализа. Рассмотрим более подробно эту модель. Во
многих реальных задачах экспериментальных исследований более подходящей
является модель нелинейного регрессионного анализа (функция регрессии [pic]
нелинейна по параметрам). Но модель линейного регрессионного анализа часто
бывает удовлетворительной в малой области изменения независимых переменных,
а также как первое приближение к модели нелинейного регрессионного анализа.
В практических исследованиях описание зависимости между переменными с
помощью функции регрессии помогает установить наличие возможных причинных
связей. Это часто привлекает исследователей к использованию методов
регрессионного анализа. Другая причина частого использования методов
регрессионного анализа состоит в том, что в ситуации, когда прямые
измерения зависимой переменной затруднены, уравнение регрессии позволяет
предсказать ее значения по значениям независимых переменных.
Матрицу экспериментальных данных можно получить одним из двух
способов. При первом способе значения независимых переменных [pic]
надлежащим образом выбираются и устанавливаются без погрешностей
экспериментатором в каждом опыте, и при этих значениях измеряется с
ошибками значение зависимой переменной [pic]. Такой эксперимент называется
активным. Например, при изучении влияния температуры водной среды [pic] на
скорость дыхания гидробионтов [pic] экспериментатор выбирает определенные
значения температур: 5њ, 10њ и т. д. Затем для этих значений температуры
определяется скорость дыхания гидробионтов. При таком подходе только [pic]
будет случайной величиной. При втором способе одновременно наблюдаются
значения всех [pic] переменных [pic], причем все эти переменные случайны,
т. е. матрица экспериментальных данных в этом случае есть случайная выборка
значений многомерной случайной величины [pic]. Такой эксперимент называется
пассивным. Например, в случайно выбранной пробе воды регистрируется число
бактерий на 1 мл [pic], температура водной среды [pic], соленость [pic] и
изучается влияние независимых переменных [pic] на численность бактерий в
водоеме [pic].
Второй способ позволяет проводить так называемый корреляционный
анализ, т. е. делать статистические выводы (оценивание, проверка гипотез) о
мерах линейной зависимости между переменными. К мерам линейной зависимости
относятся коэффициент корреляции, множественный коэффициент корреляции и
частный коэффициент корреляции.
К статистическим проблемам регрессионного анализа относятся: проверка
выполнения предположений, лежащих в основе регрессионного анализа,
нахождение оценок неизвестных параметров регрессии, построение
доверительных интервалов для неизвестных параметров регрессии, проверка
гипотез относительно этих параметров, проверка адекватности регрессионной
модели.

3.3.1 Множественная линейная регрессия
Пусть [pic] зависимая, а [pic] независимые переменные. Рассмотрим
ситуацию активного эксперимента. Модель множественной линейной регрессии
записывается в виде
[pic] (3.1)
где [pic] - неизвестные параметры регрессии, а [pic] - независимые
случайные ошибки, распределенные по нормальному закону со средним 0 и
одинаковой дисперсией [pic]: [pic].

3.3.1.1 Оценивание параметров линейной регрессии
При построении оценок неизвестных параметров регрессии можно
отказаться от предположения о нормальности, а предположение о независимости
заменить на предположение о некоррелируемости.
В случае, когда [pic], модель множественной линейной регрессии (3.1)
записывается в виде
[pic],
и называется простой линейной регрессией (заметим, что через [pic]
обозначено значение в [pic]-м эксперименте единственной независимой
переменной).
Оценки неизвестных параметров регрессии [pic] получаются с помощью
метода наименьших квадратов (мнк). Обозначим через [pic] мнк-оценки
неизвестных параметров ([pic] называется свободным членом или константой
регрессии, a [pic] - коэффициентами регрессии), т.е. оценки, обеспечивающие
минимум суммы квадратов отклонений значений зависимой переменной от
регрессии
[pic] 3.2)
которая является мерой ошибки предсказания зависимой переменной [pic] с
помощью модели множественной линейной регрессии по независимым переменным
[pic]. Оценкой функции регрессии (или прямой наименьших квадратов в
случае простой линейной регрессии) будет зависимость
[pic]
На рис. 3.2, иллюстрирующем метод наименьших квадратов в случае
простой линейной регрессии, изображена прямая наименьших квадратов [pic] и
модули остатков
[pic]
где [pic] - предсказанные по регрессионной модели значения зависимой
переменной, которые в случае простой регрессии равны
[pic]
а в случае множественной линейной регрессии -
[pic]
[pic]

Рис.3.2. Прямая наименьших квадратов простой линейной регрессии.
Графическая иллюстрация к определению сумм квадратов таблицы дисперсионного
анализа

Можно доказать, что оценки [pic], получаемые по методу наименьших
квадратов, линейно зависят от наблюдений [pic] зависимой переменной [pic].
Приведем здесь формулы для вычисления мнк-оценок для случая простой
линейной регрессии, т.е для случая [pic]
[pic] и [pic]
где
[pic] и [pic].
Программы множественной линейной регрессии всех пакетов статистических
программ вычисляют оценки [pic]. Кроме того, вычисляется таблица
дисперсионного анализа для модели множественной линейной регрессии (табл.
3.1), на основании которой мы судим о качестве «подгонки» модели. В табл.
3.1 через [pic] обозначается обусловленная регрессией сумма квадратов,
[pic] - сумма квадратов отклонений от линии регрессии или остаточная сумма
квадратов (сумма квадратов остатков), [pic] - полная сумма квадратов. На
рис. 3.2 дана графическая иллюстрация слагаемых сумм квадратов в случае
простой линейной регрессии. Если [pic] то все экспериментальные точки лежат
на линии регрессии - прямой наименьших квадратов [pic], а если [pic], то
наилучшее предсказание [pic] осуществляется моделью [pic].


Таблица 3.1. Таблица дисперсионного анализа для модели множественной
линейной регрессии

|Источник дисперсии|Источник дисперсии|Степени свободы |Средний квадрат |F-отношение |р-значение |
|Регрессия |[pic] |[pic] |[pic] |[pic] | |
|Отклонение от |[pic] |[pic] |[pic] | | |
|регрессии | | | | | |
|(остатки) | | | | | |
|Полная |[pic] |[pic] | | | |

Можно показать, что [pic] - несмещенная и состоятельная оценка для
дисперсии [pic] ошибки измерения зависимой переменной. Величину [pic]
называют стандартной ошибкой оценки зависимой переменной (standard error of
estimate).
Верно замечательное свойство таблицы дисперсионного анализа
[pic]
Отношение [pic] есть доля вариации [pic], объясняемой регрессией [pic] по
[pic]. Это отношение называется коэффициентом детерминации. Коэффициент
детерминации является мерой качества предсказаний значений зависимой
переменной [pic] моделью множественной линейной регрессии. Если он равен 1
(т. е. [pic]), то экспериментальные точки в точности лежат на линии
регрессии. А если коэффициент детерминации равен 0 (т. е. [pic], a [pic]),
то наилучшее предсказание [pic] осуществляется моделью [pic], т. е. [pic]
«не зависит» от [pic].
Можно показать в случае множественной линейной регрессии, что
[pic]
а в случае простой линейной регрессии
[pic],
где [pic] есть выборочный множественный коэффициент корреляции между [pic]
и [pic] (определение множественного коэффициента корреляции дается ниже), а
[pic] - выборочный коэффициент корреляции между [pic] и [pic].
Модель множественной линейной регрессии удобно записывать в матричной
форме. Обозначим через [pic] вектор-столбец неизвестных параметров
регрессии, [pic] - вектор-столбец мнк-оценок, [pic] - вектор-столбец
наблюденных значений зависимой переменной [pic], [pic] - вектор-столбец
ошибок, а также
[pic].
Тогда матричная модель множественной линейной регрессии (3.1) записывается
в виде
[pic]
где [pic] - случайная величина, распределенная по многомерному нормальному
закону [pic] ([pic] - единичная диагональная матрица).
Можно показать, что вектор мнк-оценок является решением системы так
называемых нормальных уравнений
[pic]
и равен
[pic]
а ковариационная матрица вектора мнк-оценок равна
[pic]

3.3.1.2 Доверительные интервалы
Большинство программ множественной линейной регрессии вычисляют
среднеквадратичные отклонения мнк-оценок коэффициентов регрессии, обычно
называемые их стандартными ошибками (standard error of regression
coefficients), которые будем обозначать через [pic], где [pic]. Можно
показать, что [pic]-ный доверительный интервал для неизвестного
коэффициента регрессии [pic] равен
[pic],
где [pic] - квантиль распределения Стьюдента с [pic] степенью свободы
порядка [pic].
Для случая простой линейной регрессии [pic] выражения для стандартной
ошибки свободного члена регрессии и углового коэффициента регрессии [pic]
имеют вид
[pic]
Построим теперь доверительный интервал для неизвестного значения
[pic]. Предсказанное значение можно интерпретировать двумя способами,
поэтому, соответственно способу интерпретации, можно построить два
доверительных интервала. При первом способе, [pic] - наилучшая оценка
измерения [pic], соответствующего значениям [pic] независимых переменных
[pic]. При втором способе, [pic] - наилучшая оценка математического
ожидания измерения [pic], соответствующего значениям [pic] независимых
переменных [pic].
Обозначим через [pic] вектор-столбец, где [pic], а через [pic]
квадратную матрицу [pic] с элементами [pic]. Тогда нижняя и верхняя границы
[pic]-ного доверительного интервала для измерения [pic] при заданных [pic]
определяются выражением
[pic] (3.3)
а нижняя и верхняя границы [pic]-ного доверительного интервала для
математического ожидания измерения [pic] при заданных [pic] определяются
выражением
[pic] (3.4)
где [pic] - квантиль распределения Стьюдента с [pic] степенями свободы
порядка [pic].
В случае простой линейной регрессии [pic] доверительные интервалы
(3.3) и (3.4) вычисляются более просто:
[pic]
и

[pic]
Заметим, что чем дальше [pic] от среднего значения, тем больше
доверительный интервал. Многие программы простой линейной регрессии рисуют
эти доверительные интервалы в виде кривых вокруг прямой наименьших
квадратов. Выбор типа доверительного интервала зависит от того, как
интерпретирует предсказанное значение исследователь.

3.3.1.3 Проверка гипотез о коэффициентах линейной регрессии
Рассмотрим проверку гипотезы о том, что вычисленные коэффициенты регрессии
значимо не отличаются от нуля. Это равносильно гипотезе о том, что
независимые переменные [pic] значимо не улучшают предсказания [pic] по
сравнению с моделью [pic]. Таким образом, рассмотрим нулевую гипотезу
[pic]
при альтернативной гипотезе [pic] не все [pic] равны нулю, (альтернативная
гипотеза состоит в том, что некоторые из независимых переменных [pic]
значимо улучшают предсказание [pic] по сравнению с моделью [pic]).
Зададимся уровнем значимости критерия [pic]. Статистика критерия
[pic] (3.5)
при условии, что верна гипотеза [pic], имеет [pic]-распределение с [pic] и
[pic] степенями свободы. Эта статистика вычисляется программами
множественной линейной регрессии в таблице дисперсионного анализа для
модели множественной линейной регрессии (табл. 3.1) вместе с
соответствующим p-значением, по которому мы, не пользуясь таблицами
квантилей (в данном случае [pic]-распределения), можем судить о том,
согласуется (p-значение [pic]) или не согласуется (p-значение [pic])
гипотеза [pic] с экспериментальными данными.
При отсутствии программы надо построить множество принятия нулевой
гипотезы, которое в данном случае имеет вид [pic], где [pic] - квантиль
[pic]-распределения с [pic] и [pic] степенями свободы порядка [pic]. И если
вычисленное по выборке значение статистики критерия (3.5) примет значение
из множества принятия нулевой гипотезы, то мы считаем, что гипотеза [pic]
согласуется с экспериментальными данными. В противном случае гипотеза [pic]
не согласуется с экспериментальными данными и отвергается на уровне
значимости [pic].
Рассмотрим теперь проверку гипотезы о том, что [pic]-й коэффициент
регрессии значимо не отличается от нуля. Это равносильно гипотезе о том,
что независимая переменная [pic] значимо не улучшает предсказание [pic].
Таким образом, рассмотрим следующую нулевую и альтернативную гипотезы
[pic]
[pic]
Зададимся уровнем значимости критерия [pic]. При проверке данной гипотезы
обычно рассматривают одну из двух эквивалентных статистик:
[pic] и [pic]. (3.6)
При условии, что верна гипотеза [pic], первая из статистик (3.6) имеет
[pic]-распределение с 1 и [pic] степенями свободы, а вторая - распределение
Стьюдента с [pic] степенями свободы. Эти статистики вычисляются программами
множественной линейной регрессии вместе с соответствующими p-значениями.
При