Документ взят из кэша поисковой машины. Адрес оригинального документа : http://lnfm1.sai.msu.ru/grav/russian/lecture/mon/7.doc
Дата изменения: Sat Dec 20 13:12:36 2003
Дата индексирования: Mon Oct 1 23:33:58 2012
Кодировка: Windows-1251

Поисковые слова: воздушные массы

Глава 7

ЭЛЕМЕНТАРНАЯ ТЕОРИЯ КОРРЕЛЯЦИИ


7.1. Детерминированные и статисти?еские зависимости

В астрономии, как и в любой отрасли науки о Природе, многие явления
являются зависимыми между собой. На основании опыта (наблюдений) можно
построить строгую математи?ескую модель наблюдаемого явления и все ее
закономерности могут быть описаны. Например, движение планеты вокруг Солнца
под?иняется законам Кеплера, которые, в свою о?ередь, вытекают из закона
Всемирного тяготения. Наблюдения подтверждают правильность этого закона.
Однако, по мере увели?ения то?ности наблюдений выявляются "неравенства",
т.е. отклонение от предвы?исленного закона, ?то свидетельствует о том, ?то
принятая модель слишком упрощена и требует уто?нения. Такими уто?нениями в
небесной механике является у?ет возмущений, связанных с притяжением других
планет, распределением масс в недрах планеты, давлением солне?ной радиации,
эйнштейновским искривлением пространства и т.п.
Чрезвы?айно сложные процессы присходят в недрах звезд, Солнца и
других объектов. Как бы мы не уто?няли модель, построенную для объяснения
наблюдаемых явлений, пользуясь законами физики, мы не можем описать
конкретные явления как следствие других процессов абсолютно строго, т.к.
реальность куда более сложна, ?ем заложено в модели. Синоптики, располагая
современными вы?ислительными средствами, хорошо развитым математи?еским
аппаратом, сведениями о распределении температур, давления, влажности,
направления и скорости ветра в некоторый на?альный момент, могут после
интегрирования соответствующих уравнений построить синопти?ескую картину
для последующего времени. Однако, мы знаем, ?то синопти?еский прогноз не
всегда сбывается, так как ?исло возмущающих факторов столь велико, ?то
у?есть их все практи?ески невозможно. Отсюда - "полупредсказуемость"
процессов, т.е. предсказание осуществления лишь с определенной надежностью,
отли?ной от 100%. Зависимости, строго описываемые формулами, алгоритмами,
дающие возможность предсказания, называют детерминированными.
Нали?ие большого ?исла наблюдательных данных позволяет построить
зависимость одного параметра от другого не строго, без у?ета других
факторов. Такие наблюдательные данные нельзя выстроить "в цепо?ку" и
провести плавные кривые. Около воображаемой кривой собирается целый "рой"
то?ек. Зависимости, полу?енные таким образом, называются статисти?ескими.
Типи?ный пример статисти?екой зависимости - диаграмма спектр-светимость:
зависимость абсолютной звездной вели?ины от температуры звезд, а то?нее -
от ее спектрального класса.
Аппроксимация эмпири?еских закономерностей методом наименьших
квадратов строго обоснована лишь в слу?ае, когда только наблюдательные
данные содержат погрешности. В статисти?еских закономерностях "шумят" не
только функции, но и аргументы. Поэтому для анализа таких закономерностей
требуется особый подход.

7.2. Корреляция и коэффициент корреляции

Рассмотрим такой пример. Допустим, ?то два одинаковых астрографа (А и
B) используют для наблюдений одних и тех же у?астков звездного неба.
Изображение этих звезд на фотоснимках - кружо?ки с радиусом, зависящим от
яркости звезды. Если бы ни?его не мешало, то мы бы имели строгое
дублирование наблюдений с одним инструментом наблюдениями с другим
инструментом. График зависимости диаметров изображений на телескопе А (ось
Х) от диаметров изображений на телескопе B (ось Y) определялся бы прямой,
проведенной к осям под углом 450. Если у одного телескопа оптика лу?ше, то
и изображение звезд будет более то?е?ным (диаметр меньше). Понятно, ?то
прямая наблюдений пройдет под углом, отли?ным от 450. Однако, изображение
звезды - круглое пятно без резко о?ер?енной границы. В этом слу?ае
неизбежны ошибки измерения диаметров. Поэтому любая ошибка диаметра
изображения B сместит то?ку от прямой по оси ординат, а ошибка диаметра
изображений А - по Х. Прямая уже не будет проходить ?ерез то?ки. Реальная
ситуация еще более сложная: изображения звезд не стоят на месте, они
колеблются около своего "истинного" положения из-за флуктуаций плотности в
атмосфере и движения воздушных масс.
Глядя на наблюдательные данные, можно отметить факт,?то ?ем больше
изображение звезды на одном телескопе, тем, по-видимому, оно больше и на
другом. Такая ситуация, когда одно явление повторяет другое (или, наоборот,
наблюдения обратно зависимы) называют корреляцией. Таким образом, если две
кривые коррелируют между собой, то на глаз можно отметить совпадение по
времени отдельных локальных максимумов или минимумов. Мы, таким образом,
полу?им ка?ественное представление о корреляции. Коли?ественную
характеристику дает коэффициент корреляции, который может принимать любые
зна?ения от -1 до +1. Если между вели?инами Х и Y существует то?ная
детерминированная, линейная зависимость, то коэффициент корреляции равен 1
или -1, а при отсутствии корреляции (Х и Y независимы) - нулю.
По промежуто?ному зна?ению коэффициента корреляции можно судить о
степени связи вели?ин между собой. Пусть [pic] - n пар то?ек. Определим
среднее положение этого "облака" то?ек
[pic], [pic].
Возьмем эту то?ку в ка?естве на?ала координат новой системы
[pic], [pic].
Мы полу?им то?ки на плоскости, рассеянные около на?ала координат [pic].
Если при [pic] наблюдается, как правило, [pic], а при [pic] - [pic], то
говорят, ?то корреляция положительная. В противном слу?ае - отрицательная.
Возьмем сумму произведений [pic]. При положительной корреляции по?ти
все ?лены этой суммы положительны, практи?ески никакой компенсации не
происходит. Однако, вели?ина этой суммы зависит как от ?исла ?ленов, так и
от масштабов, в которых измеряются вели?ины x и y, а не только от
корреляции. Чтобы исклю?ить влияние ?исла ?ленов суммы и масштабов, в
ка?естве эмпири?еского коэффициента корреляции берут
[pic] ,
где [pic], [pic],
[pic], [pic],
[pic].
Если n - невелико, то [pic] может быть отли?ным от нуля даже и в том
слу?ае, когда [pic] и [pic] не коррелируют. Просто слу?айным образом то?ки
расположили на плоскости так, ?то [pic] оказалось отли?ным от нуля. Поэтому
помимо вы?исления эмпири?еского коэффициента корреляции необходимо
определить и его среднюю квадрати?ескую погрешность. Приведем готовую
формулу без вывода (см. Б.М.Щиголев "Математи?еская обработка наблюдений"):
[pic].
Хотя эта формула о?ень проста, но вывод ее нетривиален и лежит за пределами
нашего курса.
Рассмотрим ?астный слу?ай. Пусть Х и Y связаны между собой строгой
линейной зависимостью
Y=aХ+b .
Тогда все наблюдения ([pic],[pic]) под?иняются этой зависимости
[pic],
[pic],
т.е. [pic].
О?евидно, ?то
[pic], [pic], [pic].
Следовательно,
[pic] .
В реальных ситуациях [pic] лежит между этими двумя пределами [pic].

Рассмотрим ?исленный пример.

Даны измерения диаметров изображений звезд, полу?енные на
инструментах А и B.



| dA | dB | x | y |
| | | +0.45 | +0.70 |
|1.80'' |1.22'' | | |
| 1.65 | 0.88 | +0.30 | +0.36 |
| 1.60 | 0.35 | +0.25 | -0.17 |
| 1.60 | 0.52 | +0.25 | 0.00 |
| 1.80 | 0.44 | +0.45 | -0.08 |
| 1.20 | 0.70 | -0.15 | +0.18 |
| 0.60 | 0.44 | -0.75 | -0.08 |
| 1.30 | 0.26 | -0.05 | -0.26 |
| 0.90 | 0.35 | -0.45 | -0.17 |
| 1.50 | 0.44 | +0.15 | -0.08 |
| 1.20 | 0.35 | -0.15 | -0.17 |
| 1.00 | 0.35 | -0.35 | -0.17 |
| 1.35 | 0.52 | | |

На рисунке видно, ?то то?ки расположены в основном в 1-й и 3-й ?етвертях (8
из 12), ?то указывает на положительную корреляцию.

[pic]

Проделаем вы?исления:
[pic], [pic],
[pic], [pic], [pic],
[pic] , [pic].




7.3. Уравнения регрессии

Функции, устанавливающие статисти?ескую зависимость одной вели?ины от
другой называются функциями регрессии. Если разброс то?ек около
предполагаемой кривой зависимости одной вели?ины от другой невелик, то эту
зависимость можно определить с помощью МНК, подбирая подходящие параметры
этой функции. Если разброс то?ек велик, то, как правило, достато?но трудно
подобрать какую-либо иную функцию, кроме линейной. Такая эмпири?еская
кривая будет прямой регрессии.
Предположим, ?то мы имеем некоторое коли?ество пар то?ек
[pic],
[pic].
Подберем наиболее подходящую прямую, проходящую между этими то?ками, и, в
некотором смысле, наилу?шим способом аппроксимирующую зависимость Y от X:
Y=AX+C.
То?ки ([pic],[pic]), вообще говоря, не лежат на этой прямой. Поэтому
[pic],
где [pic] - расстояние по ординате то?ки ([pic],[pic]) до аппроксимирующей
прямой.
Введем в рассмотрение арифмети?еские средние
[pic], [pic].
Потребуем, ?тобы выполнялось условие
[pic].
На основании вышеизложенного полу?им
[pic],
[pic].
Снова будем пользоваться обозна?ениями центрированных переменных
[pic], [pic].
Теперь наши исходные уравнения принимают вид
[pic].
Для определения А примeним метод наименьших квадратов
[pic],
[pic],
где, как и раньше,
[pic],
[pic].

Вели?ина А является коэффициентом регрессии, а уравнение регрессии
принимает вид
[pic]
или [pic].
Отклонения то?ек ([pic],[pic]) от прямой регрессии создают некоторую
неопределенность (ошибку) в вы?ислении коэффициента регрессии А. Для
вы?исления ошибки А воспользуемся правилами МНК. Нормальным уравнением для
МНК-оценки коэффициента регрессии будет
[pic],
а остато?ные разности суть отклонения [pic] от коэффициента регрессии в
то?ках [pic]: [pic].
Вы?ислим среднюю квадрати?ескую ошибку "единицы веса"
[pic].
Нужно заметить, ?то хотя нормальное уравнение содержит одну
неизвестную вели?ину, в знаменателе приведенной формулы нужно брать n-2,
так как ?исло степеней свободы прямой регрессии две: параллельный перенос и
поворот. Степень свободы параллельного переноса мы использовали, выбрав за
на?ало отс?ета то?ку плоскости с координатами [pic].
Весом неизвестного А является коэффициент [pic] нормального
уравнения, поэтому
[pic].
Полу?енную формулу можно упростить, если ввести в рассмотрение эмпири?еский
коэффициент корреляции. Раскрывая скобки и суммируя, полу?им
[pic].
Подставим сюда [pic]:
[pic], где [pic].
Следовательно, [pic].
Обозна?им [pic].
Теперь [pic].
Переменные X и Y в данной зада?е равноправны. В отли?ие от класси?еских
зада?, в которых используется метод наименьших квадратов, [pic] не являются
то?ными зна?ениями аргумента. Несовпадение прямой регрессии с
наблюдательными данными в том ?исле вызвано и погрешностями в определении
[pic]. Поэтому зада?у аппроксимации зависимости этих двух переменных друг
от друга можно также решать, как определение линейной зависимости X от Y:
[pic].
Тогда, повторяя приведенные выше выкладки, полу?им
[pic],
[pic],

[pic], [pic].
Зависимоcть Y от X при условии минимизации отклонений [pic] от прямой
регрессии называется регрессией y на x. Наоборот, зависимость X от Y
называется регрессией x на y. Эти две прямые, вообще говоря, не совпадают.
Вернемся к ?исленному примеру, приведенному в 7.2. В данном слу?ае
прямая регресcии y на x имеет вид
[pic],
а прямая регрессии x на y
[pic].
Подставляя сюда зна?ения для [pic] и у?итывая ошибки определения
коэффициентов регрессии, полу?им
для y на x [pic],
для x на y [pic].
Формулы регрессии позволяют предсказать [pic] по заданному зна?ению [pic]
и наоборот. Однако, коэффициенты регрессии в данном слу?ае определены
ненадежно. Это связано с малым объемом использованных для вы?ислений
наблюдательных данных. Отсюда ненадежность и такого рода "предсказания".

7.4. Теорети?еские уравнения регрессии

Чтобы полу?ить "теорети?еские" уравнения регрессии, мы будем
предполагать, ?то объем экпериментальных данных неограни?енно велик. Тогда
средние арифмети?еские вели?ины переходят в средние зна?ения
[pic],
[pic],
где ?ерез [pic] и [pic] мы обозна?или средние зна?ения соответственно X и
Y.
Коэффициенты регрессии A и B можно представить так
[pic],
[pic].
где [pic] соответственно ковариация, дисперсия X и дисперсия Y.
Следовательно, "теоерти?еские" уравнения регрессии будут иметь вид
[pic],
[pic].
Эмпири?еский коэффициент корреляции, по определению, имеет вид
[pic].
Разделим и ?ислитель и знаменатель на ?исло пар то?ек ([pic],[pic]),
которое мы приняли равным N:
[pic].
Если [pic], то [pic].
Последнее выражение и есть теорети?еский коэффициент корреляции.
Следовательно,
[pic]
и уравнения регрессии можно записать так
[pic],
[pic].


7.4.1. Геометри?еская интерпретация теорети?еского уравнения регрессии

Допустим, ?то мы располагаем достато?но большим объемом данных [pic]
и [pic], имеющих корреляционную связь между собой. Нанесенные на плоскость
X,Y, они образуют некоторое "облако" то?ек с центром в то?ке ([pic]).
Будем снова пользоваться малыми буквами для обозна?ения "центрированных"
переменных x=X-[pic], y=Y-[pic]. Если линейная регрессия между ними
существует, то это "облако", как правило, имеет эллипти?ескую форму (см.
рис.)
[pic]
Уравнение эллипса, вписанного в прямоугольник со сторонами 2(x и 2[pic]
имеет вид
[pic].
С помощью параметра r этот эллипс можно деформировать. При r=0 мы полу?им
эллипс с большими полуосями (x и [pic], ориентированный по осям координат
[pic].
При r=1 эллипс вырождается в прямую линию - диагональ нашего прямоугольника

[pic].
При r=-1 имеем вторую диагональ прямоугольника
[pic].
Уравнение регрессии y на x есть не ?то иное, как зависимость среднего
зна?ения y от фиксированного x. Фиксируем какое-либо зна?ение x. Тогда
зна?ение y, соответствующее этому зна?ению аргумента, будет лежать на
середине хорды, секущей эллипсоидальную фигуру по вертикали. Заметим, ?то
геометри?еское место всех вертикальных хорд лежит на прямой, проходящей
?ерез на?ало координат, и пересекается с эллипсом в двух противоположных
то?ках, в которых [pic]. Дифференцируя равнение эллипса по y и приравнивая
нулю производную [pic], полу?им
[pic].
Таким образом, действительно, эта то?ка лежит на прямой регрессии.
То?но также легко показать, ?то прямая регрессии x на y соединяет
середины горизонтальных хорд и пересекает эллипс в то?ках, в которых [pic].
В этом слу?ае
[pic].
При r=0 (слу?ай некоррелированности) прямая регрессии совпадает с осями
координат, а при r=1 обе прямые "схлопываются" в одну и становятся одной
диагональю прямоугольника. При r=-1 обе прямые регрессии сливаются во
вторую диагональ. Таким образом, ?ем больше угол между прямыми регрессии,
тем меньше коэффициент корреляции.
Зада?а построения эмпири?еской зависимости одной переменной от
другой, если обе они - слу?айные ?исла, решается неоднозна?но: как мы
видели, мы имеем две функции регрессии. Однако, для практи?еских нужд ?асто
бывает необходимо иметь только одну эмпири?ескую зависимость. В таком
слу?ае кажется целесообразно пользоваться не прямыми регрессии, а осью
эллипса рассеяния то?ек. Чтобы определить ее положение, сна?ала нам нужно
ввести безразмерные переменные
[pic], [pic].
Уравнение эллипса принимает вид [pic].
Введем полярные координаты [pic],
[pic].
Теперь уравнение эллипса запишется так
[pic]
или [pic].
Большие полуоси пересекают кривую эллипса в то?ке наиболее удаленной от
центра, т.е. при таком зна?ении (, когда [pic]. О?евидно, ?то для [pic], а
при [pic]. Именно под углом 450 нужно провести прямую зависимости [pic] от
[pic] (или под углом -450 для отрицательной корреляции). Для [pic] имеем
[pic] ,
[pic].
Мы полу?или одно уравнение прямой вместо двух уравнений регрессии
[pic],
[pic].
Видим, ?то коэффициент [pic] есть среднее геометри?еское из коэффициентов
регрессии y на x и обратной вели?ины регрессии x на y.
Таким образом, можно сделать следующий вывод. Если в результате
математи?еской обработки мы полу?или два уравнения регрессии
[pic],
[pic],
где [pic] - коэффициенты регрессии, то для определения единой прямой
эмпири?еской зависимости y от x, мы должны решить второе уравнение
относительно Y
[pic]
и взять геометри?еское среднее из коэффициентов, стоящих перед [pic]:
[pic].
Тогда прямая
[pic]
будет совпадать с осью эллипса рассеяния. Понятно, ?то в слу?ае [pic],
соответствующая прямая будет иметь отрицательный наклон.