Документ взят из кэша поисковой машины. Адрес оригинального документа : http://hbar.phys.msu.ru/fat/statist.html
Дата изменения: Unknown
Дата индексирования: Mon Oct 1 20:01:39 2012
Кодировка: Windows-1251

Поисковые слова: п п п п п п п п п п п п п п п п п п п
Династии Фоменко

Разбор метода А.Т.Фоменко по сопоставлению династий

Николай Б.(c)

Я позволю себе пойти методом, примененным в критике А.Т.Фоменко М.Городецким - последовательно разберу работу Фоменко, посвященную методу сопоставления династий. Вначале только сделаю несколько общих замечаний.

Метод известен - говоря общими словами, составляются наборы чисел из длительностей правлений следующих друг за другом правителей, и эти последовательности сравниваются между собой. Если последовательности похожи - делается вывод, что с большой вероятностью эти династии являются разными описаниями одной. О методе сравнения и о понятии похожести речь пойдет ниже.

На первый взгляд метод кажется простым и понятным. Однако оказывается, что реальные династии составить очень сложно - государства дробились и объединялись, многие правители были соправителями, и т.д. Поэтому в методе сразу предложен перебор всех возможных комбинаций - когда учитываются все варианты. Опять же, выглядит логично, я только хочу предупредить читателей: дело в том, что хронисты записывали не время правления (хотя иногда упоминали, сколько кто правил), а когда кто вступил на престол, на какой престол, и когда его оставил. Скажу свое мнение, что, ежели, комбинируя правителей из чужих хроник и подменяя их своими, объявляя кого-то соправителем или узурпатором, они при этом каким-то чудом не изменяли длительности их правлений,- в этом есть что-то мистическое. Но - все возможно. Теперь к работе.

Я буду последовательно цитировать абзац за абзацем самого Фоменко. Прошу не пугаться обилием 'умных' слов. На всякий случай привожу пояснения встречающихся терминов (не строго энциклопедические, но достаточно точные). При желании их можно пропустить.

n-мерное Евклидово пространство (Rn )- пространство n измерений (т.е., множество точек, положение каждой из которых задается однозначно набором из n чисел), в котором задано понятие 'расстояния' между точками, обладающее тем свойством, что расстояние от a до b равно расстоянию от b до a.

Отображение - некое действие, превращающее элемент одного множества в элемент другого, и это действие задано для каждого элемента 1-го множества. (Если оно переводит данную точку только в одну точку другого множества, то отображение однозначное, пример - сдвиг тела в пространстве.)

Математическое ожидание, оно же среднее значение (вернее, среднее значение переходит в мат. ожидание, если число измерений стремится к бесконечности) - для некоторой измеряемой величины.

Если мы измеряем величину сложную, складывающуюся из других - например, состояние тела может описываться температурой, скоростью, массой, объемом и т.д. - то результат каждого измерения можно отобразить не на серии графиков, а на одном многомерном, где в качестве одного 'направления' (одномерного подмножества) будет какая-то из простых величин - температура, масса, и т.д. Тогда результат одного измерения будет точка в данном многомерном пространстве.

Стандартное, или среднеквадратичное отклонение - величина, описывающая разброс наблюденных значений около среднего. Вычисляется как корень из суммы квадратов всех отклонений (т.е, реальное значение минус среднее), деленной на число измерений.

Доверительный интервал - диапазон значений, в который наблюденная величина попадет с наперед заданной вероятностью(обычно задаются 67% - теми самыми 2/3, о которых упомянуто в статье)

Мера удаленности - каким-то образом вычисляемое для любых двух точек число, зависящее от их 'взаиморасположения' (математики бы убили меня за такое определение) - по способу его вычисления множества и различаются.

Ниже идет статья А.Т.Фоменко

МЕТОДИКА РАСПОЗНАВАНИЯ ДУБЛИКАТОВ И НЕКОТОРЫЕ ПРИЛОЖЕНИЯ

и ее примерный перевод, сделанный мною

.

'1. Пусть в евклидовом пространстве Rn задано конечное множество точек D и многозначное отображение V: Rn R Rn, переводящее D в большее (конечное) множество V(D). Например, V может моделировать многократный процесс измерений случайной величины x О D, результаты которого неоднозначны вследствие случайных ошибок; V(D) можно рассматривать как множество значений, полученных в результате измерений. При этом каждое реальное значение x величины x превращается в множество точек V(x), представляющих исходное значение х; каждую точку из V(х) можно рассматривать как приближенное значение для х. При изучении реальных процессов трудность заключается в правильном моделировании (с помощью V) реальных ошибок. Пусть теперь D неизвестно, и мы знаем только множество V(D) 'результатов измерений'. Как распознать среди точек V(D) те из них, которые отвечают одной точке из D? Точки, отвечающие одному и тому же реальному значению, назовем дубликатами. Пусть V таково, что V(x) З V(y)= Ж , если x? y.'

Перевод.

Ставится задача, с которой постоянно имеют дело экспериментаторы. По результатам наблюдения, которые всегда имеют некоторый разброс, им надо определить 'истинное значение' для измеряемой величины, и величину разброса - математическое ожидание и стандартное отклонение. Сложность возникает, когда мы пытаемся различить два разных реальных значения, если они близки друг другу. Если две точки лежат внутри доверительного интервала, то мы должны сделать вывод, что они соответствуют одному и тому же реальному значению величины. В последней строке делается утверждение, что множества значений наблюденных, соответствующих разным реальным значениям нашей величины, не пересекаются. Это - предположение, основанное, видимо, на предположении, что 'реальные' значения достаточно далеки, а точности измерения достаточно высоки, так что доверительные интервалы не пересекаются.

'2. Введем меру удаленности друг от друга точек из V(D), стремясь к тому, чтобы точки, принадлежащие одному и тому же V(x), были достаточно близки в смысле меры l , а точки из разных V(x) и V(y), напротив, были далеки. Пусть a, b О V(D). Фиксируем точку a и построим специальную окрестность Hr, точки a. Будем стремиться к тому, чтобы точка a была центром Hr, а точка b была на границе Hr или близко к границе. Простейший вариант такой: Hr' = {с О Rn : |ai- сi | ? |ai- bi |, 1 ? i ? n}, т.е. Hr' - параллелепипед с центром в a, имеющий точку b одной из своих вершин.'

Перевод.

Здесь следует достаточно загадочное утверждение. Рассматриваются два произвольных результата измерения (именно разультаты измерения называются множеством V(D)), про которые неизвестно - по крайней мере, не сказано, - соответствуют ли они одному реальному измерению или разному. Вокруг одной из этих точек строится параллелепипед так, чтобы вторая попала в его вершину. Видимо, исходя из предположения, что множества наблюденных значений, соответствующие разным реальным величинам, не пересекаются, считается, что ежели а и b относятся к одному значению, то 'расстояние' между ними будет маленьким, а ежели к разным - то большим.

Должен сразу обратить внимание, что если мы введем окрестность точки а изложенным выше способом, то в ней явно участвует другая точка - точка в. Так вот, окрестности для точки а - с точкой в на границе, и окрестность в с точкой а на границе - это две разных окрестности. Это замечание (не содержащее пока ничего страшного) будет понятно в дальнейшем.

'Для того чтобы эта конструкция стала пригодной для приложений, нужно дополнить ее, чтобы она моделировала механизм ошибок, влияющих на измерения. Ниже мы предъявим такую окрестность Hr (a, b), введем меру l удаленности точек a и b друг от друга, положив в основу определения схему, изложенную в [1], а именно: l (a,b) = vol Hr(a,b)/vol V(D), где vol V(D) - число точек в множестве V(D), а vol Hr(a,b) - число точек из V(D), попавших в Hr(a,b).'

Перевод.

Заменяя непрерывное распределение величины дискретным набором точек (поскольку всего наблюденных значений конечное число), мы можем приблизить данный параллелепипед некоторым конечным числом значений-точек. Мерой расстояния в данном пространстве будет доля этих точек в общем числе наблюденных точек. Если у нас измерения относятся к разным истинным значениям (то есть, точки далеки), то число измерений, попадающих в описанный интервал, будет велико, и наоборот.

Иными словами, близкими наблюденными значениями являются те, в параллелепипед , построенный на которых, попадает мало других значений, а далекими - если много.

Логичное, казалось бы, определение обладает следующей странной особенностью. Дело в том, что обычно результаты измерений 'кучкуются' возле 'реального' (среднего) значения, а ближе к краям интервала значений (к границе множества V(x)) их становится меньше. Рассмотрим два конкретных значения а и b из этого интервала, причем а ближе к 'реальному' значению, чем b. Тогда параллелепипед, построенный с центром в т. а, будет содержать больше наблюденных значений, чем точно такой же по размерам параллелепипед, построенный с центром в т. b. То есть, получается, что b может быть близко к а, при этом а - далеко от b. Множество некомутативно; причин, почему множество экспериментальных данных определяется как некомутативное, я не знаю.

Но даже на основании близости двух величин нельзя делать выводы о том, что они принадлежат к одному 'реальному' значению.

Для простоты рассмотрим одномерную величину, чтобы не увязать сложностях - ясно, что коли метод не верен для одной, то для 15 и подавно. Рассмотрим три 'реальных' величины, чьи значения - 90, 100, 110 не важно чего, и все значения с 99,9% укладываются в диапазон + 5. Допустим, у нас есть три результата измерения - 96, 104, 106. В параллелепипед (в данном случае он превращается в отрезок), построенный на первом и втором, будут укладываться почти все (если брать нормальное распределение) наблюдения первой реальной величины и почти все - второй, а в параллелепипеде на втором (или третьем) их практически не будет. Соответственно, первые два мы объявим далекими, а вторые два- близкими. При этом, вообще говоря, близкие относятся к разным величинам, а далекие - к одной.

'3. Опишем задачу, для решения которой вводится эта мера l . Пусть обнаружен исторический текст, описывающий неизвестную нам династию правителей с указанием длительности их правлений. Является ли эта династия новой, ранее не встречавшейся, или это - одна из известных династий, но описанная в непривычных терминах (видоизмененные имена и т.д.)? Рассмотрим n последовательных разных правителей (р. династию) с истинными длительностями правлений (p1 , p2, ... pn ); часто одна и та же р. династия описывается в разных первоисточниках с разных точек зрения. Но существуют 'инвариантные факты', описания которых мало зависят от автора текста, например, длительность правления: обычно нет особых причин, по которым автор значительно исказил бы это число. Тем не менее часто возникали трудности в вычислении длительностей правлений, приведшие к тому, что в разных документах для одного и того же правителя приводятся разные числа.

Итак, каждый автор, описывая р. династию, p = (p1 , p2, ... pn ), по-своему вычисляет длительности правлений и получает последовательность чисел a = (a1 , a2, ... an ), где ai - длительность правления правителя с номером i. Эту последовательность чисел (вектор Rn) назовем числовой династией (ч. династией). Другой автор, описывая эту же р. династию, получит, возможно, другой вектор Rn. Итак, одна и та же р. династия может изображаться разными ч. династиями.

Пусть D = {p = (p1 , p2, ... pn )} - достаточно большое множество р. династий длины n. Модель (гипотеза): если две ч. династии близки (в смысле меры l ), то они изображают одну и ту же р. династию, являются двумя вариантами ее описания (такие ч. династии назовем зависимыми); если же две ч. династии изображают две различные р. династии, то ч. династии значительно отличаются друг от друга (тогда назовем их независимыми). Перед проверкой модели дадим точное определение l , отождествив множество всех ч. династий, описывающих р. династии из множества D М Rn, с множеством V(D).'

Перевод.

Как конкретный пример, мы имеем n-мерное пространство, где в качестве одно-мерных подпространств выступают длительности отдельных правлений. Проводится сравнение двух династий, для которых находится упомянутая мера удаленности. Если доля династий, укладывающихся в описанный выше интервал, мала (понятие малости, видимо, будет ниже), то считается, что мы имеем разные варианты одной династии. Реальные династии названы р-династиями, их конкретные наблюдаемые записи в хрониках - числовыми, ч-династиями. Мы имеем дело со сложной величиной - династией - состоящей из набора простых - отдельных правлений. В 15-мерном пространстве ( то есть, династии состоят из 15 правлений) династии представлены точками. Каждая числовая династия представляет собой конкретное наблюдение своей 'реальной' династии.

'4. Укажем ошибки, чаще всего приводившие к разногласиям в определении длительностей правлений: а) перестановка (путаница) двух соседних правителей, б) замена двух правителей одним, длительность правления которого равна сумме длительностей их правлений, в) неточность в вычислении длительности правления: чем она больше, тем больше и ошибка в ее вычислении. Эти три основных типа ошибок можно описать при помощи подходящего отображения V: D R Rn. Пусть pО D ; вектор c назовем виртуальной вариацией вектора p, c=v(p), если каждая координата ci вектора с совпадает либо с одной из следующих трех координат вектора p: pi-1 , pi, pi+1, либо с числом pi + pi+1. Ясно, что каждый вектор c = v(p) можно рассматривать как ч. династию, получившуюся из р. династии в результате первых двух типов ошибок: а) и б).'

Перевод.

Заменяем дискретный набор точек непрерывным распределением (вернее, дискретным с меньшей дискретностью - этакой решеткой с шагом в 1 год).

Каждая точка может слабо 'дрожать' возле своего реального значения. Частное конкретное отклонение этой точки, то есть, слабо отклоненное ее положение, и называется вектором с=v(p). Рассматривать ее как ч-династию нельзя, - поскольку за ч-династию были приняты конкретные ее различные отображения, сделанные летописцами, а за с - виртуальное, созданное нами вспомогательное построение, - если не указаны вероятности возникновения этих отклонений. Эти вероятности могут быть получены либо обратным расчетом - подсчетом числа ошибок, встречающихся в хрониках, и отнесением к общему числу записей, - или из описания механизма их возникновения и определения этих вероятностей косвенным путем. То есть, пока не ясны вероятности возникновения той или иной вариации, считать их за результаты реальных наблюдений нельзя.

По всей видимости, делается еще одно - недопустимое, вообще говоря, - предположение. (что оно делается, следует из того, что отождествляется множество всех ч-династий с множеством наблюденных значений, то есть, множество разных числовых последовательностей, а не экспериментальных данных). Если разные хроники нам дают одинаковое описание одной и той же династией, то все это считается 1 наблюдением, за разные принимаются только те, у которых длительность хотя бы в 1 правлении отличается хотя бы на один год. На самом деле, поскольку мы берем значения с дискретностью в год, у нас даже совпадающие значения попадут не в одну точку, а образуют этакий кубик с длиной ребра в 2 года - и с центром в конкретном их значении. Соответственно, вблизи каждой 'реальной' династии существует некоторое количество значений (равное числу хроник), соответствующих реальным наблюдениям - их тоже необходимо учитывать.

'Положим V(D) - объединение всех векторов c=v(p), где pО D. Осталось смоделировать ошибку типа в). Пусть на положительной полуоси t ? 0 задана кусочно-гладкая функция a (t) ? 0 (у нас роль a (t) будет играть плотность вероятностей случайной величины h , см. ниже). Положим H(a (t)) = h(t), где H(s) - монотонно убывающая функция на полуоси s ? 0, lim[sR +0] = +? , например, H(s) = 1/s. Если h - дискретная случайная величина, то h(t) тем больше, чем с меньшей вероятностью h принимает значение t. Пусть t - длительность правления, a (t) - число правителей, правивших t лет. В [1], стр. 115, приведена вычисленная автором экспериментальная гистограмма частот. Если t - значение, принимаемое h с большой вероятностью, то амплитуда ошибок h уменьшается (небольшие длительности правлений лучше поддавались вычислению, чем редкие - большие длительности).'

Перевод.

В абзаце делается предположение, что редкие значения определяются с меньшей точностью (это заключение я основываю на утверждении, что Н(s) монотонно убывает, то есть, чем больше вероятность встретить это значение, тем меньше погрешность). Видимо, под погрешностью понимается величина обратная числу встречания данной длительности правления (поскольку реальная погрешность для каждого правления - это погрешность наблюдений, на основе которых данная гистограмма составлена, то есть, 1 год) или корень из этого числа.

Судя по всему, автор перепутал измерения одной величины и измерения разных величин одной природы. Утверждение, будто часто встречающееся значение величины измеряется точнее, нежели редко встречающееся, сродни утверждению, что поскольку средний рост встречается чаще, его мы замеряем с большей точностью, чем большой или маленький рост. Если бы все записи в хрониках о правлении с одной длительностью относились к одному правлению (реальному), это утверждение имело смысл, а так - это не более чем ниоткуда не следующий постулат.

Кроме того, как было сказано, в основном хронисты записывали не длительности правлений, а события - в каком году некто вступил на престол, в каком - оставил его. Если автору метода из 1862 вычесть 1802 сложнее, чем 1860 - то есть, он это делает с большей погрешностью - то мне более сказать нечего.

' Укажем функцию h(t) для плотности вероятностей случайной величины - длительности правления ([1], стр. 115). Разобьем отрезок (0, 100) целочисленной оси t на отрезки (10t, 10t + 9), 0 ? t ? 9. Тогда h(t) = 2 при t = 0,1; h(t) = 3 при t = 2; h(t) = 5 (t-1) при 3 ? t ? 9. Рассмотрим в Rn параллелепипед П(a, b)=П, ортогональные проекции p i = ai + (|ai - bi| + h(ai)) которого на координатные оси в Rn задаются отрезками со следующими концами:

м ai + (|ai - bi | + 2), 0 ? ai < 20,

p iai + (|ai - bi | + 3), 20 ? ai < 30,

о ai + (|ai - bi | + 5[ai/10] - 1 ), 30 ? ai < 100;

здесь [y] - целая часть числа y. Итак, если 0 ? ai < 20, то значения ai и bi рассматриваются с точностью до + 1 (т.е. такова ошибка, допускаемая при их измерении), если 20 ? ai < 30, то допустимая ошибка равна + 3/2 и т.д.'

Перевод

Здесь, видимо, идут эмпирические данные, построенные на основе упомянутой гистограммы. То есть, утверждается, что для длительности правления от 0 до 20 лет погрешность, допускаемая авторами хроник (доверительный интервал вблизи истинного значения) для каждого правления не превышает года, для длительности от 20 до 30 лет возрастает до полутора лет, а выше равномерно (вернее, ступенчато, каждые 10 лет увеличиваясь на 5 лет) растет.

Сие, как я уже говорил, в высшей степени мистическое утверждение. Странно, что занести в хронику сообщение о смерти правителя через 30 лет после его вступления на престол сложнее, чем через 5. Но, как я тоже говорил, скорее всего, здесь перепутано - или намеренно подменено - два понятия: измерение разных величин одной природы (разных правлений) и серия измерений одной величины (одного правления). Ошибка может определяться только для второго случая. Распределение этой ошибки может строиться только по распределению ошибок для каждого 'реального' значения, но в этом случае никакой зависимости от длительности правления у ошибки не будет (вывод Фоменко кажется логичным людям, привыкшим к относительной погрешности. Но если мы вспомним, что результатами измерения являются не длительности, а даты начала и конца, то ясно, что относительная погрешность никак от длительности не зависит).

Теперь мы рассматриваем параллелепипед, ортогональные стороны которого образуются расстояниями между династиями (между каждыми соответствующими правлениями) с учетом соответствующих погрешностей для данного значения правления. То есть, если рисовать этот паралле