Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~Loukian/report12'term3.doc
Дата изменения: Thu Dec 22 15:40:57 2005
Дата индексирования: Tue Oct 2 04:14:54 2012
Кодировка: koi8-r

Эволюционные расстояния между последовательностями
Цель данного занятия - оценить границы применимости двух известных нам
способов оценки расстояния между нуклеотидными последовательностями:
. оценка доли несовпадающих нуклеотидов;
. метод Джукса-Кантора.
Для этого я использовал ту эволюционную модель, которая была предложена мне
в виде скобочной формулы дерева. С помощью программы msbar ранее были
получены мутанты (под мутацией здесь и далее понимается точечная замена
нуклеотида) исходной последовательности - т.е. гена белка FMT_ECOLI. Таким
образом, вся картина эволюции этой последовательности - число мутаций перед
каждым узлом и листом - у нас имеется.
Теперь предположим, что этой информации у нас нет, и оценим расстояние
между последовательностями с помощью двух упомянутых выше методов. При этом
нужно вычислять расстояния между всеми возможными парами
последовательностей, так как мы не можем знать, какая из них является
предковой.
Уточню соответствия названий последовательностей, которые будут встречаться
в таблицах далее, указанным на дереве элементам. Листья называются , а все
узлы называются Seq1, Seq2, Seq3, Seq4, а корень - fmt.
. Сравнение разных способов оценки эволюционных расстояний между
гомологичными нуклеотидными последовательностями:

Истинные расстояния в моей модели (число точечных замен на 100
нуклеотидов):

|fmt |Seq1 |Seq2 |Seq3 |Seq4 |A |B |C |D |E |F | |Fmt |0 |50 |55 |70 |60
|90 |90 |100 |100 |100 |100 | |Seq1 | |0 |5 |20 |110 |40 |40 |50 |50 |150
|150 | |Seq2 | | |0 |25 |115 |35 |35 |55 |55 |155 |155 | |Seq3 | | |
|0 |130 |60 |60 |30 |30 |170 |170 | |Seq4 | | | | |0 |150 |150 |160
|160 |40 |40 | |A | | | | | |0 |70 |90 |90 |190 |190 | |B | | | |
| | |0 |90 |90 |190 |190 | |C | | | | | | | |0 |60 |200 |200 | |D
| | | | | | | | |0 |200 |200 | |E | | | | | | | | | |0 |80
| |


Uncorrected distances (среднее число несовпадающих нуклеотидов на 100
позиций):

|Seq1 |Seq2 |A |B |Seq3 |C |D |fmt |Seq4 |E |F | |Seq1 | 0.00
| 4.22 | 25.74 | 25.11 | 13.08 | 27.85 | 29.75 | 29.01 | 50.74 | 60.34 |
59.81 | |Seq2 | | 0.00 | 22.15 | 21.62 | 16.56 | 30.59 | 32.17 | 31.86 |
52.43 | 61.39 | 60.86 | |A | | | 0.00 | 35.97 | 33.86 | 43.35 | 44.62 |
45.57 | 59.28 | 64.66 | 65.40 | |B | | | | 0.00 | 33.33 | 41.77 |
43.04 | 45.99 | 60.97 | 67.09 | 66.03 | |Seq3 | | | | | 0.00 | 18.25 |
20.25 | 36.81 | 53.59 | 61.81 | 61.60 | |C | | | | | | 0.00 | 32.70
| 45.99 | 58.44 | 65.51 | 64.77 | |D | | | | | | | 0.00 | 45.68 |
58.86 | 64.98 | 66.03 | |fmt | | | | | | | | 0.00 | 34.18 | 48.63
| 48.84 | |Seq4 | | | | | | | | | 0.00 | 24.37 | 24.58 | |E |
| | | | | | | | | 0.00 | 39.03 | |
Попарные эволюционные расстояния, вычисленные по методу Джукса - Кантора:

|Seq1 |Seq2 |A |B |Seq3 |C |D |fmt |Seq4 |E |F | |Seq1 | 0.00
| 4.34 | 31.53 | 30.57 | 14.37 | 34.81 | 37.89 | 36.68 | 84.64 |122.41
|119.76 | |Seq2 | | 0.00 | 26.25 | 25.51 | 18.71 | 39.30 | 42.02 | 41.47
| 90.05 |128.01 |125.16 | |A | | | 0.00 | 48.99 | 45.04 | 64.72 | 67.78
| 70.16 |117.20 |148.63 |154.19 | |B | | | | 0.00 | 44.08 | 61.06 |
63.97 | 71.24 |125.72 |168.69 |159.30 | |Seq3 | | | | | 0.00 | 20.91 |
23.61 | 50.63 | 94.01 |130.38 |129.19 | |C | | | | | | 0.00 | 42.95
| 71.24 |113.28 |155.01 |149.40 | |D | | | | | | | 0.00 | 70.43
|115.22 |150.96 |159.30 | |fmt | | | | | | | | 0.00 | 45.62 |
78.39 | 78.99 | |Seq4 | | | | | | | | | 0.00 | 29.47 | 29.78 | |E
| | | | | | | | | | 0.00 | 55.11 | |
> Вторая и третья матрицы были вычислены инструментом
distmat пакета EMBOSS

по множественному выравниванию, построенному программой
emma c параметром

-gapopen 100 (для того что бы исключить появление гэпов -
мутациями в последовательностях были только замены);
> A, B, C, D, E и F - соответствующие листья модельного
дерева;
> R - корень модельного дерева (узел 1);
> N2, N3, N4 и N5 - соответствующие узлы модельного дерева.

По данным вышеприведенных матриц был построен график сравнения двух
методов оценки эволюционных расстояний.


График зависимости оценки эволюционных расстояний, полученной двумя
разными методами, от "истинных" расстояний между последовательностей

(расстояния даны на длину последовательности в 100 нуклеотидов):

[pic]


> График с розовыми маркерами - зависимость оценки по
методу неоткорректированных расстояний (uncorrected
distances) от истинного расстояния;
> График с жёлтыми маркерами - зависимость оценки методом
Джукса-Кантора от истинных расстояний (Jukes-Cantor
distances);
> График с тёмно-синими маркерами - график "идеальной"
оценки (линейной зависимости

[Оцененные расстояния]*3/4=[Истинные растояния]).

"Идеальная" оценка представляет из себя вышеприведенную зависимость, потому
что программа msbar, с помощью которой были получены мутированные
последовательности, считает прямые (происходящие в процессе одного
элементарного эволюционного события) замены нуклеотида сам на себя (A=>A,
T=>T, etc.) мутациями, что, конечно, не является верным. Таким образом,
величина 3/4, на которую умножаются оцененные расстояния, это вероятность
того, что из четырех возможных вариантов (X=>A, X=>T, X=>G, X=>C), случайно
выбранный окажется настоящей мутацией.

Как можно заметить из графика, оценка методом Джукса-Кантора является более
верной, чем методом неоткорректированных расстояний - последняя близка к
истинной только при очень небольших числах замен - не более половины от
длины поледовательности. Данные наблюдения обьясняются тем фактом, что
метод Джукса-Кантора, в отличие от метода неоткорректированных расстояний
учитывает возможность обратных замен.
График по Джуксу-Кантору в начале полностью соответствует "идеальной"
зависимости, однако при увеличении числа мутаций его аппроксимация близка
к графику y=3/4x вместо желаемого y=x. Дело в том, что программа msbar
производит мутации нуклеотида на любой из четырёх возможных нуклеотидов,
включая тот нуклеотид, который стоял в последовательности исходно. Таким
образом получается, что на самом деле в полученных нами последовательностях
мутаций в среднем на 25 % меньше, чем требовалось.

Это было замечено и объяснено студентом нашего курса Борей Бурковым.
(http://kodomo.cmm.msu.ru/~TheWatcher/Term3/Practice12.doc)