Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~Lan787/term3_files/Practice12.doc
Дата изменения: Wed Dec 7 16:07:11 2005
Дата индексирования: Tue Oct 2 14:14:00 2012
Кодировка: koi8-r

Сравнение разных способов оценки эволюционных расстояний между
гомологичными нуклеотидными последовательностями
Цель данной работы состояла в том, чтобы определить, как хорошо
справляются со своей задачей различные методы оценки эволюционных
расстояний. Для этого результат их работы мы сравниваем с известными нам
истинными расстояниями между последовательностями (листья) и между их
предками (узлы на филогенетическом дереве). Данные расстояния найдены из
истинного филогенетического дерева (объекта которого биоинформатик не
имеет, но очень хочет найти, используя, тестируемые в данной работе, методы
оценки эволюционных расстояний), описывающего мою эволюционную модель.
[pic]

Обсуждаемые истинные расстояния (измерены в количестве мутаций на 100
нуклеотидов) указаны в таблице - матрице попарных расстояний.
node1 |node2 |node3 |node4 |root |leafA |leafB |leafC |leafD |leafE |leafF
| | | |0 |15 |10 |40 |70 |20 |20 |40 |40 |110 |170 | |node1 | | |0 |5 |35
|65 |35 |35 |25 |25 |105 |165 | |node2 | | | |0 |30 |60 |30 |30 |30 |30
|100 |160 | |node3 | | | | |0 |30 |60 |60 |60 |60 |70 |130 | |node4 | | | |
| |0 |90 |90 |90 |90 |100 |100 | |root | | | | | | |0 |40 |60 |60 |130 |190
| |leafA | | | | | | | |0 |60 |60 |130 |190 | |leafB | | | | | | | | |0 |50
|130 |190 | |leafC | | | | | | | | | |0 |130 |190 | |leafD | | | | | | | |
| | |0 |200 | |leafE | | | | | | | | | | | |0 | |leafF | |
С помощью программы distmat пакета EMBOSS была составлена матрица попарных
различий:
node1 |node2 |node3 |node4 |root |leafA |leafB |leafC |leafD |leafE |leafF
| | | |0 |9,39 |6,22 |23,36 |38,73 |13,73 |13,38 |23,94 |23,71 |49,18
|61,38 | |node1 | | |0 |3,4 |21,48 |37,32 |21,48 |21,83 |16,55 |16,2 |48,36
|61,03 | |node2 | | | |0 |19,13 |35,21 |18,9 |19,01 |19,48 |19,37 |48,12
|59,98 | |node3 | | | | |0 |20,42 |32,39 |32,75 |33,22 |31,92 |39,32 |54,11
| |node4 | | | | | |0 |45,77 |46,13 |46,13 |44,95 |48,59 |46,95 | |root | |
| | | | |0 |24,41 |33,45 |33,92 |55,52 |64,2 | |leafA | | | | | | | |0
|34,04 |32,86 |52,93 |64,2 | |leafB | | | | | | | | |0 |29,93 |54,34 |63,85
| |leafC | | | | | | | | | |0 |52,23 |63,97 | |leafD | | | | | | | | | | |0
|65,96 | |leafE | | | | | | | | | | | |0 | |leafF | |Эта матрица отражает
расстояния между последовательностями (чем больше число тем дальше
последовательности). Значения посчитаны по формуле: 1- Identity двух
последовательностей (назовем это значение U).


С помощью той же программы была составлена матрица попарных расстояний по
методу Джукса - Кантора:
node1 |node2 |node3 |node4 |root |leafA |leafB |leafC |leafD |leafE |leafF
| | | |0 |10,03 |6,49 |27,98 |54,49 |15,17 |14,74 |28,84 |28,5 |79,97
|127,97 | |node1 | | |0 |3,48 |25,31 |51,63 |25,31 |25,8 |18,7 |18,25
|77,62 |126,06 | |node2 | | | |0 |22,09 |47,54 |21,77 |21,93 |22,56 |22,4
|76,96 |120,59 | |node3 | | | | |0 |23,84 |42,41 |43,04 |43,87 |41,59
|55,72 |95,86 | |node4 | | | | | |0 |70,68 |71,59 |71,59 |68,6 |78,29
|73,76 | |root | | | | | | |0 |29,53 |44,3 |45,15 |101,09 |145,36 | |leafA
| | | | | | | |0 |45,36 |43,24 |91,76 |145,36 | |leafB | | | | | | | | |0
|38,19 |96,71 |142,95 | |leafC | | | | | | | | | |0 |89,4 |143,75 | |leafD
| | | | | | | | | | |0 |158,71 | |leafE | | | | | | | | | | | |0 | |leafF |
|Значения в ячейках высчитаны по формуле: -ѕln(1-U/ѕ)


Теперь можно сравнить эти два метода построив диаграмму:
[pic]
Желтой прямой изображен идеальный, на мой взгляд, метод, который точно
отображает расстояния.
Розовой кривой показана зависимость значений, полученных из матрицы
попарных различий, от истинных расстояний.
Синей линией показана зависимость значений, полученных методом Джукса -
Кантора.
Заметно, что линия достаточно прямая, а это и требуется от метода:
отображать линейную зависимость, что позволит избежать ошибок в построении
деревьев. Следует, однако, отметить, что синяя линия направлена не вдоль
желтой прямой (что, как мне кажется, будет более удобным), а как заметил
Бурков Борис вдоль голубой прямой y=ѕx. Также ведет себя в начале и розовая
прямая: идет вдоль голубой прямой. Оказалась, что неточность в самой
программе-мутаторе msbar. Взяв последовательность из одной аминокислоты
«а», я произвел в ней одну мутацию, и оказалось, что программа может
мутировать «а» в «А», то есть в саму себя, что не может считаться мутацией.
В результате ј промутированных нуклеотидов заменились на самих себя.
Поэтому истинные расстояния на самом деле не истинные, а составляют 4/3 от
действительно истинных. Значит для получения правильной диаграммы ось X
нужно «ужать» на ј.
[pic]
На этой диаграмме мне все кажется верным.
Розовая линия ведет себя как прямая приблизительно до отметки 30 на оси
Х. Значит в пределах Identity = 70% между последовательностями расстояния
можно измерять по uncorrected матрице.
В моем случае метод Джукса - Кантора показал превосходный результат,
сохранив линейную зависимость, даже когда число мутаций превысило длину
последовательности. Определить порог до которого метод справляется со своей
задачей в данном случае невозможно!
-----------------------
5

4

2

3

1

10

20

20

5

25

25

30

70

30

100

A

C

D

E

F

B