Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://kodomo.cmm.msu.ru/~igogo/Term4/tree_1.html
Дата изменения: Wed Mar 21 10:12:25 2007 Дата индексирования: Tue Oct 2 07:28:56 2012 Кодировка: Windows-1251 |
Модель судьбы гена белка ASPG2_ECOLI описана в виде такой скобочной формулы:
((А:110,(В:35,С:35):75):10,(D:90,(Е:57,F:57):33):30);Расстояния даны как число мутаций на 100 нуклеотидных остатков. Вот полученное изображение:
A B C D E F . . . * * * * . . * * * * * * * . .Примечание: поскольку ветвь, отделяющая один (любой!) лист от всех остальных, есть в любом дереве, описание таких ветвей не несет полезной информации. Правильнее опускать его, т.е. верное описание топологии приведенного дерева состоит всего из трех строк, отвечающих трем внутренним ветвям.
Nm - number of gene's mutations - число мутаций в гене;
D - distance (from the scheme) - расстояния между последовательностями (т.е. число мутаций на 100 нуклеотидов), см. из схемы;
Lg - gene's length - длина гена (число нуклеотидов);
[ ] - округление числа до ближайшего целого.
Lg | D | Nm | |
Общий предок листьев А, В, С | 1047 | 10 | 105 |
Общий предок листьев D, E, F | 1047 | 30 | 314 |
Предок В, С | 1047 | 75 | 785 |
Предок E, F | 1047 | 33 | 346 |
Предок А | 1047 | 110 | 1152 |
Предок В | 1047 | 35 | 366 |
Предок С | 1047 | 35 | 366 |
Предок D | 1047 | 90 | 942 |
Предок E | 1047 | 57 | 597 |
Предок F | 1047 | 57 | 597 |
msbar infile outfile -point 4 -count n -autoгде n - число мутаций.
Итак, последовательности, соответствующие листьям дерева, помещены в один файл "выравнивания" в fasta-формате.
Чтобы реконструировать дерево алгоритмом максимального правдоподобия, используется программа fdnaml:
fdnaml all_mut.fasta -ttratio 1 -autoВ файле с расширением ".fdnaml" содержится "текстово-графическое" изображение дерева, вот оно (неукорененное!):
+------B +-------------------1 | +----------C | | +--------------F | +------4 2--------------3 +-------------E | | | +---------------------D | +------------------------A
Чтобы реконструировать дерево алгоритмами UPGMA или Neighbor-joining, сначала надо посчитать попарные расстояния между последовательностями программой fdnadist:
fdnadist all_mut.fasta -ttratio 1 -autoрезультат - в файле с расширением .fdnadist. После этого этот файл подается на вход программе fneighbor:
fneighbor all_mut.fdnadist -auto- для реконструкции алгоритмом Neighbor-joining (получены 2 файла - один с расширением .treefile содержит скобочную формулу, другой - "текстово-графическое" изображение дерева); вот какое дерево получилось (неукорененное!):
+-----B +--------------------1 ! +-----------C ! ! +---------------------D 2------------------3 ! ! +-------------E ! +------4 ! +---------------F ! +-----------------------AДалее:
fneighbor all_mut.fdnadist -treetype u -auto- для реконструкции алгоритмом UPGMA (как и алгоритм Neighbor-joining работает с матрицей расстояний; получены файлы UP.treefile и UP.fneighbor); вот оно (укорененное!):
+--------------------------A +------4 ! ! +--------B ! +------------------1 --5 +--------C ! ! +---------------------D +------------3 ! +-------------E +-------2 +-------------F
A B C D E F | Правильное дерево | Алгоритм максимального правдоподобия | Алгоритм Neighbor-joining | Алгоритм UPGMA |
. . . * * * | + | + | + | + |
* . . * * * | + | + | + | + |
* * * * . . | + | + | + | + |
Цель работы: проведение бутстреп-анализа выравнивания мутированных последовательностей, соответствующих листьям заданного дерева, и создание изображения дерева программой fdrawtree.
Этапы работы:
fseqboot all_mut.fasta -autoРезультат - см. в файле all_mut.fseqboot.
Полученные 100 выравниваний подаются на вход программе fdnaml. В выходном файле (all_mut_100.treefile) содержится 100 скобочных формул, соответствующих реконструкциям, сделанным по каждому из выравниваний.
Следующий этап - запуск программы fconsense. В выходной файл помещаются результаты бутстреп-анализа.
Полученное консенсусное дерево (неукорененное!; с указанием (для внутренних ветвей) количества деревьев, реконструированных по бутстреп-репликам):
+------F +-87.0-| +100.0-| +------E | | +-99.0-| +-------------D | | +------| +--------------------A | | | +---------------------------c | +----------------------------------B
Сравнение опять в форме таблицы:
A B C D E F | Правильное дерево | Консенсусное бутстреп-дерево |
. . . * * * | + | + |
* . . * * * | + | + |
* * * * . . | + | + |
Бутстреп-значения внутренних ветвей (! - в Bootstrap анализе) = количество деревьев, содержащих данную ветвь:
Species in order: 1. for B 2. for C 3. for D 4. for F 5. for E 6. for A |
Set (species in order) How many times out of 100.00 ..***. 100.00 ..**** 99.00 ...**. 87.00 |
Кроме того, в выходном файле содержится информация о ветвях, не включенных в состав консенсусного дерева (обладающих низкими бутстреп-значениями):
Set (species in order) How many times out of 100.00 ..*.*. 9.00 ..**.. 4.00 .*...* 1.00 |
Исходная скобочная формула помещена в отдельный файл, который затем подается на вход программе. Результат fdrawtree имеет формат postscript, но рекомендуется переименовать выходной файл, придав ему расширение .ps. Тогда вид команды:
fdrawtree fdrawtree.txt fdrawtree.psРезультат (неукорененное дерево; длины ветвей пропорциональны эволюционным расстояниям): Изображение дерева, созданного программой fdrawtree.