Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~igogo/Term4/tree_1.html
Дата изменения: Wed Mar 21 10:12:25 2007
Дата индексирования: Tue Oct 2 07:28:56 2012
Кодировка: Windows-1251
Trees_1

Моделирование эволюции гена.


На главную страницу четвертого семестра
  1. Модель судьбы гена белка ASPG2_ECOLI описана в виде такой скобочной формулы:

    ((А:110,(В:35,С:35):75):10,(D:90,(Е:57,F:57):33):30);
    
    Расстояния даны как число мутаций на 100 нуклеотидных остатков. Вот полученное изображение:

  2. Описание ветвей дерева как разбиения множества листьев (если считать дерево бескорневым) - это таблица, столбцы которой соответствуют листьям дерева, а строки - ветвям дерева.
    A B C D E F
    . . . * * *
    * . . * * *
    * * * * . .
    Примечание: поскольку ветвь, отделяющая один (любой!) лист от всех остальных, есть в любом дереве, описание таких ветвей не несет полезной информации. Правильнее опускать его, т.е. верное описание топологии приведенного дерева состоит всего из трех строк, отвечающих трем внутренним ветвям.

  3. Получены искуственные мутантные последовательности, соответствующие листьям и узлам дерева (считая, что в корне находится последовательность гена исследуемого белка).

  4. На основе последовательностей, соответствующих листьям, реконструировано дерево алгоритмами UPGMA, Neighbor-joining и максимального правдоподобия.

    Итак, последовательности, соответствующие листьям дерева, помещены в один файл "выравнивания" в fasta-формате.
    Чтобы реконструировать дерево алгоритмом максимального правдоподобия, используется программа fdnaml:

    fdnaml all_mut.fasta -ttratio 1 -auto
    
    
    В файле с расширением ".fdnaml" содержится "текстово-графическое" изображение дерева, вот оно (неукорененное!):
                          +------B     
      +-------------------1  
      |                   +----------C     
      |  
      |                     +--------------F     
      |              +------4  
      2--------------3      +-------------E     
      |              |  
      |              +---------------------D     
      |  
      +------------------------A     
    
    

    Чтобы реконструировать дерево алгоритмами UPGMA или Neighbor-joining, сначала надо посчитать попарные расстояния между последовательностями программой fdnadist:

    fdnadist all_mut.fasta -ttratio 1 -auto
    
    результат - в файле с расширением .fdnadist. После этого этот файл подается на вход программе fneighbor:
    fneighbor all_mut.fdnadist -auto
    - для реконструкции алгоритмом Neighbor-joining (получены 2 файла - один с расширением .treefile содержит скобочную формулу, другой - "текстово-графическое" изображение дерева); вот какое дерево получилось (неукорененное!):
    
                           +-----B     
      +--------------------1 
      !                    +-----------C     
      ! 
      !                  +---------------------D     
      2------------------3 
      !                  !      +-------------E     
      !                  +------4 
      !                         +---------------F     
      ! 
      +-----------------------A     
    
    Далее:
    fneighbor all_mut.fdnadist -treetype u -auto
    - для реконструкции алгоритмом UPGMA (как и алгоритм Neighbor-joining работает с матрицей расстояний; получены файлы UP.treefile и UP.fneighbor); вот оно (укорененное!):
    
             +--------------------------A     
      +------4 
      !      !                  +--------B     
      !      +------------------1 
    --5                         +--------C     
      ! 
      !            +---------------------D     
      +------------3 
                   !       +-------------E     
                   +-------2 
                           +-------------F     
    
    
  5. Сравнение реконструированных деревьев между собой и с правильным деревом.
    Чтобы сравнить деревья, надо сравнить их ветви (понимаемые как разбиения множества листьев). Для этого составляется табличка, в левой части которой приведены (в виде точек и звездочек) все ветви (кроме, естественно, отделяющей один лист от всех остальных), встреченные во всех ваших деревьях (исходном и трех реконструкциях), а в правой - четыре столбца, соостветствующие четырем деревьям. Итак:
    A B C D E F Правильное дерево Алгоритм максимального правдоподобия Алгоритм Neighbor-joining Алгоритм UPGMA
    .   .  .  *  *  * + + + +
    *  .  .  *  *  * + + + +
    *  *  *  *  .  . + + + +

    Все три реконструированных дерева содержат те же ветви, что и правильное дерево. Правильное и реконструированное по UPGMA деревья являются укорененными и топологически одинаковые (и корни совпадают!); деревья, реконструированные по алгоритмам Neighbor-joining и максимального правдоподобия являются неукоренненными (визуально отличны, например, от правильного дерева, т.к. корень по такой схеме может располагаться фактически в любом месте; понимается как множество возможных укоренений ).
    "Набор вевей" одинаковый (одинаковая топология), но: исходя из изображения (в подтверждение этому - из скобочной формулы), видно, что в случае полученных неукорененных деревьев расстояния от общего предка у В и С (E и F) неравны - такова особенность алгоритма. В случае наших укорененных деревьев эти расстояния (B-C, E-F) одинаковые.

Bootstrap и drawtree

Цель работы: проведение бутстреп-анализа выравнивания мутированных последовательностей, соответствующих листьям заданного дерева, и создание изображения дерева программой fdrawtree.
Этапы работы:

  1. Программой fseqboot создается 100 бутстреп-реплик выравнивания (множественное выравнивание в формате PHYLIP ):
    fseqboot all_mut.fasta -auto
    Результат - см. в файле all_mut.fseqboot.

    Полученные 100 выравниваний подаются на вход программе fdnaml. В выходном файле (all_mut_100.treefile) содержится 100 скобочных формул, соответствующих реконструкциям, сделанным по каждому из выравниваний.

    Следующий этап - запуск программы fconsense. В выходной файл помещаются результаты бутстреп-анализа.
    Полученное консенсусное дерево (неукорененное!; с указанием (для внутренних ветвей) количества деревьев, реконструированных по бутстреп-репликам):

                                  +------F
                           +-87.0-|
                    +100.0-|      +------E
                    |      |
             +-99.0-|      +-------------D
             |      |
      +------|      +--------------------A
      |      |
      |      +---------------------------c
      |
      +----------------------------------B

    Сравнение опять в форме таблицы:
    A B C D E F Правильное дерево Консенсусное бутстреп-дерево
    .   .  .  *  *  * + +
    *  .  .  *  *  * + +
    *  *  *  *  .  . + +
    Топология двух деревьев одинакова (соответственно, укорененное - реальное; неукорененное - консенсусное дерево; но набор ветвей одинаковый (хотя вот их длина... "Диспропорции" очевидны.).

    Бутстреп-значения внутренних ветвей (! - в Bootstrap анализе) = количество деревьев, содержащих данную ветвь:
    Species in order: 
    
      1. for B
      2. for C
      3. for D
      4. for F
      5. for E
      6. for A
    
    Set (species in order)     How many times out of  100.00
    
    ..***.                     100.00
    ..****                     99.00
    ...**.                     87.00
    
    Бутстреп-значения ветвей высокие ( → статистически надежные данные) → в консенсусное дерево включены эти ветви.

    Кроме того, в выходном файле содержится информация о ветвях, не включенных в состав консенсусного дерева (обладающих низкими бутстреп-значениями):
    Set (species in order)     How many times out of  100.00
    
    ..*.*.                      9.00
    ..**..                      4.00
    .*...*                      1.00
    
    Таких ветвей немного, следовательно топология реконструированных деревьев весьма "правдоподобна".

  2. Создание изображения дерева программой fdrawtree.

    Исходная скобочная формула помещена в отдельный файл, который затем подается на вход программе. Результат fdrawtree имеет формат postscript, но рекомендуется переименовать выходной файл, придав ему расширение .ps. Тогда вид команды:

    fdrawtree fdrawtree.txt fdrawtree.ps 
    
    Результат (неукорененное дерево; длины ветвей пропорциональны эволюционным расстояниям):

    Изображение дерева, созданного программой fdrawtree.

їNADEZDA TUKHTUBAEVA,2007