Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~contradiction/term4/model.htm
Дата изменения: Sat Mar 24 13:25:00 2007
Дата индексирования: Tue Oct 2 12:15:03 2012
Кодировка: Windows-1251
Эволюционная модель

ЧЕТВЕРТЫЙ СЕМЕСТР

на главную страницу


:НАВИГАЦИОННОЕ МЕНЮ





МОДЕЛИРОВАНИЕ ЭВОЛЮЦИИ ГЕНА


1. Создание изображения дерева, описанного заданной мне формулой.

Модель судьбы моего гена описана в виде скобочной формулы здесь. Расстояния даны как число мутаций на 100 нуклеотидных остатков.

Скобочная формула представленна в виде: ((((А:50,В:50):30,С:70):5,D:80):35,(Е:45,F:45):65);

 
* при выполнении задания использовался пакет Macromedia Flash MX

2. Описание ветвей дерева как разбиений множества листьев (считая дерево бескорневым)

Если представить себе дерево неукорененным,  составим нижеследующую табличку, описывающую разбиения, столбцы которой соответствуют листьям дерева, а строки - ветвям дерева.: 

* для контроля предполагается "прочтение" изображения  вверху слева направо снизу вверх (не забывая, что мы полагаем дерево неукорененным)

A B C D E F
. * * * * *
* . * * * *
* * . * * *
* * * . * *
* * * * . *
* * * * * .
. . * * * *
. . . * * *
. . . . * *


Поскольку ветвь, отделяющая один (любой!) лист от всех остальных, есть в любом дереве, описание таких ветвей не несет полезной информации. Поэтому я выделил  цветом  описания ветвей, реально несущие смысловую нагрузку; таким образом, правильное описание топологии приведенного дерева состоит всего из трех строк, отвечающих трем внутренним ветвям

3. Получение искуственных мутантных последовательности, соответствующих листьям и узлам дерева, считая, что в корне находится последовательность гена белка DAPB_ECOLI.

Длина гена DAPB - 822 нуклеотида ( исправлена ошибка о длине гена (см. файл с результатами)), с учетом стоп-кодона ТАА сам файл с последовательностью можно посмотреть, выполнив команду entret embl:M10611 -auto).


Формула для пересчета расстояний в число мутаций в гене DAPB: 
N = (L/100)*822, L - длина ветки. N - число мутаций 


Был составлен специальный скрипт для получения моих мутантов. (script.txt) Текст скрипта можно наблюдать ниже. 

* для контроля 
зеленые
записи условно обозначают последнюю "ступень".
желтые -остальные
розовые - сливают фаста-последовательности в один файл по порядку


msbar dapb.fasta ef.fasta -point 4 -count 534 -auto
msbar ef.fasta e.fasta -point 4 -count 370 -auto
msbar ef.fasta f.fasta -point 4 -count 370 -auto

msbar dapb.fasta abcd.fasta -point 4 -count 288 -auto
msbar abcd.fasta abc.fasta -point 4 -count 41  -auto
msbar abc.fasta ab.fasta -point 4 -count 247 -auto
msbar ab.fasta a.fasta -point 4 -count 411 -auto
msbar ab.fasta b.fasta -point 4 -count 411 -auto
msbar abcd.fasta d.fasta -point 4 -count 658  -auto
msbar abc.fasta c.fasta -point 4 -count 575  -auto
cat a.fasta >> ali.fasta 
cat b.fasta >> ali.fasta 
cat c.fasta >> ali.fasta 
cat d.fasta >> ali.fasta 
cat e.fasta >> ali.fasta 
cat f.fasta >> ali.fasta 

После проведения процедуры создания файлов я создал дополнительный fasta-файл ali.fasta, где расположил последовательности для листьев, предварительно не забыв дописать в название имя каждого листа соответственно. Теперь все готово к реконструкции дерева.

 

4. На основе последовательностей, соответствующих листьям, реконструируем дерево алгоритмами UPGMA, Neighbor-joining и максимального правдоподобия. Сравниваем деревья между собой и с правильным деревом.

fdnaml ali.fasta -ttratio 1 -auto 

во время выполнения команды на экран выводилось следующее:

mulsets: false
datasets : 1
rctgry : false
gama : false
invar : false
numwts : 0
numseqs : 1

ctgry: false
categs : 1
rcategs : 1
auto_: false
freqsfrom : true
global : false
hypstate : false
improve : false
invar : false
jumble : false
njumble : 1
lngths : false
lambda : 1.000000
cv : 1.000000
freqa : 0.000000
freqc : 0.000000
freqg : 0.000000
freqt : 0.000000
outgrno : 1
outgropt: false
trout : true
ttratio : 1.000000
ttr : false
usertree : false
weights: false
printdata : false
progress : true
treeprint: true
interleaved : false


Adding species:
1. A
2. B
3. C
4. D
5. E
6. F


Output written to file "ali.fdnaml"

Tree also written onto file "ali.treefile"

Done.


В файле ali.fdnaml содержалось "текстово-графическое" изображение дерева (выделено желтым)

комментарии к доп. сведениям, приведенным вместе с деревьями: В заголовке наблюдаем название метода (сейчас метод макс. правдоподобия) Далее видим частоту встречаемости аденина, цитозина, гуанина и тимина (или урацила) делаем вывод о том, что программу, вероятно, можно использовать для реконструкции деревьев как по РНК, так и по ДНК. если сложить числа справа от А, С, G и Т(U) получим аккурат 1.00000. (то есть единицу берем за 100 процентов) Далее видим собственно дерево, оно неукорененное. Далее следует табличка, где указана длина узел-лист и узел-узел. Присутствует колонка Approx. Confidence Limits  значения которой я понимаю как некие предельные величины (округленные до 5го знака) Заметим, что длина (колонка Length) - это среднее арифметическое предельных значений.

  
  
  +----------B         
  |  
  |     +------------------D         
  |     |  
  1-----2                           +------F         
  |     |  +------------------------4  
  |     +--3                        +-----------E         
  |        |  
  |        +--------------C         
  |  
  +-------------A         
A B C D E F
. . * * * *
. . * . * *
. . . . * *


  

Для реконструкции моего дерева алгоритмами UPGMA или Neighbor-joining, нужно посчитать попарные расстояния между последовательностями программой fdnadist, вводим команду: 
fdnadist ali.fasta -ttratio 1 -auto полученный файл называется ali.fdnadist:

После этого файл подавался на вход программе fneighbor:

fneighbor ali.fdnadist -auto
для реконструкции алгоритмом Neighbor-joining 

комментарии: видим название метода (в нашем случае именно-таки  Neighbor-joining  - алгоритм UPGMA рассматривается) Далее следует запись о 6 популяциях. на самом деле это наши листья. Разрешена отрицательная длина деревьев, далее само дерево (неукорененное), далее, аналогично предыдущей реконструкции, расстояния узел-лист и узел-узел. Отсутствует колонка Approx. Confidence Limits

 


  +---------B         
  ! 
  !      +------------------D         
  2------3 
  !      !   +-------------C         
  !      +---4 
  !          !                          +------------E         
  !          +--------------------------1 
  !                                     +------F         
  ! 
  +--------------A         
A B C D E F
. . * * * *
. . * . * *
. . . . * *
 

fneighbor ali.fdnadist -treetype u -auto -outfile second.fneighbor для реконструкции алгоритмом UPGMA 




                                   +-----------------------A         
                       +-----------2 
                     +-3           +-----------------------B         
                     ! ! 
  +------------------4 +-----------------------------------C         
  !                  ! 
--5                  +------------------------------------D         
  ! 
  !                                    +------------------E         
  +------------------------------------1 
                                       +------------------F         

A B C D E F
. . * * * *
. . . * * *
. . . . * *
 

Заметим сразу, что дерево укорененное.

Итак на основе последовательностей, соответствующих листьям, мы реконструировали дерево алгоритмами UPGMA, Neighbor-joining и максимального правдоподобия. Теперь мне надо сравнить деревья между собой и с правильным деревом.

 

A B C D E F  Истинное дерево    Максимальное правдоподобие Neighbor-joining UPGMA
. . * . * *   
. . * * * *
  
. . . * * *
  
. . . . * *
  

-         
+         

+         
+         
+             
+             

-             
+             
+               
+               

-               
+               
-      
+      

+      
+
      
Вывод.  Мы видим, что по двумм алгоритмам ветки С и D как бы поменялись местами. Деревья отличаются по топологии, вероятно, это произошло потому, что ветка, "между" узлами  С и D имеет очень маленькую длину (5), К тому же, заметим, что как дерево UPGMA, так и истинное деревыо предполавгаются укорененными, в то же время, деревья по макс. правдоподобию и Neighbor-joining неукорененные, возможно, в построениии неукорененных деревьев есть какие-то принципы, которые отличаются от построения укорененных деревьев говоря общо.


ї
Бирюков