Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~leushkin/term4/distant.html
Дата изменения: Tue Feb 27 19:37:51 2007
Дата индексирования: Tue Oct 2 11:00:32 2012
Кодировка: Windows-1251
distant

четвертый семестр

Сравнение различных способов оценки эволюционных расстояний между нуклеотидными последовательностями.

Простой подсчет числа замен не может точно отобразить реальный ход эволюционных событий. С этой целью используются разные методы приближения. В этой работе будет использоваться искусственное изменение нуклеотидной последовательности с помощью случайных замен. Все замены равновероятны, поэтому нет смысла применять более изощреные методы приближения, чем модель Джукса-Кантора.
  1. Создание эволюционной модели.
    С помощью программы msbar полуены мутантные последовательности исходного гена polA, кодирующего ДНК-полимеразу I из организма Escherichia coli, для этого число мутаций на 100 было перечитано в расчете на полную длину гена. ((длина гена*число мутаций на 100)/100):
    msbar mut6.fasta 1mut.fasta -point 4 -count 419 -auto
    msbar 1mut.fasta 2mut.fasta -point 4 -count 419 -auto
    msbar 2mut.fasta 3mut.fasta -point 4 -count 1256 -auto
    msbar 3mut.fasta 4mut.fasta -point 4 -count 628 -auto
    msbar 4mut.fasta 5mut.fasta -point 4 -count 1047 -auto
    msbar 5mut.fasta 6mut.fasta -point 4 -count 2094 -auto
    cat 1mut.fasta >> mut6.fasta  
    cat 2mut.fasta >> mut6.fasta  
    cat 3mut.fasta >> mut6.fasta  
    cat 4mut.fasta >> mut6.fasta  
    cat 5mut.fasta >> mut6.fasta  
    cat 6mut.fasta >> mut6.fasta  
    
    Опция -point указывает на тип мутации. 4 означает замену.
    По скрипту видно абсолютное число замен (параметр опции -count). В пересчете на 100 нуклеотидов (для возможности сравнения с программными результатами) можно получить матрицу числа замен (см. стр. All_data в файле distant.xls).
    На первом шаге замен еще очень мало. Вероятность того, что в первом мутанте в одной позиции произойдут две мутации равна 10%. Поэтому число отиличий близко 0,75 общего числа реальных замен (297 отличий при 419 заменах), но уже ощутимо меньше. С каждым шагом вероятность попасть в уже мутированную позицию возрастает. При этом может произойти и замена на исходный нуклеотид.
  2. Определение попарных эволюционных расстояний между всеми последовательностями.
    Определение попарных эволюционных расстояний произведено с помощью программы distmat:
    distmat -sequence mut6.fasta -outfile uncor.txt -nucmethod 0
    
    Номером 0 обозначается метод, считающий число несовпадений (D)
    distmat -sequence mut6.fasta -outfile jukant.txt -nucmethod 1
    
    Номером 1 обозначается метод, использующий модель Джукса-Кантора (JC)
    Результаты измерений можно посмотреть в таблице distant.xls Там же приведены расчеты для утроенной длины того же гена, гена в три раза меньшей длины и гена длиной 180 нуклеотидов. Уже по таким данным можно понять, что отличие между генами не зависит от длины. Но если провести большее число испытаний (запусков программы, то можно заметить, что чем меньше длина последовательности, тем больше колебания в значении расстояний). Если взять последовательность 100000 нуклеотидов, то программа выдает результаты, различающиеся друг от друга не более чем на сотые доли. Но при этом результат по Джуксу-Кантору еще стремится к "идеальным" 75% (программа делает замену нуклеотида на тот же самый, но фактически это заменой не является) чего и следовало ожидать, так как в нашем случае математический метод описывает искусственную эволюционную модель! Это есть прямое следствие закона больших чисел.
  3. Графическое представление результатов.
    На графике представлены зависимости расчетных расстояний от числа замен. Кривая несовпадений начинает давать довольно большую ошибку начиная уже с 30 замен. В конце концов (при большом числе замен) она устремится к 75%, что будет соответствовать проценту различий со случайной последовательностью. Поправка Джукса-Кантора дает отличный результат. Ее отличия связаны с тем, что в данном отдельно взятом испытании процент замен на тот же нуклеотид оказался меньше четверти (но при большом числе испытаний вышло бы совпадение с предельной кривой).


    ©Леушкин Евгений.