Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://kodomo.cmm.msu.ru/~igogo/Term4/1st_1.html
Дата изменения: Wed Feb 21 22:04:39 2007 Дата индексирования: Tue Oct 2 07:07:11 2012 Кодировка: Windows-1251 |
Итак, кратко, ход работы:
ген ASPG2_ECOLI → mutant1 → mutant2 → mutant3 → mutant4 → mutant5 → mutant6На каждом этапе происходят только замены нуклеотидов, число замен на последовательных этапах ("истинные" расстояния) положены равными: 10, 10, 30, 25, 50, 50 на каждые 100 нуклеотидов. Учитывая, что длина всего гена равна 1047, это числа 105, 105, 314, 262, 524, 524 (для мутантных последовательностей 1-6, соответственно).
msbar <infile> <outfile> -point 4 -count <общее количество замен> -autoПараметру -point соответствует несколько значений - "что делать с нуклеотидами в последовательности" (так, например, "-point 2" = "вставка", "-point 4" = "замена", "-point 5" = "удвоение").
В процессе работы был создан скрипт для получения сразу всех мутантов в одном файле. Запуск скрипта:
chmod +x script1.chmod
./script1.chmod
distmat -sequence <file name> -outfile <outfile name> -nucmethod <метод оценки> <номер метода***>
На вход программе подается множественное выравнивание, но т.к. в рассматриваемой модели были только замены, то полученный ранее файл с последовательностями и будет соответствовать биологически значимому выравниванию.
Выбирая соответствующий номер метода, получаю 2 матрицы попарных расстояний:
Таблица на "Comparison" отсортирована по убыванию "истинных растояний". По полученным данным построен график (по точкам плюс сглаживание) зависимости 2-х оценок расстояния (D, JC) от величины "истинного" расстояния (T):
Итак, что получается: в случае "истинных" расстояний учитывается каждая нуклеотидная замена и, соответственно, каждая мутация. Т.е. число замен на данном этапе всегда равно числу произошедших мутаций. При малом числе мутаций (не более 10 (в сумме) на 100 нуклеотидов последовательности) 3 графика практически не различимы. А вот дальше отличия проявляются и весьма заметные.
Кривая, отображающая неоткорректированные расстояния (или несовпадения на 100 нуклеотидов) располагается ниже графика "истинных расстояний". При этом видно, что для нее существует горизонтальная ассимптота: при полученных данных это 60 (=60 различий на 100 нуклеотидов последовательности), но вообще ассимптотическое значение составляет около 80 ( несовпадение "60 и 80" объяснить можно недостаточным числом данных).
Естественно, таким метод сравнения двух последовательностей не учитываются последовательные мутации в одном кодоне (т.е., например, изменения ССС (нач.последовательность) → ССА (переходн.последовательность) → ССТ (конечн.вариант) приводят к обнаружению единственного различия начального и конечного кодонов, в то время как произошло 2 мутации).
Кривая, построенная на основании данных расчета по алгоритму Джукс - Кантора (модель предполагает равные вероятности замен между всеми четырьмя типами нуклеотидов с вероятностью a), также лежит ниже графика "истинных расстояний", но выше кривой для "несовпадений на 100 нуклеотидов". Проведенная линия тренда ( см.графики ниже ) для JC - прямая - как для графика "истинных расстояний"
→ более реалистичный способ оценки эволюционных расстояний между 2-мя генами.
Опять не учитываются последовательные мутации, например, в одном кодоне → сравниваются "исходные" и "конечные" (без промежуточных) последовательности.
Еще была получена матрица попарных расстояний, вычисленных по формуле Кимура (К). Известно, что на самом деле замены по типу транзиций (т.е. между пуринами [A и G], а также между пиримидинами [C и T] ) происходят намного чаше, чем замены по типу трансверсий (т.е. пуринового основания на примидиновое или наоборот). Это учитывает модель Кимура с различными вероятностями для замен по типу транзиций и трансверсий.
По полученным данным построен график зависимости 3-х оценок расстояния (D, JC, К) от величины "истинного" расстояния (T):