Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~igogo/Term4/1st_1.html
Дата изменения: Wed Feb 21 22:04:39 2007
Дата индексирования: Tue Oct 2 07:07:11 2012
Кодировка: Windows-1251

Evolution_comparison

Сравнение разных способов оценки эволюционных расстояний между 2-мя генами.

На главную страницу четвертого семестра

Итак, кратко, ход работы:

Cоздана модель последовательной эволюции гена исследуемого белка ASPG2_ECOLI (см. результаты предыдущих упражнений):
```
ген ASPG2_ECOLI → mutant1 → mutant2 → mutant3 → mutant4 → mutant5 → mutant6
```
На каждом этапе происходят только замены нуклеотидов, число замен на последовательных этапах ("истинные" расстояния) положены равными: 10, 10, 30, 25, 50, 50 на каждые 100 нуклеотидов. Учитывая, что длина всего гена равна 1047, это числа 105, 105, 314, 262, 524, 524 (для мутантных последовательностей 1-6, соответственно).
Мутантные последовательности получены с помощью программы msbar пакета EMBOSS, вот синтаксис:
```
msbar <infile> <outfile> -point 4 -count <общее количество замен> -auto
```
Параметру -point соответствует несколько значений - "что делать с нуклеотидами в последовательности" (так, например, "-point 2" = "вставка", "-point 4" = "замена", "-point 5" = "удвоение").
В процессе работы был создан скрипт для получения сразу всех мутантов в одном файле. Запуск скрипта:
```
chmod +x script1.chmod
```
```
./script1.chmod
```
Определены попарные эволюционные расстояния между всеми последовательностями (включая исходную) c помощью программы distmat пакета EMBOSS. Синтаксис:
```
distmat -sequence <file name> -outfile <outfile name> -nucmethod <метод оценки> <номер метода***>
```
На вход программе подается множественное выравнивание, но т.к. в рассматриваемой модели были только замены, то полученный ранее файл с последовательностями и будет соответствовать биологически значимому выравниванию.
Выбирая соответствующий номер метода, получаю 2 матрицы попарных расстояний:
1. *** = 0 - попарных различий (D)(uncorrected distances);
2. *** = 1 - попарных расстояний, вычисленных по формуле Джукс - Кантора (JC).
Cоздана рабочая книга Excel "Dist.xls", содержащую 2 листа c названиями "All_data"(содержит 3 матрицы попарных расстояний: "истинных", неоткорректированных расстояний или несовпадений (D) и расстояний по Джуксу-Кантору (JC)) ) и "Comparison" (содержит все данные в единой таблице).
Таблица на "Comparison" отсортирована по убыванию "истинных растояний". По полученным данным построен график (по точкам плюс сглаживание) зависимости 2-х оценок расстояния (D, JC) от величины "истинного" расстояния (T):

Итак, что получается: в случае "истинных" расстояний учитывается каждая нуклеотидная замена и, соответственно, каждая мутация. Т.е. число замен на данном этапе всегда равно числу произошедших мутаций. При малом числе мутаций (не более 10 (в сумме) на 100 нуклеотидов последовательности) 3 графика практически не различимы. А вот дальше отличия проявляются и весьма заметные.
Кривая, отображающая неоткорректированные расстояния (или несовпадения на 100 нуклеотидов) располагается ниже графика "истинных расстояний". При этом видно, что для нее существует горизонтальная ассимптота: при полученных данных это 60 (=60 различий на 100 нуклеотидов последовательности), но вообще ассимптотическое значение составляет около 80 ( несовпадение "60 и 80" объяснить можно недостаточным числом данных).
Естественно, таким метод сравнения двух последовательностей не учитываются последовательные мутации в одном кодоне (т.е., например, изменения ССС (нач.последовательность) → ССА (переходн.последовательность) → ССТ (конечн.вариант) приводят к обнаружению единственного различия начального и конечного кодонов, в то время как произошло 2 мутации).
Кривая, построенная на основании данных расчета по алгоритму Джукс - Кантора (модель предполагает равные вероятности замен между всеми четырьмя типами нуклеотидов с вероятностью a), также лежит ниже графика "истинных расстояний", но выше кривой для "несовпадений на 100 нуклеотидов". Проведенная линия тренда ( см.графики ниже ) для JC - прямая - как для графика "истинных расстояний"
→ более реалистичный способ оценки эволюционных расстояний между 2-мя генами.
Опять не учитываются последовательные мутации, например, в одном кодоне → сравниваются "исходные" и "конечные" (без промежуточных) последовательности.

Еще была получена матрица попарных расстояний, вычисленных по формуле Кимура (К). Известно, что на самом деле замены по типу транзиций (т.е. между пуринами [A и G], а также между пиримидинами [C и T] ) происходят намного чаше, чем замены по типу трансверсий (т.е. пуринового основания на примидиновое или наоборот). Это учитывает модель Кимура с различными вероятностями для замен по типу транзиций и трансверсий.
По полученным данным построен график зависимости 3-х оценок расстояния (D, JC, К) от величины "истинного" расстояния (T):
Значения матриц, рассчитанные по модели Джукс - Кантора и по модели Кимура, очень незначительно отличаются друг от друга (тем не менее, значения по Кимура равны либо больше значений, рассчитанных по Джукс-Кантору), отсюда и наблюдаемое наложение графиков.

їNADEZDA TUKHTUBAEVA,2007