Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~yaros/term4/Block3/Practice10.html
Дата изменения: Mon Sep 14 04:04:00 2009
Дата индексирования: Tue Oct 2 18:48:55 2012
Кодировка: Windows-1251
Practice10 Четвертый семестр

Эволюция белков митохондриальных рибосом.


I.   Поиск бактериальных гомологов среди альфа- и гаммапротеобактерий по нормированному профилю белков L14 митохондриальных рибосом.

1.Общая характеристика обучающей выборки

   Используя ресурс SRS из банка UniProtKB получены последовательности в fasta формате 20-ти белков L15 из разных организмов эукариот. (L15 - белок большой субъединицы митохондриальной рибосомы, или 39S).
Параметры запроса:
Taxonomy - Eukaryota
Description - mitochondrial
Description - L15

Код запроса:
(([uniprot-Taxonomy:Eukaryota*] & [uniprot-Description:mitochondrial*]) & [uniprot-Description:L15*])
  Для данных белков приведены их коды доступа и идентификаторы

Определение доменной структуры найденных белков, выравнивание.
а)Рассмотрим белок L15 из митохондрии человеческой клетки. Он состоит из 296 а.к.о., домен Ribosomal_L15 определяется остатками 31-145.

б) Выравнивание в Pfam.
  Вначале получили выравнивание всех имеющихся доменов PF01305, следующей задачей было извлечь только последовательности, соответствующие 20-ти найденым белкам, в итоге удалось получить только 7 записей, остальные, повидимому, отсутствуют в общем выравнивании.
  В формате Fasta
  То же выравнивание в GeneDoc. (скачать)

Выравнивание полных белковых последовательностей..
  Программой muscle, было проведено выравнивание 20-ти найденных белков L15, затем добавили веса программой pfw пакета pftools. Выравнивание в fasta формате можно посмотреть здесь.Выравнивание в GeneDoc.
  Теперь сравним полное белковое выравнивание (доменную часть) и выравнивание доменов.
На рисунке из GeneDoc видно, что выравнивание доменов в полных последовательностях довольно хорошо совпадает с выравниванием доменов, из Pfam. Сдвигов последовательностей не наблюдается, начало и конец доменов совпадают. Это относится только к 8-ми белкам из 20-ти (в выравнивании расположены в центре), остальные белки выровнены довольно плохо. Это легко объяснимо, если учесть, что из полного выравнивания PFAM удалось извлечь только 7 белков из 20, найденных по запросу в SRS.

2. Краткое описание и сравнение простого и нормированного профилей.
  При помощи команды pfw -m out.ali > out.weighted.ali добавили веса в запись последовательностей. Построение простого профиля: pfmake -m out.weighted.ali /usr/share/pftools23/blosum45.cmp > myprofile.prf. Профиль с нормировкой относительно случайно базы: autoscale -m myprofile.prf > myprofile.scaled.prf. При беглом рассмотрении трудно заметить явные отличия двух профилей, однако при детальном анализе обнаруживается, что эти профили отличаются значениями SCORE в поле МА (CUT_OFF) и R1/R2 в поле MA (NORMALIZATION), где R1 и R2 - коэффиценты функции нормирования. (Для нормированного профиля R1=1.4644; R2=0.01126024).

3.Поиска гомологов по профилю и выбор оптимального значения порога
   C помощью программы pfsearch пакета PFTOOLS производился поиск по нормированному профилю среди альфа- и гаммапротеобактерий.    Каждый поиск сначала повторили по 3 раза с разными значениями порога 5.0, 10.0, 30.0. Для выбора оптимального порога провели еще несколько поисков со значенем порога от 5 до 10, в итоге остановились на значении 7 для обоих групп бактерий.

Таблица1.Результаты поиска по двум группам бактерий с разными значениями порога.
Группа Альфапротеобактении Гаммапротеобактерии
Порог 5 10 30 7 5 10 30 7
Общее количество находок 274 68 0 74 606 126 0 140
С GO "cellular component (С)" 218 68 0 74 553 126 0 140
С GO "C:0003735" 116 68 0 74 183 126 0 139


  Данное значение порога (7)вибиралось исходя из логики, что общее количество находок должно быть примерно равно количеству с идентификатором GO и идентификатором большой субчастицы, таким образом сразу отсеивается все лишние находки. Но при этом необходимо следить, чтобы не отсеилось слишком много находок с идентификатором большой субчастицы. Из таблицы видно, что при пороге равном 10,0, все три значения в таблице одинаковые, это объясняется тем, что при данном высоком значении отсеивается все лишнее и остаются только нужные нам последовательности, но со значительной потерей.

4.Распределение нормированных весов находок в протеомах 2-х групп бактерий.
   Для сравнения весов гомологичных находок альфа- и гаммапротеобактерий в Excel была построена гистограмма распределения значений весов.

  Прежде всего необходимо отметить, что сравнение нужно вести не по количеству находок каждой группы, а по форме и сдвигу распределений. На картинке наблюдается явный сдвиг медианы распределения весов у альфапротеобактерий в сторону больших значений, относительно медианы гаммапротеобактерий, из этого можно заключить, что последовательности альфапротеобактерий несколько ближе к исследуемому профилю эукариотов.
Р  езультаты поиска по нормированному профилю с порогом 7:
alpha, gamma
Рабочая книга Excel.

5.Тест Вилькоксона.
   По распределениям весов находок в двух группах бактерий был в программе STADIA выполнен тест Вилкоксона.
  Результаты теста.
  По данным теста, принимается альтернативная (правосторонняя)гипотеза о наличии сдвига (при коэфф.знач = 0,05), Также получили данные из "Описательной статистики" (т.к. график гистограммы можно сопоставить с нормальным распределением). Исходя из них видно, что медиана альфапротеобактерий имеет большее значение чем гаммапротеобактерий, что свидетельствует о большем родстве их к рибосомальным белкам из митохондрий эукариот.

II.Филогенетический анализ рибосомальных белков L15 из эукариотических митохондрий и 3-х групп бактерий.


1.Описание выборки.
  Для начала создали внешнюю группу рибосомальных белков из Firmicutes, для этого в SRS нашли 7 последовательностей. Для построения филогенетического дерева использовались следующие файлы с белковыми последовательностями в fasta формате:
alpha.. gamma.. eukaryota.. firmicutes.

  Далее с помощью программы muscle построено множественное выравнивание всех данных белков.
Таблица2. Выборка.
Группа источников рибосомЧисло последовательностей
Альфапротеобактерии74
Гаммапротеобактерии139
Фирмикуты7
Митохондрии20

2.Филогенетическое дерево.
При помощи программы proml пакета PHYLIP, было построено филогенетическое дерево методом ML. Визуализировалось программой MEGA4.0.

  Судя по данному дереву можно сказать, что белки из Альфапротеобактерий находятся эволюционно ближе к митохондриальным белкам, эти две группы выходят из одного узла на дереве, т.е. происходят от одного общего предка.

3.Эволюционные расстояния.
  Используя программу protdist (пакета phylip) определелили попарные эволюционные расстояния по JTT и построили в Excel гистограмму распределения попарных расстояний между митохондриальными белками и белками из альфа- и гаммапротеобактерий, причем количество значений бралось в долях процентов.

  Файл с попарными эволюционными расстояниями по Джуксу-Кантору.
  Рабочий файл Excel.
  По данной гистограмме сложно судить о родстве митохондриальных белков к какой-либо группе альфа- или гаммапротеобактерий, имеется по два пика, совпадающих между собой, совпадают и медианы двух выборок.

III.Резюме.

  Используя различные инструменты анализа, выяснялось родство последовательностей рибосомальных митохондриальных белков L14 между альфа- и гаммапротеобактериями.

  Распределение нормированных весов 2-х групп бактерий, Филогенетическое дерево и Тест Вилкоксона, показали большую эволюционную близость белка L15 к альфапротеобактериям, гистограмма эволюционных расстояний ни дала ничего конкретного. Суммируя все изложенные факты приходим к выводу, что наиболее вероятным можно считать происхождение митохондрий эукариот от альфапротеобактерий.




© Ярослав Карпович