Четвертый семестр
Эволюция белков митохондриальных рибосом.
I. Поиск бактериальных гомологов среди альфа- и гаммапротеобактерий по нормированному профилю
белков L14 митохондриальных рибосом.
1.Общая характеристика обучающей выборки
   Используя ресурс SRS
из банка UniProtKB получены последовательности в fasta
формате 20-ти белков L15 из разных организмов эукариот.
(L15 - белок большой субъединицы митохондриальной рибосомы, или 39S).
Параметры запроса:
Taxonomy - Eukaryota
Description - mitochondrial
Description - L15
Код запроса:
(([uniprot-Taxonomy:Eukaryota*] & [uniprot-Description:mitochondrial*]) & [uniprot-Description:L15*])
  Для данных белков приведены их коды доступа и идентификаторы
Определение доменной структуры найденных белков, выравнивание.
а)Рассмотрим белок L15 из митохондрии человеческой клетки.
Он состоит из 296 а.к.о., домен Ribosomal_L15 определяется остатками 31-145.

б) Выравнивание в Pfam.
  Вначале получили выравнивание всех имеющихся доменов PF01305, следующей задачей было извлечь только
последовательности, соответствующие 20-ти найденым белкам, в итоге удалось получить только 7 записей, остальные,
повидимому, отсутствуют в общем выравнивании.
  В формате Fasta
  То же выравнивание в GeneDoc. (скачать)
Выравнивание полных белковых последовательностей..
  Программой muscle, было проведено выравнивание 20-ти найденных белков L15, затем добавили веса программой
pfw пакета pftools. Выравнивание в fasta формате можно посмотреть здесь.Выравнивание
в GeneDoc.
  Теперь сравним полное белковое выравнивание (доменную часть) и выравнивание доменов.
На рисунке из GeneDoc видно, что выравнивание доменов в полных последовательностях довольно хорошо совпадает с
выравниванием доменов, из Pfam. Сдвигов последовательностей не наблюдается, начало и конец доменов совпадают.
Это относится только к 8-ми белкам из 20-ти (в выравнивании расположены в центре), остальные белки выровнены
довольно плохо. Это легко объяснимо, если учесть, что из полного выравнивания PFAM удалось извлечь только 7 белков
из 20, найденных по запросу в SRS.
2. Краткое описание и сравнение простого и
нормированного профилей.
  При помощи команды pfw -m out.ali > out.weighted.ali добавили веса в запись последовательностей.
Построение простого профиля: pfmake -m out.weighted.ali /usr/share/pftools23/blosum45.cmp > myprofile.prf.
Профиль с нормировкой относительно случайно базы: autoscale -m myprofile.prf > myprofile.scaled.prf.
При беглом рассмотрении трудно заметить явные отличия двух профилей, однако при детальном анализе обнаруживается,
что эти профили отличаются значениями SCORE в поле МА (CUT_OFF) и R1/R2 в поле MA (NORMALIZATION),
где R1 и R2 - коэффиценты функции нормирования. (Для нормированного профиля R1=1.4644; R2=0.01126024).
3.Поиска гомологов по профилю и выбор оптимального значения порога
   C помощью программы pfsearch пакета PFTOOLS производился поиск по нормированному профилю среди альфа-
и гаммапротеобактерий.
   Каждый поиск сначала повторили по 3 раза с разными значениями порога 5.0, 10.0, 30.0.
Для выбора оптимального порога провели еще несколько поисков со значенем порога от 5 до 10, в итоге
остановились на значении 7 для обоих групп бактерий.
Таблица1.Результаты поиска по двум группам бактерий с разными значениями порога.
Группа |
Альфапротеобактении
|
Гаммапротеобактерии
|
Порог
|
5
|
10
|
30
|
7
|
5
|
10
|
30
|
7
|
Общее количество находок
|
274
|
68
|
0
|
74
|
606
|
126
|
0
|
140
|
С GO "cellular component (С)"
|
218
|
68
|
0
|
74
|
553
|
126
|
0
|
140
|
С GO "C:0003735"
|
116
|
68
|
0
|
74
|
183
|
126
|
0
|
139
|
  Данное значение порога (7)вибиралось исходя из логики, что
общее количество находок должно быть примерно равно количеству с идентификатором GO и идентификатором
большой субчастицы, таким образом сразу отсеивается все лишние находки. Но при этом необходимо следить, чтобы
не отсеилось слишком много находок с идентификатором большой субчастицы. Из таблицы видно, что при пороге
равном 10,0, все три значения в таблице одинаковые, это объясняется тем, что при данном высоком значении
отсеивается все лишнее и остаются только нужные нам последовательности, но со значительной потерей.
4.Распределение нормированных весов находок в протеомах 2-х групп бактерий.
   Для сравнения весов гомологичных находок альфа- и гаммапротеобактерий в Excel
была построена гистограмма распределения значений весов.

  Прежде всего необходимо отметить, что сравнение нужно вести не по количеству находок каждой группы,
а по форме и сдвигу распределений. На картинке наблюдается явный сдвиг медианы распределения весов у
альфапротеобактерий в сторону больших значений, относительно медианы гаммапротеобактерий, из этого
можно заключить, что последовательности альфапротеобактерий несколько ближе к исследуемому профилю
эукариотов.
Р  езультаты поиска по нормированному профилю с порогом 7:
alpha, gamma
Рабочая книга Excel.
5.Тест Вилькоксона.
   По распределениям весов находок в двух группах бактерий был в программе STADIA выполнен тест Вилкоксона.
  Результаты теста.
  По данным теста, принимается альтернативная (правосторонняя)гипотеза о наличии сдвига (при коэфф.знач = 0,05),
Также получили данные из "Описательной статистики" (т.к. график гистограммы можно сопоставить с нормальным
распределением). Исходя из них видно, что медиана альфапротеобактерий имеет большее значение чем
гаммапротеобактерий, что свидетельствует о большем родстве их к рибосомальным белкам из митохондрий эукариот.
II.Филогенетический анализ рибосомальных белков L15 из эукариотических
митохондрий и 3-х групп бактерий.
1.Описание выборки.
  Для начала создали внешнюю группу рибосомальных белков из Firmicutes, для этого в SRS нашли 7
последовательностей. Для построения филогенетического дерева использовались следующие файлы с
белковыми последовательностями в fasta формате:
alpha..
gamma..
eukaryota..
firmicutes.
  Далее с помощью программы muscle построено множественное выравнивание всех данных белков.
Таблица2. Выборка.
Группа источников рибосом | Число последовательностей |
Альфапротеобактерии | 74 |
Гаммапротеобактерии | 139 |
Фирмикуты | 7 |
Митохондрии | 20 |
2.Филогенетическое дерево.
При помощи программы proml пакета PHYLIP, было построено филогенетическое дерево методом ML. Визуализировалось
программой MEGA4.0.

  Судя по данному дереву можно сказать, что белки из Альфапротеобактерий находятся эволюционно ближе к
митохондриальным белкам, эти две группы выходят из одного узла на дереве, т.е. происходят от одного
общего предка.
3.Эволюционные расстояния.
  Используя программу protdist (пакета phylip) определелили попарные эволюционные расстояния по JTT и построили
в Excel гистограмму распределения попарных расстояний между митохондриальными белками и белками из альфа- и
гаммапротеобактерий, причем количество значений бралось в долях процентов.

  Файл с попарными эволюционными расстояниями по Джуксу-Кантору.
  Рабочий файл Excel.
  По данной гистограмме сложно судить о родстве митохондриальных белков к какой-либо группе альфа- или
гаммапротеобактерий, имеется по два пика, совпадающих между собой, совпадают и медианы двух выборок.
III.Резюме.
  Используя различные инструменты анализа, выяснялось родство последовательностей рибосомальных
митохондриальных белков L14 между альфа- и гаммапротеобактериями.
  Распределение нормированных весов 2-х групп бактерий, Филогенетическое дерево и Тест Вилкоксона,
показали большую эволюционную близость белка L15 к альфапротеобактериям, гистограмма эволюционных расстояний
ни дала ничего конкретного. Суммируя все изложенные факты приходим к выводу, что наиболее вероятным
можно считать происхождение митохондрий эукариот от альфапротеобактерий.
© Ярослав Карпович