Постановка задачи
Биологическая задача этого блока состоит в подтверждении или опровержении гипотезы о том, что
митохондрии эукариот произошли от альфапротеобактерий, а не от гаммапротеобактерий.
Для решения это задачи предлагается сравнить последовательности рибосомальных
белков альфа- и гаммапротеобактерий с их ортологами из митохондрий.
Что надо сделать?
Нужно создать выборку ортологичных белков из рибосом митохондрий и построить их
множественное выравнивание. На основе полученного выравнивания создать профиль для
поиска гомологов в бактериях. Провести поиск гомологов в двух группах бактерий.
Провести статистический анализ результатов поиска. Дать ответ на поставленный вопрос. Затем построить филогенетическое
дерево изучаемых последовательностей/доменов и потвердить или не потвердить сделанные
ранее выводы.р>
Создание обучающей выборки, построение выравнивания и профиля
С помощью SRS из UniProt были получены последовательности рибосомального белка L6 из митохондрий разных эукариот. Для этого был создан запрос:
> Description - L6
> Description - S39
> Taxonomy - eukaryota
В доменной структуре белков из этой выборки имеется 1 или 2 домена Ribosomal_L6 (PF00347).
Для данной выборки я получил 2 выравнивания:
- Выравнивание с помощью программы muscle
- Выравнивание домена в pfam
Далее к выравниванию muscle были добавлены веса и по нему был построен профиль.
Профиль подвергли нормировке.
Различие между профилями состоит в том, что нормированный профиль имеет больший вес.
Профили отличаются значениями SCORE в поле "CUT_OFF".
Порог, полученный при построении ненормированного профиля (SCORE в профиле myprofile.prf), повышается при его нормировании. Следовательно, последовательности, найденные с помощью поиска с использованием соответствующего профиля имеют больший вес.
Результаты поиска по двум группам бактерий с разными значениями порога
С помощью программы pfsearch был проведен поиск гомологичных белков для альфа- и гаммапротеобактерий. Использовались весовые пороги 5, 7, 10, 15 и 30. Решено было использовать порог в 7.0.
Таблица 1. Alphaproteobacteria.
Порог | Общее количество находок | Количество находок с GO идентификатором "ribosome" (0005840) | Количество находок с GO идентификатором "large ribosomal subunit"(0015934) |
5.0 | 217 | 65 | 0 |
7.0 | 66 | 65 | 0 |
10.0 | 65 | 65 | 0 |
15.0 | 65 | 65 | 0 |
Таблица 2. Gammaproteobacteria.
Порог | Общее количество находок | Количество находок с GO идентификатором "ribosome" (0005840) | Количество находок с GO идентификатором "large ribosomal subunit"(0015934) |
5.0 | 554 | 137 | 0 |
7.0 | 137 | 137 | 0 |
10.0 | 137 | 137 | 0 |
15.0 | 137 | 137 | 0 |
Анализ результатов
Было проведено 2 поиска с порогом 7 среди альфа- и гаммапротеобактерий.
Рабочий файл MS Excel тут.
Из гистограммы видно, что медиана нормального распределения для альфапротеобактерий лежит правее, чем для гаммапротеобактерий, что означает, что в среднем, последовательности из альфапротеобактерий имеют больший вес, чем таковые из гамма-. Гистограмма - хорошая иллюстрация сравнения выборок, для более строгого математического сравнения целесообразно провести тест Вилкоксона, который покажет нам различия между медианами выборок. Также проведем описательную статистику. Статистические действия выполнялись в пакете STADIA. Переменная х1 отвечает альфапротеобактериям, а х2 - гамма-.
Текстовый вариант теста Вилкоксона - тут.
Что дает нам тест? Тест показал, что между медианами выборок есть различия. Из описательной статистики видно, что медиана распределения весов последовательностей из альфапротеобактерий действительно лежит правее (23,29 против 22,36). В свою очередь это значит, что последовательности из альфапротеобактерий имеют больший средний вес, что может говорить о большей эволюционной близости их к эукариотам.
Филогенетический анализ
Была создана аутгруппа из последовательностей рибосомальных белков L6 из Firmicutes. Все последовательности (из эукариот, альфа- и гаммапротеобактерий, фирмикут) были выравнены с помощью muscle. В данной выборке всего: 137 послнедовательностей из гаммапротеобактерий, 66 из альфапротеобактерий, 19 последовательностей из эукариот и 6 из фирмикут. (228 всего).
С помощью пакета PHYLIP методом максимального правдоподобия было построенно филогенетическое дерево, визуализированное программой TreeView.
По данному дереву видно, что белки из альфапротеобактерий находятся по одно сторону от аутгруппы с белками из эукариот, что свидетельствует о большей эволюционной близости альфапротеобактериотических последовательностей к таковым эукариот. По виду данного дерева, теста Вилкоксона и гистограммы можно сделать предположение, что эукариотические митохондриальные рибосомальные белки, скорее всего, произошли от соответствующих белков альфапротеобактерий. Для дальнейшего подтверждения данной гипотезы рассчитаем попарные эволюционные расстояния по Джуксу-Кантору с помощью программы protdist пакета EMBOSS. На основании этих данных построим гистограмму распределение попарных растояний между митохондриальными белками эукариот и таковыми из альфа- и гаммапротеобактерий.
Построенная таким методом диаграмма приведены ниже
Рабочий файл MS Excel тут.
Считаю, что данная гистограмма не создает возможности оценить, какая из групп протеобактерий ближе к эукариотам. Для внесения ясности, с помощью MS Excel были посчитаны медианы выборок из альфа- и гаммапротеобактерий. Для альфа = 2,6; гамма = 2,5. Значения сопоставимые, но все-таки медиана расстояния у гаммапротеобактерий меньше, что должно говорить о более близком эволюционном родстве гаммапротеобактерий. Одной из причин таких противоречивых результатов могло быть то, что дальние предки альфапротеобактерий были ближе к эукариотам, но, к примеру, альфапротеобактерии эволюционировали быстрее и в итоге отдалились от эукариот.
Но, несмотря на это, филогенетический анализ, тест Вилкоксона и распределение нормированных расстояний создают перевес для того, чтобы отдать предпочтение альфапротеобактериям.
©Арутюнов Артем
©Photo exclusiely made by myself :)
©Я в контакте