Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~Lan787/term4_files/trees.htm
Дата изменения: Wed May 3 09:09:14 2006
Дата индексирования: Tue Oct 2 11:38:10 2012
Кодировка: Windows-1251
Исследование филогенетического дерева семейства MIP из таксонов Lactobacillales, Betaproteobacteria

Исследование филогенетического дерева семейства MIP из таксонов Lactobacillales, Betaproteobacteria

Создание выборки

Я составил 3 выборки белков, как было предложено в задании. Первую выборку: "белки семейства MIP из таксонов Lactobacillales, Betaproteobacteria" - я отфильтровал следующим образом:

  • Из файла, содержащего полные записи белков, извлек все ID белков длинной более 200 аа с помощью следующего скрипта (строка инициализации: "bash FilterScript [имя файла с записями]").
  • Получил количество белков у каждого организма в выборке этим скриптом. Результат его работы сдесь. Затем оставил только белки из одного подвида с максималным их количеством (оставшиеся подвиды сдесь). Наконец последний скрипт (bash OS_IDscript query1.full OS_ID.txt OS_f.txt>finalquery.fasta) (результат) составляет финальную выборку, состоящюю из первой отсортированной группы белков (57 из 76 осталось) и остальных двух групп выборки. Так как написание этого скрипта у меня заняло примерно 10 часов, то позволю себе описать его работу. Вначале скрипт ставит в соответствие каждому ID белка организм (подвид) (в предыдущем скрипте я определил из белков каких организмов будет состоять выборка). Далее программой seqret составляется выборка белков по их ID, но только таким, которые из определенных мной организмов (подвидов). Так как программы построения выравнивания почему-то неправильно читают строчки, выданные программой seqret (используется в скрипте), начинающиеся с ">", то пришлось их заменить на оригинальные - из выдачи SRS, написав следующую часть скрипта. Далее мне показалось, что первое слово в этих строчках (именно оно отображаются на дереве) слишком длинное, поэтому последняя часть скрипта оставляет в этих строчках только ID белков, а также добавляет вторую и третью части выборки в выходной файл.

    Построение филогенетического дерева

    Последовательности в полученной выборке я выравнил с помощю программы ClustalX. Построеное ею же дерево было визуализованно в программе GeneMaster, рисунок построен с помощью Photoshop CS2.

    Рис. 1 Филогенетическое дерево моей выборки. Жирным выделены белки внешней группы, красным - белки из архей.

    Построение таксономического дерева

    Я построил таксономическое дерево моей белковой выборки с помощью NCBI Taxonomy Browser по списку организмов, из которых взяты белки моей выборки.

    Рис. 2 Таксономическое дерево

    Заметим, что дерево не отображает эволюционные растояния между таксонами (т. е. длинны ветвей не имеют значения), а лишь их иерархию.

    Анализ филогенетического дерева

    При анализе дерева мне нужно было найти предполагаемых ортологов и паралогов.

    Ортологи - гомологичные белки, произошедшие в результате видообразования, поэтому они должны принадлежать разным организмам и, наиболее вероятно, выполнять одну и ту же функцию. Логично предположить, что на дереве такие белки должныбыть близко расположенными, но принадлэжать разным организмам. Принадлежат ли белки разным организмам легко проверить по второй части их ID (_XXXXX): если они совпадают - белки принадлежат одному организму, если нет - разным (если разным подвидам, то различия в последней букве).
    пара белковвыполняемая функция из аннотации Uniprotцвет на дереве
    AQPZ_BORPA и AQPZ_BORBRAquaporin Z
    Q62MJ7_BURMA и Q63X51_BURPSglycerol uptake facilitator protein
    Q4LU56_9BURK и Q4B9J1_BURVIMajor intrinsic protein
    Q3F9L9_9BURK и Q4B7C7_BURVIMajor intrinsic protein precursor
    Q62FZ9_BURMA и Q63PQ9_BURPSAquaporin Z

    Паралогами называют белки, возникшие в результате дубликации гена в одном организме. Так как на один из белков не влияет давление отбора, то он может мутировать приобретая новые функции (старые функции будет нести белок другой копии). Значит на дереве такие белки должны принадлежать одному и тому же организму.
    пара белковвыполняемая функция из аннотации Uniprotцвет на дереве
    Q88XM5_LACPL и Q890C5_LACPLGlycerol uptake facilitator protein
    Q48WT4_STRP1 и Q99Y61_STRP1Aquaporin и Putative glycerol uptake facilitator protein
    Q89YI9_STRP1 и Q48XC8_STRP1Glycerol uptake facilitator protein
    Q3FIY6_9BURK и Q4LU56_9BURKMajor intrinsic protein
    Q4LZJ1_9BURK и Q3F9L9_9BURKMajor intrinsic protein precursor

    Хотелось бы отметить пары подчеркнутые зеленым и красным.
    В этих двух случаях мы видем следующую картину:
    Возможное обьяснение этой картины: вначале произошла дубликация гена, а затем белки A и B "разошлись в результате видообразования, и таким образом белок C является паралогом для пары A и B. Однако получается, что в результате этих процессв у одного организма оказались два паралогичных белка, а у другого один.
    Иными словами картина должна была быть такой:
    Хотя другого объяснения я найти не смог.