Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~lu.andreeva/mnogalign.html
Дата изменения: Thu May 21 16:53:27 2009
Дата индексирования: Tue Oct 2 04:19:31 2012
Кодировка: Windows-1251
Множественные выравнивания

Учебный сайт Люды Андреевой


Программа Muscle

Найдем последовательности дельта-антигенов вирусов рода Deltavirus в банке Swiss-Prot. Для этого воспользуемся поиском SRS и составим следующий запрос:
([swissprot-Description:delta*] & [swissprot-Taxonomy:deltavirus*]),
который ограничивает поиск белков по таксономии и описанию: найдены белки вирусов рода Deltavirus, в описании которых есть слово "delta". В получившемся наборе присутствуют большие и малые субъединицы дельта-антигенов (small and large delta antigen). Сохраним последовательности в fasta-формате (Save->Save with view:FastaSeqs).
Откроем получившийся файл программой Genedoc и построим выравнивание вручную, пытаясь найти наиболее консервативные участки. Результат такого выравнивания можно увидеть на рисунке ниже или в файле.

Далее построим выравнивание средствами программы Muscle, установленной на машине kodomo-count. Для этого соединимся с машиной kodomo-count и в командной строке выполним команду: muscle -in delta.fasta -out delta_aligned.fasta
Импортируем полученный файл в Genedoc и получим следующую картинку:

Выравнивания заметно различаются только в первом участке длиной около 50 символов, причем выравнивание, сделанное Muscle, лучше, поскольку фиксирует большее количество консервативных участков при таком же, приблизительно, количестве гэпов. Несмотря на то, что выравнивание Muscle дает более стройную картину расположения гэпов (гэпы располагаются протяженными столбцами, и лишь у нескольких белков остаются аминокислоты, что говорит о возможном "вклинивании" лишних нуклеотидов), наиболее протяженные биологически значимые участки определены в обоих выравниваниях одинаково, а это значит, что Muscle объективно оценивает функционально важные участки и ее можно уверенно применять для поиска гомологичных структур.

Выравнивание набора гомологов белка BIOH_ECOLI

С помощью программы BLASTP найдем гомологов белка BIOH_ECOLI (p13001), принадлежащих к бактериям. Выберем те из них, процент идентичности у которых с белком BIOH_ECOLI составляет 40-80%. Проследим также, чтобы белки не относились к родственным организмам (первые три буквы, указывающие на род, должны быть различны у всех белков). Идентификаторы выбранных белков находятся в файле myproteins.list.
Соединившись с машиной kodomo-count создадим файл с последовательностями выбранных белков с помощью команды:
seqret @myproteins.list myproteins.fasta
Для выравнивания последовательностей воспользуемся Muscle (предыдущий заголовок) и получим файл с выравниванием. С помощью Genedoc раскрасим выравнивание и получим рисунок, представленный ниже:

Из рисунка видно, что все гомологи содержат определенное количество консервативных участков (выделены красным), однако они обладают маленькой протяженностью: можно обнаружить большие консервативные блоки среди первых 100 аминокислот, в остальной части выравнивания наблюдаются частые совпадения одной аминокислоты во всех белках, что может быть связано с пространственным рсположением активного центра белков.
Выравнивание показывает примерно такое же количество полуконсервативных участков (выделено желтым). Они составлены преимущественно гидрофобными аминокислотами; встречаются также полуконсервативные участки с триптофаном, пролином, серином и положительно заряженными аминокислотами.
В выравнивании очень мало гэпов, их длина не превышает двух, причем почти все гэпы биологически обоснованы, поскольку располагаются между консервативными участками: в позициях 35-36, вероятно, у BIOH_SERMA произошла потяря аминокислоты, а у BIOH_BUCBP произошла вставка аминокислоты, как и у BIOH_NITEU в 123 позиции. Аналогичные "вставки" произошли и у BIOH_IDILO в позициях 56-57 и у BIOH_WIGBR в 227-228 позициях, но есть причины сомневаться в реальности этих мутаций.
Сомневаться в справедливости выравнивания приходится на участках 1-10, 58-84, 149-175 217-242. Здесь выравнивание отличается отсутствием консервативных и полуконсервативных позиций, в то же время присутствует большое количество столбцов, в которых совпадения аминокислот наблюдается чуть больше, чем у половины белков (выделены зеленым). На мой взгляд, такие совпадения не являются биологически оправданными, так как очень маловероятно, что аминокислота, присутствовавшая в предковом белке, заменится на другую ровно у половины родственных белков, причем заменится на разные аминокислоты. В связи с этим сложно упомянутые в предыдущем абзаце гэпы (BIOH_IDILO - 56-57, BIOH_WIGBR - 227-228) с реальными мутациями. Поскольку эти гэпы не находятся между консервативными позициями, и за ними следуют участки выравнивания с недостоверными совпадениями (выделены зеленым), вполне вероятно, что программа рассавила их с целью увеличения веса выравнивания. Заметим, что перемещение этих гэпов не приведет к нахождению консервативных и полуконсервативных позиций, значит, при выравнивании вручную мы могли бы поставить их в любом месте указанных "недостоверных" участков, а значит, сложно говорить о наличии или отсутствии мутации в каком-либо определенном месте.
Поскольку участков выравнивания с гэпами немного, а возможность утери ДНК шести нуклеотидов довольно вероятна, выравнивание вполне биологически обосновано и дает представление о большом количестве особенностей выбранных гомологичных белков.

Мной также были выполнены дополнительные задания.


©Andreeva_2008