Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://kodomo.cmm.msu.ru/~mikhail88/term2/blast.html
Дата изменения: Mon Apr 3 18:10:30 2006 Дата индексирования: Tue Oct 2 09:38:03 2012 Кодировка: Windows-1251 |
Главная страница > Второй семестр > Работа с программой BLASTP
Был проведен поиск последовательностей, сходных с GLMS E.coli, в банке данных SwissProt
(поиск осуществлялся с помощью программы BLASTP, использовалась матрица замен аминокислотных остатков BLOSUM62). В выдаче программы
порядковый номер GLMS E.coli равен 1, вес выравнивания составляет 1160 бит (3001), E-value равно 0. Вес выравнивания входной последовательности с остальными находками
меньше 1160 бит (программа не выявила ни одного белка, полностью идентичного GLMS E.coli).
Кроме того, был осуществлен поиск последовательностей, сходных с GLMS E.coli, в банке данных PDB. PDB-код первой в списке находки 2BPJ (цепи A и B); вес выравнивания составляет 1160 бит (3001), E-value равно 0. Входная последовательность
и находка послностью идентичны: начало и конец выравнивания для каждой последовательности соответствует первому и последнему аминокислотным остаткам (с номерами 1 и 608), процент совпадений составляет 100%. Следовательно, 2BPJ представляет собой трехмерную структуру GLMS E.coli.
Был осуществлен поиск последовательности GLMS E.coli по последовательности его гомолога GLMS Thiobacillus ferrooxidans в банке данных SwissProt
(использовалась программа BLASTP, матрица замен BLOSUM62, Gap Existence Penalty = 11, Gap Extension Penalty = 1). В выдаче программы
порядковый номер белка GLMS E.coli равен 18, вес выравнивания составляет 587 бит (1513), E-value равно 4*10167. Достаточно низкое значение E-value свидетельствует о высокой степени гомологии последовательностей
GLMS E.coli и GLMS T.ferrooxidans. В выравнивании номера начального и конечного аминокислотных остатков
входной последовательности равны 1 и 610, номера начального и конечного аминокислотных остатков находки 2 и 609; процент
совпадений составляет 52%.
Находка с порядковым номером 1 представляет собой последовательность белка, поданного на вход (GLMS T. ferrooxidans).
Был проведен поиск последовательности GLMS E.coli по искусственной последовательости, составленной из двух его фрагментов, в банке данных SwissProt
(использовалась программа BLASTP, матрица замен BLOSUM62, Gap Existence Penalty = 11, Gap Extension Penalty = 1). В выдаче программы
порядковый номер GLMS E.coli равен 10, вес выравнивания составляет 32.7 бит (73), E-value равно 0.25. В выравнивании номера начального и конечного аминокислотных остатков
входной последовательности равны 1 и 12, номера начального и конечного аминокислотных остатков находки 72 и 83; процент
совпадений составляет 100%.
Следует отметить, что программа BLASTP выровняла только один из двух совпадающих фрагментов искусственной последовательности и последовательности GLMS E.coli.
В связи с этим первыми в выдаче идут те белки, у которых несколько аминокислотных остатков, следующих за первым совпадающим фрагментом,
похожи на первые аминокислотные остатки второго совпадающего фрагмента (сходство обусловлено случайными совпадениями). Подробнее о причинах таких ошибок
см. "Программы построения глобального и локального выравнивания", раздел "Выравнивание последовательностей, содержащих общие участки".
Ошибка может быть исправлена путем уменьшения Gap Extension Penalty. К сожалению,
ни один из интерфейсов не позволяет провести поиск при значениях Gap Extension Penalty, меньших единицы.
Поиск последовательностей, сходных с GLMS E.coli, был повторен с использованием
интерфейсов EBI и Пастеровского
института. Наиболее существенные особенности каждого из них, а
также интерфейса NCBI, приведены ниже.
Интерфейс NCBI
Интерфейс EBI
В целом наиболее удачным я считаю интерфейс EBI, который и использовал для выполнения последнего задания.
Интерфейс Пастеровского института
С помощью программы BLASTP был проведен поиск последовательностей, сходных с последовательностью RbsR Bacillus subtilis
(использовалась матрица замен BLOSUM62, Gap Existence Penalty = 11, Gap Extension Penalty = 1). Среди первых 20-ти находок в названии шести (включая RbsR B.subtilis) стоит
слово RbsR (из 19-ти белков пять оказались ортологами белка, который был подан на вход). Остальные 14 находок представляют собой ДНК-связывающие белки различных организмов (в том числе и B.subtilis, см. табл. 1). Так как их последовательности
сходны с последовательностью RbsR B.subtilis, можно предположить, что они являются паралогами белка, который был подан на вход (то есть возникли в результате
дупликации гена из общего предшественника в одном организме, один из белков продолжил выполнять исходную функцию, а другой под действием случайных мутаций
был модифицирован для выполнения другой функции). По-видимому, белок-предшественник содержал ДНК-связывающий домен, так как все найденные паралоги
представляют собой репрессоры различных оперонов (то есть в результате модификации происходила замена тех аминокислотных остатков, которые отвечают
за узнавание конкретной последовательности ДНК).
Таким образом, программа BLASTP представляет собой инструмент для поиска гомологов входных последовательностей. Среди находок
встречаются как ортологи, так и паралоги, причем BLASTP не дает возможности их различать. Следовательно, для того, чтобы осуществить поиск ортологов, необходимо
иметь критерий, который позволит выделить их среди всех найденных гомологов (в данном случае критерием являлось присутствие в названии белка слова RbsR).
Таблица 1. Последовательности, сходные с RbsR B.subtilis (приведены первые 20 находок программы BLASTP; каждая строка соответствует группе ортологов; белки, находящиеся на разных строках, являются паралогами).
|
|
|
|
|
|
|
|
|
|
|
|
|
|
© Куравский Михаил Львович, 2006