Занятие 3. Программа BLASTP.
Задание 1. Поиск гипотетических гомологов изучаемого белка NadB_Ecoli в разных БД
При помощи программы BLASTP я провела поиск гомологов моего в банках Swiss-Prot, PDB и "nr". Результаты поиска представлены в следующей таблице:
Результаты поиска гипотетических гомологов белка NadB_Ecoli.
|
Поиск по БД Swiss-Prot |
Поиск по БД PDB |
Поиск по БД "nr" |
1. Лучшая находка |
Идентификатор БД |
NADB_ECOLI |
1CHU цепь А |
NP_417069.1 |
E-value |
0.0 |
0.0 |
0.0 |
Вес (в битах) |
1121 |
1119 |
1121 |
% идентичности |
100% |
99% |
100% |
Найдены ли другие белки с теми же значениями E-value и веса в битах?
Если найдены, то укажите общее число и приведите один идентификатор (любой, но желательно Swiss-Prot ID) |
нет |
1KNP цепь A, 1KNR цепь А (NadB_Ecoli) (E-value тот же, но вес немного отличается - 1116) |
С такими же значениями E-value найдено 212 записей, но записей с весом как у NP_417069.1 среди них нет. |
2. Сколько хороших кандидатов в гомологи найдено?
(число находок в списке описаний, Descriptions,
с E-value < 1E-10)
| 80 (без учета Nadb_Ecoli) |
28 (без учета лучшей находки) |
2562 (без учета лучшей находки) |
3.
"Худшая" находка (последняя в выдаче с E-value < 1)
|
Номер находки в списке описаний (Descriptions) |
81 |
38 |
2981 |
Идентификатор БД |
FRDA_SHEON
|
2GAG цепь B |
CAK95887.1 |
E-value |
6*10-19 |
0.46 |
0,99 |
Вес (в битах) |
95,9 |
32,3 |
39,3 |
% идентичности |
28% |
40% |
22% |
% сходства |
40% |
53% |
37% |
Длина выравнивания |
437 |
47 |
382 |
Координаты выравнивания (номера первых и последних а.о.) |
Последовательности находки: 32-399, последовательности белка NADB_ECOLI: 175-582 |
Последовательности находки: 2-45, последовательности белка NADB_ECOLI: 15-61 |
Последовательности находки: 160-514, последовательности белка NADB_ECOLI: 1-347 |
% гэпов
| 22% |
6% |
16% |
Белок NadB_Ecoli (AC P10902) был найден в банках Swiss-Prot и "nr", а его структура в банке PDB (1CHU). При сравнении параметров выравнивания моего белка с самим собой при поиске по разным БД я обнаружила, что различия в выравнивании есть только в банке PDB,
где процент идентичности составил 99% и вес с битах - 1119 ( в Swiss-Prot и "nr" соответственно 100% и 1121 бит). Связано это с возможной мутацией - заменой серина на треонин в 161 позиции выравнивания:
Query 121 EGGHSHRRILHAADATGREVETTLVSKALNHPNIRVLERSNAVDLIVSDKIGLPGTRRVV 180
EGGHSHRRILHAADATGREVETTLVSKALNHPNIRVLER+NAVDLIVSDKIGLPGTRRVV
Sbjct 121 EGGHSHRRILHAADATGREVETTLVSKALNHPNIRVLERTNAVDLIVSDKIGLPGTRRVV 180
Интересно, что из предыдущих работ было известно, что мой белок кроме PDB-файла 1CHU имеет также 1KNP и 1KNR, однако их вес в битах меньше (1119 против 1116).
Число найденных потенциальных гомологов в данных БД оказалось различным. Это связано с объемами банков: больше всего гомологов (2562) в банке nr, имеющем наибольший объем, меньше всего (28) в PDB.
PDB содержит третичные структуры белков, и поскольку выделить ее на данный момент получается далеко не у всех белков, это относительно небольшой банк.
"Худшие" находки при поиске по разным БД не совпадают, это также связано с объемами банков. Самое меньшее E-value у находки из SwissProt; оно меньше значений E-value других находок на 18 и 19 порядков.
В связи с этим можно предположить, что это самая лучшая находка из "худших".
Задание 2.Поиск гипотетических гомологов изучаемого белка NadB_Ecoli с фильтром по таксонам
2. Задача заключалась в поиске лучшего гомолога для моего белка в организмах таксона, филогенетически как можно более далекого от E. coli. Для исследования предлагались следующие таксоны: Homo sapiens, Archaea, Actinobacteria, Alteromonadales, Vibrionaceae.
Гипотетический гомолог рассматривался под критерием E-value<0,001. В результате первого запроса с указанием таксона "Homo sapiens" по Swiss-Prot был найден 1 возможный гомолог с E-value= 7*10-46.
Описание найденного гипотетического гомолога в организме человека.
Номер находки в списке описаний (Descriptions) |
1 |
Идентификатор БД |
DHSA_HUMAN |
E-value |
7*10-46 |
Вес (в битах) |
181 |
% идентичности |
31% |
% сходства |
46% |
Длина выравнивания |
516 |
Координаты выравнивания (номера первых и последних а.о.) |
Последовательности белка NADB_ECOLI: 42-519, последовательности белка DHSA_HUMAN: 175-597 |
% гэпов
| 10% |
Задание 3. Поиск белка по его фрагменту.
При помощи BLASTP в SwissProt для данного фрагмента:
>seq2
GGVPFDKEEDSDNDHPRYHLT
было найдено почти 1000 белков. Лучшей находкой оказался белок NADB_VIBCH (AC Q9KPA4) с E-value=2*10-13.
Его последовательность в формате .fasta можно посмотреть здесь.
Затем я провела поиск полной полученной последовательности в Swiss-Prot. Результаты обоих поисков представлены в следующей таблице:
Результаты поиска белка в Swiss-Prot по фрагменту последовательности и по полной последовательности.
|
Поиск по фрагменту |
Поиск по полной последовательности |
АС лучшей находки |
Q9KPA4 |
Q9KPA4 |
E-value |
2*10-13 |
0.0 |
Вес (в битах) |
72,3 |
1122 |
Найдены ли другие белки с теми же значениями E-value и веса в битах?
|
нет |
нет |
Различия между результатами поиска по полной последовательности и по ее фрагменту произошли из-за того,
что длина фрагмента гораздо меньше длины последовательности, и веc выравнивания, соответственно,
в первом случае также будет меньше.
Значение E-value зависит от длины и веса выравнивания
(вычисляется по формуле E=l*N*K*e-λS, где l-длина выравнивания, S - его вес), и в случае хороших гомологов
при увеличении длины вес также будет расти, в результате при расчете он будет влиять гораздо сильнее, чем длина.
Следовательно, E-value для фрагмента больше, чем для полной последовательности, что и заметно из предыдущей таблицы.
Выравнивание белков NadB_Vibch и NadB_Ecoli:
Query 1 MNADREHQCDVLVIGSGAAGLSLALQVAQYGKVIVLSKGPRSEGATFYAQGGIAAVFDES 60
MN EH CDVL+IGSGAAGLSLAL++A +VIVLSKGP +EG+TFYAQGGIAAVFDE+
Sbjct 1 MNTLPEHSCDVLIIGSGAAGLSLALRLADQHQVIVLSKGPVTEGSTFYAQGGIAAVFDET 60
Query 61 DSIESHVQDTLIAGAGICDEQTVRFIAEHAKECVQWLIDGGVPFDKEEDSDNDHPRYHLT 120
DSI+SHV+DTLIAGAGICD V F+A +A+ CVQWLID GV FD N YHLT
Sbjct 61 DSIDSHVEDTLIAGAGICDRHAVEFVASNARSCVQWLIDQGVLFDTHIQP-NGEESYHLT 119
Query 121 REGGHSHRRILHAADATGMAMQTSLQDNAHNHPNITVLERHNALDLITEDKIG-GDANKV 179
REGGHSHRRILHAADATG ++T+L A NHPNI VLER NA+DLI DKIG +V
Sbjct 120 REGGHSHRRILHAADATGREVETTLVSKALNHPNIRVLERSNAVDLIVSDKIGLPGTRRV 179
Query 180 VGAYVWNRNAEHVETIRAKFVVLATGGASKVYQYTSNPDVSSGDGIAMAWRAGCRVANLE 239
VGA+VWNRN E VET AK VVLATGGASKVYQYT+NPD+SSGDGIAMAWRAGCRVANLE
Sbjct 180 VGAWVWNRNKETVETCHAKAVVLATGGASKVYQYTTNPDISSGDGIAMAWRAGCRVANLE 239
Query 240 FNQFHPTCLYHPEARNFLLTEALRGEGAYLRRPDGSRFMPDFDERAELAPRDIVARAIDF 299
FNQFHPT LYHP+ARNFLLTEALRGEGAYL+RPDG+RFMPDFDER ELAPRDIVARAID
Sbjct 240 FNQFHPTALYHPQARNFLLTEALRGEGAYLKRPDGTRFMPDFDERGELAPRDIVARAIDH 299
Query 300 EMKRLGADCMYLDISHKPADFIEKHFPTIYSRLMDLGIDMTKEPIPIVPAAHYTCGGVMV 359
EMKRLGADCM+LDISHKPADFI +HFP IY +L+ LGID+T+EP+PIVPAAHYTCGGVMV
Sbjct 300 EMKRLGADCMFLDISHKPADFIRQHFPMIYEKLLGLGIDLTQEPVPIVPAAHYTCGGVMV 359
Query 360 NPQGQTDLKQLYAIGEVSYTGLHGANRMASNSLLECVVYAWSASQDIIAQLPNASMPESL 419
+ G+TD++ LYAIGEVSYTGLHGANRMASNSLLEC+VY WSA++DI ++P A +L
Sbjct 360 DDHGRTDVEGLYAIGEVSYTGLHGANRMASNSLLECLVYGWSAAEDITRRMPYAHDISTL 419
Query 420 PAWDESQVTCSDEEVVLQHNWHELRLFMWDYMGIVRTNKRLERAMRRIQLLQQETHEYYS 479
P WDES+V DE VV+QHNWHELRLFMWDY+GIVRT KRLERA+RRI +LQQE EYY+
Sbjct 420 PPWDESRVENPDERVVIQHNWHELRLFMWDYVGIVRTTKRLERALRRITMLQQEIDEYYA 479
Query 480 NFRVSNNLLEMRNLLQVAELMVRCAMQRKESRGLHYTLDYPDQLAESGPTILVP 533
+FRVSNNLLE+RNL+QVAEL+VRCAM RKESRGLH+TLDYP+ L SGP+IL P
Sbjct 480 HFRVSNNLLELRNLVQVAELIVRCAMMRKESRGLHFTLDYPELLTHSGPSILSP 533
Query - последовательность белка NadB_Vibch, Sbjct - последовательность белка NadB_Ecoli.
Красным отмечены те фрагменты, которые я сравнивала с помощью GeneDoc (координаты фрагмента из NadB_Ecoli:101-119 а.о.; из NadB_Vibch:100-120 а.о.).
Мое пробное выравнивание представлено ниже:

где seq1 - последовательность белка NadB_Ecoli, seq2- последовательность белка NadB_Vibch
Как видно полученные выравнивания отличаются только разным расположением гэпа (в моем выравнивании он расположен между аспарагиновой кислотой 105 и треонином 106 в последовательности NadB_Ecoli,
а в выравнивании, выданном BLASTP, между пролином 110 и аспарагином 111 в той же последовательности).
Задание 4. Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями.
Параметры, используемые BLAST для вычисления функции Score (вес):
· штраф за создание гэпа - 11
· штраф за удлинение гэпа - 1
Оптимальное глобальное выравнивание двух последовательностей при стандартных параметрах, используемых в BLASTP, было найдено программой пакета EMBOSS needle и сохранено в следующем файле globalaln.needle.
NADB_ECOLI 1 MNTLPEHSCDVLIIGSGAAGLSLALRLADQHQVIVLSKGPVTEGSTFYAQ 50
||...||.||||:||||||||||||::|...:||||||||.:||:|||||
NADB_VIBCH 1 MNADREHQCDVLVIGSGAAGLSLALQVAQYGKVIVLSKGPRSEGATFYAQ 50
NADB_ECOLI 51 GGIAAVFDETDSIDSHVEDTLIAGAGICDRHAVEFVASNARSCVQWLIDQ 100
|||||||||:|||:|||:|||||||||||...|.|:|.:|:.|||||||.
NADB_VIBCH 51 GGIAAVFDESDSIESHVQDTLIAGAGICDEQTVRFIAEHAKECVQWLIDG 100
NADB_ECOLI 101 GVLFD-THIQPNGEESYHLTREGGHSHRRILHAADATGREVETTLVSKAL 149
||.|| .....|....||||||||||||||||||||||..::|:|...|.
NADB_VIBCH 101 GVPFDKEEDSDNDHPRYHLTREGGHSHRRILHAADATGMAMQTSLQDNAH 150
NADB_ECOLI 150 NHPNIRVLERSNAVDLIVSDKIGLPGTRRVVGAWVWNRNKETVETCHAKA 199
|||||.||||.||:|||..|||| ....:||||:|||||.|.|||..||.
NADB_VIBCH 151 NHPNITVLERHNALDLITEDKIG-GDANKVVGAYVWNRNAEHVETIRAKF 199
NADB_ECOLI 200 VVLATGGASKVYQYTTNPDISSGDGIAMAWRAGCRVANLEFNQFHPTALY 249
|||||||||||||||:|||:|||||||||||||||||||||||||||.||
NADB_VIBCH 200 VVLATGGASKVYQYTSNPDVSSGDGIAMAWRAGCRVANLEFNQFHPTCLY 249
NADB_ECOLI 250 HPQARNFLLTEALRGEGAYLKRPDGTRFMPDFDERGELAPRDIVARAIDH 299
||:|||||||||||||||||:||||:|||||||||.|||||||||||||.
NADB_VIBCH 250 HPEARNFLLTEALRGEGAYLRRPDGSRFMPDFDERAELAPRDIVARAIDF 299
NADB_ECOLI 300 EMKRLGADCMFLDISHKPADFIRQHFPMIYEKLLGLGIDLTQEPVPIVPA 349
||||||||||:|||||||||||.:|||.||.:|:.||||:|:||:|||||
NADB_VIBCH 300 EMKRLGADCMYLDISHKPADFIEKHFPTIYSRLMDLGIDMTKEPIPIVPA 349
NADB_ECOLI 350 AHYTCGGVMVDDHGRTDVEGLYAIGEVSYTGLHGANRMASNSLLECLVYG 399
||||||||||:..|:||::.||||||||||||||||||||||||||:||.
NADB_VIBCH 350 AHYTCGGVMVNPQGQTDLKQLYAIGEVSYTGLHGANRMASNSLLECVVYA 399
NADB_ECOLI 400 WSAAEDITRRMPYAHDISTLPPWDESRVENPDERVVIQHNWHELRLFMWD 449
|||::||..::|.|....:||.||||:|...||.||:|||||||||||||
NADB_VIBCH 400 WSASQDIIAQLPNASMPESLPAWDESQVTCSDEEVVLQHNWHELRLFMWD 449
NADB_ECOLI 450 YVGIVRTTKRLERALRRITMLQQEIDEYYAHFRVSNNLLELRNLVQVAEL 499
|:|||||.||||||:|||.:||||..|||::|||||||||:|||:|||||
NADB_VIBCH 450 YMGIVRTNKRLERAMRRIQLLQQETHEYYSNFRVSNNLLEMRNLLQVAEL 499
NADB_ECOLI 500 IVRCAMMRKESRGLHFTLDYPELLTHSGPSILSPGNHYINR 540
:|||||.||||||||:|||||:.|..|||:||.|..
NADB_VIBCH 500 MVRCAMQRKESRGLHYTLDYPDQLAESGPTILVPEK----- 535
Оптимальное локальное выравнивание двух последовательностей при стандартных параметрах, используемых в BLASTP, было найдено программой пакета EMBOSS water и сохранено в следующем файле localaln.water.
NADB_ECOLI 1 MNTLPEHSCDVLIIGSGAAGLSLALRLADQHQVIVLSKGPVTEGSTFYAQ 50
||...||.||||:||||||||||||::|...:||||||||.:||:|||||
NADB_VIBCH 1 MNADREHQCDVLVIGSGAAGLSLALQVAQYGKVIVLSKGPRSEGATFYAQ 50
NADB_ECOLI 51 GGIAAVFDETDSIDSHVEDTLIAGAGICDRHAVEFVASNARSCVQWLIDQ 100
|||||||||:|||:|||:|||||||||||...|.|:|.:|:.|||||||.
NADB_VIBCH 51 GGIAAVFDESDSIESHVQDTLIAGAGICDEQTVRFIAEHAKECVQWLIDG 100
NADB_ECOLI 101 GVLFD-THIQPNGEESYHLTREGGHSHRRILHAADATGREVETTLVSKAL 149
||.|| .....|....||||||||||||||||||||||..::|:|...|.
NADB_VIBCH 101 GVPFDKEEDSDNDHPRYHLTREGGHSHRRILHAADATGMAMQTSLQDNAH 150
NADB_ECOLI 150 NHPNIRVLERSNAVDLIVSDKIGLPGTRRVVGAWVWNRNKETVETCHAKA 199
|||||.||||.||:|||..|||| ....:||||:|||||.|.|||..||.
NADB_VIBCH 151 NHPNITVLERHNALDLITEDKIG-GDANKVVGAYVWNRNAEHVETIRAKF 199
NADB_ECOLI 200 VVLATGGASKVYQYTTNPDISSGDGIAMAWRAGCRVANLEFNQFHPTALY 249
|||||||||||||||:|||:|||||||||||||||||||||||||||.||
NADB_VIBCH 200 VVLATGGASKVYQYTSNPDVSSGDGIAMAWRAGCRVANLEFNQFHPTCLY 249
NADB_ECOLI 250 HPQARNFLLTEALRGEGAYLKRPDGTRFMPDFDERGELAPRDIVARAIDH 299
||:|||||||||||||||||:||||:|||||||||.|||||||||||||.
NADB_VIBCH 250 HPEARNFLLTEALRGEGAYLRRPDGSRFMPDFDERAELAPRDIVARAIDF 299
NADB_ECOLI 300 EMKRLGADCMFLDISHKPADFIRQHFPMIYEKLLGLGIDLTQEPVPIVPA 349
||||||||||:|||||||||||.:|||.||.:|:.||||:|:||:|||||
NADB_VIBCH 300 EMKRLGADCMYLDISHKPADFIEKHFPTIYSRLMDLGIDMTKEPIPIVPA 349
NADB_ECOLI 350 AHYTCGGVMVDDHGRTDVEGLYAIGEVSYTGLHGANRMASNSLLECLVYG 399
||||||||||:..|:||::.||||||||||||||||||||||||||:||.
NADB_VIBCH 350 AHYTCGGVMVNPQGQTDLKQLYAIGEVSYTGLHGANRMASNSLLECVVYA 399
NADB_ECOLI 400 WSAAEDITRRMPYAHDISTLPPWDESRVENPDERVVIQHNWHELRLFMWD 449
|||::||..::|.|....:||.||||:|...||.||:|||||||||||||
NADB_VIBCH 400 WSASQDIIAQLPNASMPESLPAWDESQVTCSDEEVVLQHNWHELRLFMWD 449
NADB_ECOLI 450 YVGIVRTTKRLERALRRITMLQQEIDEYYAHFRVSNNLLELRNLVQVAEL 499
|:|||||.||||||:|||.:||||..|||::|||||||||:|||:|||||
NADB_VIBCH 450 YMGIVRTNKRLERAMRRIQLLQQETHEYYSNFRVSNNLLEMRNLLQVAEL 499
NADB_ECOLI 500 IVRCAMMRKESRGLHFTLDYPELLTHSGPSILSP 533
:|||||.||||||||:|||||:.|..|||:||.|
NADB_VIBCH 500 MVRCAMQRKESRGLHYTLDYPDQLAESGPTILVP 533
Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями.
|
BLASTP |
needle |
water |
Вес |
2177 |
2125 |
2127 |
Длина выравнивания |
534 |
541 |
534 |
% идентичности |
75% (403/534) |
74,5% (403/541) |
75,5% (403/534) |
% сходства |
85% (456/534) |
84,3% (456,541) |
85,4% (456/534) |
% гэпов
0% (2/534) |
1,3% (7/541) |
0,4% (2/534) |
·Из таблицы можно сделать вывод, что выравнивание, сделанное BLASTP, совпадает с оптимальным локальным выравниванием
(различия в 0,5% связаны с тем, что BLASTP округляет значения).
Это происходит из-за того, что при расчете веса вравнивания в BLASTP используется матрица специализированная матрица
BLOSUM62 (т.е. матрица строится на основе BLOSUM62, но с учетом особенностей аминокислотного состава исходного белка), a в water обычная.
·Выравнивание, сделанное BLASTP, включает остатки от 1 до 533 в последовательности NadB_Ecoli и остатки от 1 до 533 в последовательности NadB_Vibch, все сопоставления в этом диапазоне те же, что и у глобального выравнивания, кроме одного участка, где гэп расположен на 105 позиции в последовательности NadB_Ecoli (как в моем пробном выравнивании, см.выше), в то время как в первом выравнивании этот гэп находится на 110 позиции.
Однако существенного влияние на значения выравнивания это не оказывает. Но глобальное выравнивание включает в себя остатки от 1 до 540 в последовательности NadB_Ecoli и остатки от 1 до 535 в последовательности NadB_Vibch, т.е. длина этого выравнивания больше. В связи с этим проиходят различия между двумя выравниваниями.
|
|