Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~ipoverennaya/blastp.html
Дата изменения: Mon May 25 18:10:48 2009
Дата индексирования: Tue Oct 2 03:27:57 2012
Кодировка: Windows-1251
BLASTP

Занятие 3. Программа BLASTP.

Задание 1. Поиск гипотетических гомологов изучаемого белка NadB_Ecoli в разных БД
При помощи программы BLASTP я провела поиск гомологов моего в банках Swiss-Prot, PDB и "nr". Результаты поиска представлены в следующей таблице:
Результаты поиска гипотетических гомологов белка NadB_Ecoli.
  Поиск по БД Swiss-Prot Поиск по БД PDB Поиск по БД "nr"
1. Лучшая находка
Идентификатор БД NADB_ECOLI 1CHU цепь А NP_417069.1
E-value 0.0 0.0 0.0
Вес (в битах) 1121 1119 1121
% идентичности 100% 99% 100%
Найдены ли другие белки с теми же значениями E-value и веса в битах?
Если найдены, то укажите общее число и приведите один идентификатор (любой, но желательно Swiss-Prot ID)
нет 1KNP цепь A, 1KNR цепь А (NadB_Ecoli) (E-value тот же, но вес немного отличается - 1116) С такими же значениями E-value найдено 212 записей, но записей с весом как у NP_417069.1 среди них нет.
2. Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний, Descriptions, с E-value < 1E-10) 80 (без учета Nadb_Ecoli) 28 (без учета лучшей находки) 2562 (без учета лучшей находки)
3. "Худшая" находка (последняя в выдаче с E-value < 1)
Номер находки в списке описаний (Descriptions) 81 38 2981
Идентификатор БД FRDA_SHEON 2GAG цепь B CAK95887.1
E-value 6*10-19 0.46 0,99
Вес (в битах) 95,9 32,3 39,3
% идентичности 28% 40% 22%
% сходства 40% 53% 37%
Длина выравнивания 437 47 382
Координаты выравнивания (номера первых и последних а.о.) Последовательности находки: 32-399, последовательности белка NADB_ECOLI: 175-582 Последовательности находки: 2-45, последовательности белка NADB_ECOLI: 15-61 Последовательности находки: 160-514, последовательности белка NADB_ECOLI: 1-347
% гэпов 22% 6% 16%
Белок NadB_Ecoli (AC P10902) был найден в банках Swiss-Prot и "nr", а его структура в банке PDB (1CHU). При сравнении параметров выравнивания моего белка с самим собой при поиске по разным БД я обнаружила, что различия в выравнивании есть только в банке PDB, где процент идентичности составил 99% и вес с битах - 1119 ( в Swiss-Prot и "nr" соответственно 100% и 1121 бит). Связано это с возможной мутацией - заменой серина на треонин в 161 позиции выравнивания:
Query  121  EGGHSHRRILHAADATGREVETTLVSKALNHPNIRVLERSNAVDLIVSDKIGLPGTRRVV  180
            EGGHSHRRILHAADATGREVETTLVSKALNHPNIRVLER+NAVDLIVSDKIGLPGTRRVV
Sbjct  121  EGGHSHRRILHAADATGREVETTLVSKALNHPNIRVLERTNAVDLIVSDKIGLPGTRRVV  180

Интересно, что из предыдущих работ было известно, что мой белок кроме PDB-файла 1CHU имеет также 1KNP и 1KNR, однако их вес в битах меньше (1119 против 1116). Число найденных потенциальных гомологов в данных БД оказалось различным. Это связано с объемами банков: больше всего гомологов (2562) в банке nr, имеющем наибольший объем, меньше всего (28) в PDB. PDB содержит третичные структуры белков, и поскольку выделить ее на данный момент получается далеко не у всех белков, это относительно небольшой банк.
"Худшие" находки при поиске по разным БД не совпадают, это также связано с объемами банков. Самое меньшее E-value у находки из SwissProt; оно меньше значений E-value других находок на 18 и 19 порядков. В связи с этим можно предположить, что это самая лучшая находка из "худших".
Задание 2.Поиск гипотетических гомологов изучаемого белка NadB_Ecoli с фильтром по таксонам
2. Задача заключалась в поиске лучшего гомолога для моего белка в организмах таксона, филогенетически как можно более далекого от E. coli. Для исследования предлагались следующие таксоны: Homo sapiens, Archaea, Actinobacteria, Alteromonadales, Vibrionaceae. Гипотетический гомолог рассматривался под критерием E-value<0,001. В результате первого запроса с указанием таксона "Homo sapiens" по Swiss-Prot был найден 1 возможный гомолог с E-value= 7*10-46.
Описание найденного гипотетического гомолога в организме человека.
Номер находки в списке описаний (Descriptions) 1
Идентификатор БД DHSA_HUMAN
E-value 7*10-46
Вес (в битах) 181
% идентичности 31%
% сходства 46%
Длина выравнивания 516
Координаты выравнивания (номера первых и последних а.о.) Последовательности белка NADB_ECOLI: 42-519, последовательности белка DHSA_HUMAN: 175-597
% гэпов 10%
Задание 3. Поиск белка по его фрагменту.
При помощи BLASTP в SwissProt для данного фрагмента:
>seq2
GGVPFDKEEDSDNDHPRYHLT 
было найдено почти 1000 белков. Лучшей находкой оказался белок NADB_VIBCH (AC Q9KPA4) с E-value=2*10-13. Его последовательность в формате .fasta можно посмотреть здесь.
Затем я провела поиск полной полученной последовательности в Swiss-Prot. Результаты обоих поисков представлены в следующей таблице:
Результаты поиска белка в Swiss-Prot по фрагменту последовательности и по полной последовательности.
  Поиск по фрагменту Поиск по полной
последовательности
АС лучшей находки Q9KPA4 Q9KPA4
E-value 2*10-13 0.0
Вес (в битах) 72,3 1122
Найдены ли другие белки с теми же значениями E-value и веса в битах?
нет нет
Различия между результатами поиска по полной последовательности и по ее фрагменту произошли из-за того, что длина фрагмента гораздо меньше длины последовательности, и веc выравнивания, соответственно, в первом случае также будет меньше. Значение E-value зависит от длины и веса выравнивания (вычисляется по формуле E=l*N*K*e-λS, где l-длина выравнивания, S - его вес), и в случае хороших гомологов при увеличении длины вес также будет расти, в результате при расчете он будет влиять гораздо сильнее, чем длина. Следовательно, E-value для фрагмента больше, чем для полной последовательности, что и заметно из предыдущей таблицы.
Выравнивание белков NadB_Vibch и NadB_Ecoli:
Query  1    MNADREHQCDVLVIGSGAAGLSLALQVAQYGKVIVLSKGPRSEGATFYAQGGIAAVFDES  60
            MN   EH CDVL+IGSGAAGLSLAL++A   +VIVLSKGP +EG+TFYAQGGIAAVFDE+
Sbjct  1    MNTLPEHSCDVLIIGSGAAGLSLALRLADQHQVIVLSKGPVTEGSTFYAQGGIAAVFDET  60

Query  61   DSIESHVQDTLIAGAGICDEQTVRFIAEHAKECVQWLIDGGVPFDKEEDSDNDHPRYHLT  120
            DSI+SHV+DTLIAGAGICD   V F+A +A+ CVQWLID GV FD      N    YHLT
Sbjct  61   DSIDSHVEDTLIAGAGICDRHAVEFVASNARSCVQWLIDQGVLFDTHIQP-NGEESYHLT  119

Query  121  REGGHSHRRILHAADATGMAMQTSLQDNAHNHPNITVLERHNALDLITEDKIG-GDANKV  179
            REGGHSHRRILHAADATG  ++T+L   A NHPNI VLER NA+DLI  DKIG     +V
Sbjct  120  REGGHSHRRILHAADATGREVETTLVSKALNHPNIRVLERSNAVDLIVSDKIGLPGTRRV  179

Query  180  VGAYVWNRNAEHVETIRAKFVVLATGGASKVYQYTSNPDVSSGDGIAMAWRAGCRVANLE  239
            VGA+VWNRN E VET  AK VVLATGGASKVYQYT+NPD+SSGDGIAMAWRAGCRVANLE
Sbjct  180  VGAWVWNRNKETVETCHAKAVVLATGGASKVYQYTTNPDISSGDGIAMAWRAGCRVANLE  239

Query  240  FNQFHPTCLYHPEARNFLLTEALRGEGAYLRRPDGSRFMPDFDERAELAPRDIVARAIDF  299
            FNQFHPT LYHP+ARNFLLTEALRGEGAYL+RPDG+RFMPDFDER ELAPRDIVARAID 
Sbjct  240  FNQFHPTALYHPQARNFLLTEALRGEGAYLKRPDGTRFMPDFDERGELAPRDIVARAIDH  299

Query  300  EMKRLGADCMYLDISHKPADFIEKHFPTIYSRLMDLGIDMTKEPIPIVPAAHYTCGGVMV  359
            EMKRLGADCM+LDISHKPADFI +HFP IY +L+ LGID+T+EP+PIVPAAHYTCGGVMV
Sbjct  300  EMKRLGADCMFLDISHKPADFIRQHFPMIYEKLLGLGIDLTQEPVPIVPAAHYTCGGVMV  359

Query  360  NPQGQTDLKQLYAIGEVSYTGLHGANRMASNSLLECVVYAWSASQDIIAQLPNASMPESL  419
            +  G+TD++ LYAIGEVSYTGLHGANRMASNSLLEC+VY WSA++DI  ++P A    +L
Sbjct  360  DDHGRTDVEGLYAIGEVSYTGLHGANRMASNSLLECLVYGWSAAEDITRRMPYAHDISTL  419

Query  420  PAWDESQVTCSDEEVVLQHNWHELRLFMWDYMGIVRTNKRLERAMRRIQLLQQETHEYYS  479
            P WDES+V   DE VV+QHNWHELRLFMWDY+GIVRT KRLERA+RRI +LQQE  EYY+
Sbjct  420  PPWDESRVENPDERVVIQHNWHELRLFMWDYVGIVRTTKRLERALRRITMLQQEIDEYYA  479

Query  480  NFRVSNNLLEMRNLLQVAELMVRCAMQRKESRGLHYTLDYPDQLAESGPTILVP  533
            +FRVSNNLLE+RNL+QVAEL+VRCAM RKESRGLH+TLDYP+ L  SGP+IL P
Sbjct  480  HFRVSNNLLELRNLVQVAELIVRCAMMRKESRGLHFTLDYPELLTHSGPSILSP  533
Query - последовательность белка NadB_Vibch, Sbjct - последовательность белка NadB_Ecoli. Красным отмечены те фрагменты, которые я сравнивала с помощью GeneDoc (координаты фрагмента из NadB_Ecoli:101-119 а.о.; из NadB_Vibch:100-120 а.о.). Мое пробное выравнивание представлено ниже:

где seq1 - последовательность белка NadB_Ecoli, seq2- последовательность белка NadB_Vibch
  Как видно полученные выравнивания отличаются только разным расположением гэпа (в моем выравнивании он расположен между аспарагиновой кислотой 105 и треонином 106 в последовательности NadB_Ecoli, а в выравнивании, выданном BLASTP, между пролином 110 и аспарагином 111 в той же последовательности).
Задание 4. Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями.
Параметры, используемые BLAST для вычисления функции Score (вес):
  · штраф за создание гэпа - 11
  · штраф за удлинение гэпа - 1
Оптимальное глобальное выравнивание двух последовательностей при стандартных параметрах, используемых в BLASTP, было найдено программой пакета EMBOSS needle и сохранено в следующем файле globalaln.needle.
NADB_ECOLI         1 MNTLPEHSCDVLIIGSGAAGLSLALRLADQHQVIVLSKGPVTEGSTFYAQ     50
                     ||...||.||||:||||||||||||::|...:||||||||.:||:|||||
NADB_VIBCH         1 MNADREHQCDVLVIGSGAAGLSLALQVAQYGKVIVLSKGPRSEGATFYAQ     50

NADB_ECOLI        51 GGIAAVFDETDSIDSHVEDTLIAGAGICDRHAVEFVASNARSCVQWLIDQ    100
                     |||||||||:|||:|||:|||||||||||...|.|:|.:|:.|||||||.
NADB_VIBCH        51 GGIAAVFDESDSIESHVQDTLIAGAGICDEQTVRFIAEHAKECVQWLIDG    100

NADB_ECOLI       101 GVLFD-THIQPNGEESYHLTREGGHSHRRILHAADATGREVETTLVSKAL    149
                     ||.|| .....|....||||||||||||||||||||||..::|:|...|.
NADB_VIBCH       101 GVPFDKEEDSDNDHPRYHLTREGGHSHRRILHAADATGMAMQTSLQDNAH    150

NADB_ECOLI       150 NHPNIRVLERSNAVDLIVSDKIGLPGTRRVVGAWVWNRNKETVETCHAKA    199
                     |||||.||||.||:|||..|||| ....:||||:|||||.|.|||..||.
NADB_VIBCH       151 NHPNITVLERHNALDLITEDKIG-GDANKVVGAYVWNRNAEHVETIRAKF    199

NADB_ECOLI       200 VVLATGGASKVYQYTTNPDISSGDGIAMAWRAGCRVANLEFNQFHPTALY    249
                     |||||||||||||||:|||:|||||||||||||||||||||||||||.||
NADB_VIBCH       200 VVLATGGASKVYQYTSNPDVSSGDGIAMAWRAGCRVANLEFNQFHPTCLY    249

NADB_ECOLI       250 HPQARNFLLTEALRGEGAYLKRPDGTRFMPDFDERGELAPRDIVARAIDH    299
                     ||:|||||||||||||||||:||||:|||||||||.|||||||||||||.
NADB_VIBCH       250 HPEARNFLLTEALRGEGAYLRRPDGSRFMPDFDERAELAPRDIVARAIDF    299

NADB_ECOLI       300 EMKRLGADCMFLDISHKPADFIRQHFPMIYEKLLGLGIDLTQEPVPIVPA    349
                     ||||||||||:|||||||||||.:|||.||.:|:.||||:|:||:|||||
NADB_VIBCH       300 EMKRLGADCMYLDISHKPADFIEKHFPTIYSRLMDLGIDMTKEPIPIVPA    349

NADB_ECOLI       350 AHYTCGGVMVDDHGRTDVEGLYAIGEVSYTGLHGANRMASNSLLECLVYG    399
                     ||||||||||:..|:||::.||||||||||||||||||||||||||:||.
NADB_VIBCH       350 AHYTCGGVMVNPQGQTDLKQLYAIGEVSYTGLHGANRMASNSLLECVVYA    399

NADB_ECOLI       400 WSAAEDITRRMPYAHDISTLPPWDESRVENPDERVVIQHNWHELRLFMWD    449
                     |||::||..::|.|....:||.||||:|...||.||:|||||||||||||
NADB_VIBCH       400 WSASQDIIAQLPNASMPESLPAWDESQVTCSDEEVVLQHNWHELRLFMWD    449

NADB_ECOLI       450 YVGIVRTTKRLERALRRITMLQQEIDEYYAHFRVSNNLLELRNLVQVAEL    499
                     |:|||||.||||||:|||.:||||..|||::|||||||||:|||:|||||
NADB_VIBCH       450 YMGIVRTNKRLERAMRRIQLLQQETHEYYSNFRVSNNLLEMRNLLQVAEL    499

NADB_ECOLI       500 IVRCAMMRKESRGLHFTLDYPELLTHSGPSILSPGNHYINR    540
                     :|||||.||||||||:|||||:.|..|||:||.|..
NADB_VIBCH       500 MVRCAMQRKESRGLHYTLDYPDQLAESGPTILVPEK-----    535
Оптимальное локальное выравнивание двух последовательностей при стандартных параметрах, используемых в BLASTP, было найдено программой пакета EMBOSS water и сохранено в следующем файле localaln.water.
NADB_ECOLI         1 MNTLPEHSCDVLIIGSGAAGLSLALRLADQHQVIVLSKGPVTEGSTFYAQ     50
                     ||...||.||||:||||||||||||::|...:||||||||.:||:|||||
NADB_VIBCH         1 MNADREHQCDVLVIGSGAAGLSLALQVAQYGKVIVLSKGPRSEGATFYAQ     50

NADB_ECOLI        51 GGIAAVFDETDSIDSHVEDTLIAGAGICDRHAVEFVASNARSCVQWLIDQ    100
                     |||||||||:|||:|||:|||||||||||...|.|:|.:|:.|||||||.
NADB_VIBCH        51 GGIAAVFDESDSIESHVQDTLIAGAGICDEQTVRFIAEHAKECVQWLIDG    100

NADB_ECOLI       101 GVLFD-THIQPNGEESYHLTREGGHSHRRILHAADATGREVETTLVSKAL    149
                     ||.|| .....|....||||||||||||||||||||||..::|:|...|.
NADB_VIBCH       101 GVPFDKEEDSDNDHPRYHLTREGGHSHRRILHAADATGMAMQTSLQDNAH    150

NADB_ECOLI       150 NHPNIRVLERSNAVDLIVSDKIGLPGTRRVVGAWVWNRNKETVETCHAKA    199
                     |||||.||||.||:|||..|||| ....:||||:|||||.|.|||..||.
NADB_VIBCH       151 NHPNITVLERHNALDLITEDKIG-GDANKVVGAYVWNRNAEHVETIRAKF    199

NADB_ECOLI       200 VVLATGGASKVYQYTTNPDISSGDGIAMAWRAGCRVANLEFNQFHPTALY    249
                     |||||||||||||||:|||:|||||||||||||||||||||||||||.||
NADB_VIBCH       200 VVLATGGASKVYQYTSNPDVSSGDGIAMAWRAGCRVANLEFNQFHPTCLY    249

NADB_ECOLI       250 HPQARNFLLTEALRGEGAYLKRPDGTRFMPDFDERGELAPRDIVARAIDH    299
                     ||:|||||||||||||||||:||||:|||||||||.|||||||||||||.
NADB_VIBCH       250 HPEARNFLLTEALRGEGAYLRRPDGSRFMPDFDERAELAPRDIVARAIDF    299

NADB_ECOLI       300 EMKRLGADCMFLDISHKPADFIRQHFPMIYEKLLGLGIDLTQEPVPIVPA    349
                     ||||||||||:|||||||||||.:|||.||.:|:.||||:|:||:|||||
NADB_VIBCH       300 EMKRLGADCMYLDISHKPADFIEKHFPTIYSRLMDLGIDMTKEPIPIVPA    349

NADB_ECOLI       350 AHYTCGGVMVDDHGRTDVEGLYAIGEVSYTGLHGANRMASNSLLECLVYG    399
                     ||||||||||:..|:||::.||||||||||||||||||||||||||:||.
NADB_VIBCH       350 AHYTCGGVMVNPQGQTDLKQLYAIGEVSYTGLHGANRMASNSLLECVVYA    399

NADB_ECOLI       400 WSAAEDITRRMPYAHDISTLPPWDESRVENPDERVVIQHNWHELRLFMWD    449
                     |||::||..::|.|....:||.||||:|...||.||:|||||||||||||
NADB_VIBCH       400 WSASQDIIAQLPNASMPESLPAWDESQVTCSDEEVVLQHNWHELRLFMWD    449

NADB_ECOLI       450 YVGIVRTTKRLERALRRITMLQQEIDEYYAHFRVSNNLLELRNLVQVAEL    499
                     |:|||||.||||||:|||.:||||..|||::|||||||||:|||:|||||
NADB_VIBCH       450 YMGIVRTNKRLERAMRRIQLLQQETHEYYSNFRVSNNLLEMRNLLQVAEL    499

NADB_ECOLI       500 IVRCAMMRKESRGLHFTLDYPELLTHSGPSILSP    533
                     :|||||.||||||||:|||||:.|..|||:||.|
NADB_VIBCH       500 MVRCAMQRKESRGLHYTLDYPDQLAESGPTILVP    533
% гэпов
Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями.
  BLASTP needle water
Вес 2177 2125 2127
Длина выравнивания 534 541 534
% идентичности 75% (403/534) 74,5% (403/541) 75,5% (403/534)
% сходства 85% (456/534) 84,3% (456,541) 85,4% (456/534)
0% (2/534) 1,3% (7/541) 0,4% (2/534)

·Из таблицы можно сделать вывод, что выравнивание, сделанное BLASTP, совпадает с оптимальным локальным выравниванием (различия в 0,5% связаны с тем, что BLASTP округляет значения). Это происходит из-за того, что при расчете веса вравнивания в BLASTP используется матрица специализированная матрица BLOSUM62 (т.е. матрица строится на основе BLOSUM62, но с учетом особенностей аминокислотного состава исходного белка), a в water обычная.
·Выравнивание, сделанное BLASTP, включает остатки от 1 до 533 в последовательности NadB_Ecoli и остатки от 1 до 533 в последовательности NadB_Vibch, все сопоставления в этом диапазоне те же, что и у глобального выравнивания, кроме одного участка, где гэп расположен на 105 позиции в последовательности NadB_Ecoli (как в моем пробном выравнивании, см.выше), в то время как в первом выравнивании этот гэп находится на 110 позиции. Однако существенного влияние на значения выравнивания это не оказывает. Но глобальное выравнивание включает в себя остатки от 1 до 540 в последовательности NadB_Ecoli и остатки от 1 до 535 в последовательности NadB_Vibch, т.е. длина этого выравнивания больше. В связи с этим проиходят различия между двумя выравниваниями.
Меню
· Главная
· Результаты исследований
· Семестры
· Полезные ссылки
· Контакты
© Ирина Поверенная, 2008