Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~moshka/Term2/Practice6/BlastP.html
Дата изменения: Sun Oct 24 21:50:15 2010
Дата индексирования: Tue Oct 2 18:52:22 2012
Кодировка: Windows-1251
Task 2-6. BlastP

Задание 6 (выполнено Борисовой Мариной)

Задача: научиться пользоваться программой BlastP.

I. Поиск гипотетических гомологов изучаемого белка в разных БД

Таблица 1a. Результаты поиска гипотетических гомологов белка FDNG_ECOLI

Поиск по БД Swiss-Prot Поиск по БД PDB Поиск по БД "nr"
1. Лучшая находка
Идентификатор БД P24183.3 1KQF_A 1KQF_A
E-value 0.0 0.0 0.0
Вес (в битах) 2120 2120 2120
% идентичности 100 100 100
Найдены ли другие белки с теми же значениями E-value и веса в битах? Пример. с таким же e-value найдены белки (3 белка), а с таким же весом в битах нет. Пример: P32176.5. с таким же e-value найдены белки (1HOH_A), а с таким же весом в битах нет. с таким же e-value найдены белки (более 100 белков), а с таким же весом в битах есть еще один: NP_415991.1.
2. Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний, Descriptions, с E-value < 1E-10) каждый гомолог в выведенном со стандартными значениями списке удовлетворяет этому условию. Следовательно, таких кандидатов больше 100. 21 каждый гомолог в выведенном со стандартными значениями списке удовлетворяет этому условию. Следовательно, таких кандидатов больше 100.
3. "Худшая" находка (последняя в выдаче с E-value < 1)*
Номер находки в списке описаний (Descriptions) 100 25 100
Идентификатор БД B2UBL7 4DMR_A ADO48601.1
E-value 2e-18 0.29 0.0
Вес (в битах) 95.1 34.3 1532
% идентичности 22

21

92

% сходства 38 35 96
Длина выравнивания 649 418 802
Координаты выравнивания (номера первых и последних а.о. белка запроса) 1-649 23-441 213-1015
% гэпов 17 24 0

* - т.к. для БД Swiss-Prot и PDB все находки удовлетворяют условию хороших гомологов, то в "худшей" находке приведены последние белки в списке.

в Swiss-Prot удалось найти изучаемый белок, а в nr и PDB удалось найти его структуру.

при сравнении белка с самим собой получаются одинаковые параметры для разных БД.

только при поиске в PDB меньше всего удовлетворящих находок. Что, скорее всего, связанно с тем, что структуры расшифровывать достаточно сложно, чтобы они быстро и в большом количестве появлялись.

нет, они не совпадают. Самая хорошая среди "худших" находок - находка из всех бд (nr).

II. Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам

Таблица 1b. Результаты поиска гипотетических гомологов белка FDNG_ECOLI

Гомолог среди далеких таксонов (самый дальний оказался Archaea)
Номер находки в списке описаний (Descriptions) 1
Идентификатор БД YP_002958431.1
E-value 2e-67
Вес (в битах) 256
% идентичности 32
% сходства 45
Длина выравнивания 594
Координаты выравнивания (номера первых и последних а.о. белка запроса) 41-635
% гэпов 23

III. Поиск белка по его фрагменту

Данный фрагмент:

>seq 
  LYSTGKPYNSLSSHTGTNTRSKLFHIEGDPDHPVSRGAL

Проведенный по БД Swiss-Prot поиск дал совпадение с белком: AC:P46448.2 и ID:FDXG_HAEIN.

Таблица 2. Результаты поиска белка в Swiss-Prot по фрагменту последовательности

Поиск по фрагменту Поиск по полной
последовательности
АС лучшей находки P46448.2 P46448.2
E-value 2e-16 0.0
Вес (в битах) 84.0 2153
Найдены ли другие белки с теми же значениями E-value и веса в битах?
нет с тем же e-value еще три находки, а с тем же весом не было

Среди результатов последнего поиска вторым идет изучаемый белок: FDNG-ECOLI.

Query  1     MQVSRRKFFKICAGGMAGTSAAMLGFAPANVLAAPREYKLLRAFESRNTCTYCAVSCGML  60
             M VSRR+FFKICAGGMAGT+ A LGFAP   LA  R YKLLRA E RNTCTYC+V CG+L
Sbjct  1     MDVSRRQFFKICAGGMAGTTVAALGFAPKQALAQARNYKLLRAKEIRNTCTYCSVGCGLL  60


Query  61    LYSTGKPYNSLSSHTGTNTRSKLFHIEGDPDHPVSRGALCPKGAGSLDYVNSESRSLYPQ  120
             +YS G            N R  ++HIEGDPDHPVSRGALCPKGAG LDYVNSE+R  YP+
Sbjct  61    MYSLGD--------GAKNAREAIYHIEGDPDHPVSRGALCPKGAGLLDYVNSENRLRYPE  112


Query  121   YRAPGSDKWERISWKDAIKRIARLMKDDRDANFVEKDSNGKTVNRWATTGIMTASAMSNE  180
             YRAPGSDKW+RISW++A  RIA+LMK DRDANF+EK+  G TVNRW +TG++ AS  SNE
Sbjct  113   YRAPGSDKWQRISWEEAFSRIAKLMKADRDANFIEKNEQGVTVNRWLSTGMLCASGASNE  172


Query  181   AALLTQKWIRMLGMVPVCNQANTUHGPTVASLAPSFGRGAMTNNWVDIKNANLIIVQGGN  240
               +LTQK+ R LGM+ V NQA  UHGPTVASLAP+FGRGAMTN+WVDIKNAN+++V GGN
Sbjct  173   TGMLTQKFARSLGMLAVDNQARVUHGPTVASLAPTFGRGAMTNHWVDIKNANVVMVMGGN  232


Query  241   PAEAHPVGFRWAIEAKKNG-AKIIVIDPRFNRTASVADLHAPIRSGSDITFLMGVIRYLL  299
              AEAHPVGFRWA+EAK N  A +IV+DPRF RTASVAD++APIRSG+DITFL GV+RYL+
Sbjct  233   AAEAHPVGFRWAMEAKNNNDATLIVVDPRFTRTASVADIYAPIRSGTDITFLSGVLRYLI  292


Query  300   ETNQIQHEYVKHYTNASFLIDEGFKFEDGLFVGYNEEKRNYDKSKWNYQFDENGHAKRDM  359
             E N+I  EYVKHYTNAS L+ + F FEDGLF GY+ EKR YDKS WNYQ DENG+AKRD 
Sbjct  293   ENNKINAEYVKHYTNASLLVRDDFAFEDGLFSGYDAEKRQYDKSSWNYQLDENGYAKRDE  352


Query  360   TLQHPRCVINILKEHVSRYTPEMVERITGVKQKLFLQICEEIGKTSVPNKTMTHLYALGF  419
             TL HPRCV N+LKEHVSRYTP++VE I G  +  FL++CE +  TS P++T T LYALG+
Sbjct  353   TLTHPRCVWNLLKEHVSRYTPDVVENICGTPKADFLKVCEVLASTSAPDRTTTFLYALGW  412


Query  420   TEHSIGTQNIRSMAIIQLLLGNMGMPGGGINALRGHSNVQGTTDMGLLPMSLPGYMRLPN  479
             T+H++G QNIR+MA+IQLLLGNMGM GGG+NALRGHSN+QG TD+GLL  SLPGY+ LP+
Sbjct  413   TQHTVGAQNIRTMAMIQLLLGNMGMAGGGVNALRGHSNIQGLTDLGLLSTSLPGYLTLPS  472


Query  480   DKDTSYDQYINAITPKDIVPNQVNYYRHTSKFFVSMMKTFYGDNATKENGWGFDFLPKAD  539
             +K      Y+ A TPK  + +QVNY+ +  KFFVS+MK+FYGD A KEN WG+D+LPK D
Sbjct  473   EKQVDLQSYLEANTPKATLADQVNYWSNYPKFFVSLMKSFYGDAAQKENNWGYDWLPKWD  532

Query  540   RLYDPITHVKLMNEGKLHGWILQGFNVLNSLPNKNKTLSGMSKLKYLVVMDPLQTESSEF  599
             + YD I +  +M+EGK+ G+  QGFN + S P+KNK +S +SKLKY+VV+DPL TE+S F
Sbjct  533   QTYDVIKYFNMMDEGKVTGYFCQGFNPVASFPDKNKVVSCLSKLKYMVVIDPLVTETSTF  592

Query  600   WRNFGESNNVNPAEIQTEVFRLPTTCFAEEEGSIVNSGRWTQWHWKGCDQPGEALPDVDI  659
             W+N GESN+V+PA IQTEVFRLP+TCFAEE+GSI NSGRW QWHWKG D PGEA  D +I
Sbjct  593   WQNHGESNDVDPASIQTEVFRLPSTCFAEEDGSIANSGRWLQWHWKGQDAPGEARNDGEI  652

Query  660   LSMLREEMHELYKKEGGQGIESFEAMTWNYAQPHSPSAVELAKELNGYALEDLYDPNGNL  719
             L+ +   + ELY+ EGG+G+E    M+WNY QPH P + E+AKE NGYALEDLYD NG L
Sbjct  653   LAGIYHHLRELYQSEGGKGVEPLMKMSWNYKQPHEPQSDEVAKENNGYALEDLYDANGVL  712

Query  720   MYKKGQLLNGFAHLRDDGTTTSGNWLYVGQWTEKGNQTANRDNSDPSGLGCTIGWGFAWP  779
             + KKGQLL+ FAHLRDDGTT S  W+Y G WTE+GNQ ANRDNSDPSGLG T+GW +AWP
Sbjct  713   IAKKGQLLSSFAHLRDDGTTASSCWIYTGSWTEQGNQMANRDNSDPSGLGNTLGWAWAWP  772

Query  780   ANRRVLYSRASLDINGNPWDKNRQLIKWNGKNWNWFDIADYGTQPPGSDTGPFIMSAEGV  839
              NRRVLY+RAS DING PWD  R LI+WNG  W   DI D+G   PG+ TGPFIM  EG+
Sbjct  773   LNRRVLYNRASADINGKPWDPKRMLIQWNGSKWTGNDIPDFGNAAPGTPTGPFIMQPEGM  832

Query  840   GRLFAVDKIANGPMPEHYEPVESPIDTNPFHPNVVTDPTLRIYKEDREFIGSNKEYPFVA  899
             GRLFA++K+A GP PEHYEP+E+P+ TNP HPNVV++P +R+Y++D   +G  +++P+V 
Sbjct  833   GRLFAINKMAEGPFPEHYEPIETPLGTNPLHPNVVSNPVVRLYEQDALRMGKKEQFPYVG  892

Query  900   TTYRLTEHFHSWTAQSALNIIAQPQQFVEIGEKLAAEKGIQKGDMVKITSRRGYIKAVAV  959
             TTYRLTEHFH+WT  + LN IAQP+QFVEI E LAA KGI  GD V ++S+RG+I+AVAV
Sbjct  893   TTYRLTEHFHTWTKHALLNAIAQPEQFVEISETLAAAKGINNGDRVTVSSKRGFIRAVAV  952

Query  960   VTKRLKDLEIDGRVVHHIGLPIHWNMKALNGKGNRGFSTNTLTPSWGEAITQTPEYKTFL  1019
             VT+RLK L ++G+ V  +G+PIHW  +   G   +G+  NTLTP+ G+A +QTPEYK FL
Sbjct  953   VTRRLKPLNVNGQQVETVGIPIHWGFE---GVARKGYIANTLTPNVGDANSQTPEYKAFL  1009

Query  1020  VNIEKV  1025
             VNIEK 
Sbjct  1010  VNIEKA  1015

Данное выравнивание частично совпало с моим пробным выравниванием из задания 4:

, где seq1 - Sbjct, а seq2 - Query. Различие состоит в том, где начинается единственный гэп.

IV. Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями.

выравнивая с помощью needle и water при одиннаковых условиях: штраф за открытие гэпа - 10, штраф за продолжение - 1. В ссылках приведены выравнивания, где FDNG_ECOLI - Sbjct, FDHA_HAEIN - Query.

Сравнение:

  BLAST needle water
Длина 1015 1029 1025
Идентичность 65 64.3 64.6
Сходство 79 78.4 78.7
Гэпы 1 1.5 1.2

Если сравниванивать по последовательностям выравнивания, то все три почти одинаковы. В выравниваниях BLASTP и needle отличие состоит в том, что заканчиваются выравнивания в разных местах: BLASTP на 1025, а needle - 1028.

needle:

FDNG_ECOLI       990 TLTPNVGDANSQTPEYKAFLVNIEKA---   1015
                     ||||:.|:|.:||||||.|||||||.   
FDXG_HAEIN      1000 TLTPSWGEAITQTPEYKTFLVNIEKVGEA   1028


BLASTP:
Query  1020  VNIEKV  1025
             VNIEK 
Sbjct  1010  VNIEKA  1015

Отсюда видно, что в выравнивании с помощью BLASTP просто обрезано 3 ак.

А в выравниваниях BLASTP-water сдвинута одна буква в гэпе:

BLASTP:

Query  61    LYSTGKPYNSLSSHTGTNTRSKLFHIEGDPDHPVSRGALCPKGAGSLDYVNSESRSLYPQ  120
             +YS G            N R  ++HIEGDPDHPVSRGALCPKGAG LDYVNSE+R  YP+
Sbjct  61    MYSLGD--------GAKNAREAIYHIEGDPDHPVSRGALCPKGAGLLDYVNSENRLRYPE  112


water:
FDNG_ECOLI        51 TYCSVGCGLLMYSLG--------DGAKNAREAIYHIEGDPDHPVSRGALC     92
                     |||:|.||:|:||.|        ....|.|..::||||||||||||||||
FDXG_HAEIN        51 TYCAVSCGMLLYSTGKPYNSLSSHTGTNTRSKLFHIEGDPDHPVSRGALC    100

В BLASTP гэп 67-75, а в water - 66-74. А также вконце обрезано несколько оснований.

Эти различия отразились и на всех остальных оценках, что видно из таблицы сравнения.


    ї 2010 Borisova Marina