Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://kodomo.cmm.msu.ru/~moshka/Term2/Practice6/BlastP.html
Дата изменения: Sun Oct 24 21:50:15 2010 Дата индексирования: Tue Oct 2 18:52:22 2012 Кодировка: Windows-1251 |
Таблица 1a. Результаты поиска гипотетических гомологов белка FDNG_ECOLI
Поиск по БД Swiss-Prot Поиск по БД PDB Поиск по БД "nr" 1. Лучшая находка Идентификатор БД P24183.3 1KQF_A 1KQF_A E-value 0.0 0.0 0.0 Вес (в битах) 2120 2120 2120 % идентичности 100 100 100 Найдены ли другие белки с теми же значениями E-value и веса в битах? Пример. с таким же e-value найдены белки (3 белка), а с таким же весом в битах нет. Пример: P32176.5. с таким же e-value найдены белки (1HOH_A), а с таким же весом в битах нет. с таким же e-value найдены белки (более 100 белков), а с таким же весом в битах есть еще один: NP_415991.1. 2. Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний, Descriptions, с E-value < 1E-10) каждый гомолог в выведенном со стандартными значениями списке удовлетворяет этому условию. Следовательно, таких кандидатов больше 100. 21 каждый гомолог в выведенном со стандартными значениями списке удовлетворяет этому условию. Следовательно, таких кандидатов больше 100. 3. "Худшая" находка (последняя в выдаче с E-value < 1)* Номер находки в списке описаний (Descriptions) 100 25 100 Идентификатор БД B2UBL7 4DMR_A ADO48601.1 E-value 2e-18 0.29 0.0 Вес (в битах) 95.1 34.3 1532 % идентичности 22 21
92
% сходства 38 35 96 Длина выравнивания 649 418 802 Координаты выравнивания (номера первых и последних а.о. белка запроса) 1-649 23-441 213-1015 % гэпов 17 24 0 * - т.к. для БД Swiss-Prot и PDB все находки удовлетворяют условию хороших гомологов, то в "худшей" находке приведены последние белки в списке.
- удалось ли найти изучаемый белок в Swiss-Prot и "nr", а его структуру в PDB?
в Swiss-Prot удалось найти изучаемый белок, а в nr и PDB удалось найти его структуру.
- сравните параметры выравнивания изучаемого белка с самим собой при поиске по разным БД и объясните различия (если они есть, конечно);
при сравнении белка с самим собой получаются одинаковые параметры для разных БД.
- сравните число потенциальных гомологов при поиске по разным БД и поясните причину различий;
только при поиске в PDB меньше всего удовлетворящих находок. Что, скорее всего, связанно с тем, что структуры расшифровывать достаточно сложно, чтобы они быстро и в большом количестве появлялись.
- сравните "худшие" находки при поиске по разным БД: совпадают ли они? если нет, то почему? какая из "худших" самая хорошая?
нет, они не совпадают. Самая хорошая среди "худших" находок - находка из всех бд (nr).
Таблица 1b. Результаты поиска гипотетических гомологов белка FDNG_ECOLI
Гомолог среди далеких таксонов (самый дальний оказался Archaea) Номер находки в списке описаний (Descriptions) 1 Идентификатор БД YP_002958431.1 E-value 2e-67 Вес (в битах) 256 % идентичности 32 % сходства 45 Длина выравнивания 594 Координаты выравнивания (номера первых и последних а.о. белка запроса) 41-635 % гэпов 23
Данный фрагмент:
>seq LYSTGKPYNSLSSHTGTNTRSKLFHIEGDPDHPVSRGALПроведенный по БД Swiss-Prot поиск дал совпадение с белком: AC:P46448.2 и ID:FDXG_HAEIN.
Таблица 2. Результаты поиска белка в Swiss-Prot по фрагменту последовательности
Поиск по фрагменту Поиск по полной
последовательностиАС лучшей находки P46448.2 P46448.2 E-value 2e-16 0.0 Вес (в битах) 84.0 2153 Найдены ли другие белки с теми же значениями E-value и веса в битах? нет с тем же e-value еще три находки, а с тем же весом не было Среди результатов последнего поиска вторым идет изучаемый белок: FDNG-ECOLI.
Query 1 MQVSRRKFFKICAGGMAGTSAAMLGFAPANVLAAPREYKLLRAFESRNTCTYCAVSCGML 60 M VSRR+FFKICAGGMAGT+ A LGFAP LA R YKLLRA E RNTCTYC+V CG+L Sbjct 1 MDVSRRQFFKICAGGMAGTTVAALGFAPKQALAQARNYKLLRAKEIRNTCTYCSVGCGLL 60 Query 61 LYSTGKPYNSLSSHTGTNTRSKLFHIEGDPDHPVSRGALCPKGAGSLDYVNSESRSLYPQ 120 +YS G N R ++HIEGDPDHPVSRGALCPKGAG LDYVNSE+R YP+ Sbjct 61 MYSLGD--------GAKNAREAIYHIEGDPDHPVSRGALCPKGAGLLDYVNSENRLRYPE 112 Query 121 YRAPGSDKWERISWKDAIKRIARLMKDDRDANFVEKDSNGKTVNRWATTGIMTASAMSNE 180 YRAPGSDKW+RISW++A RIA+LMK DRDANF+EK+ G TVNRW +TG++ AS SNE Sbjct 113 YRAPGSDKWQRISWEEAFSRIAKLMKADRDANFIEKNEQGVTVNRWLSTGMLCASGASNE 172 Query 181 AALLTQKWIRMLGMVPVCNQANTUHGPTVASLAPSFGRGAMTNNWVDIKNANLIIVQGGN 240 +LTQK+ R LGM+ V NQA UHGPTVASLAP+FGRGAMTN+WVDIKNAN+++V GGN Sbjct 173 TGMLTQKFARSLGMLAVDNQARVUHGPTVASLAPTFGRGAMTNHWVDIKNANVVMVMGGN 232 Query 241 PAEAHPVGFRWAIEAKKNG-AKIIVIDPRFNRTASVADLHAPIRSGSDITFLMGVIRYLL 299 AEAHPVGFRWA+EAK N A +IV+DPRF RTASVAD++APIRSG+DITFL GV+RYL+ Sbjct 233 AAEAHPVGFRWAMEAKNNNDATLIVVDPRFTRTASVADIYAPIRSGTDITFLSGVLRYLI 292 Query 300 ETNQIQHEYVKHYTNASFLIDEGFKFEDGLFVGYNEEKRNYDKSKWNYQFDENGHAKRDM 359 E N+I EYVKHYTNAS L+ + F FEDGLF GY+ EKR YDKS WNYQ DENG+AKRD Sbjct 293 ENNKINAEYVKHYTNASLLVRDDFAFEDGLFSGYDAEKRQYDKSSWNYQLDENGYAKRDE 352 Query 360 TLQHPRCVINILKEHVSRYTPEMVERITGVKQKLFLQICEEIGKTSVPNKTMTHLYALGF 419 TL HPRCV N+LKEHVSRYTP++VE I G + FL++CE + TS P++T T LYALG+ Sbjct 353 TLTHPRCVWNLLKEHVSRYTPDVVENICGTPKADFLKVCEVLASTSAPDRTTTFLYALGW 412 Query 420 TEHSIGTQNIRSMAIIQLLLGNMGMPGGGINALRGHSNVQGTTDMGLLPMSLPGYMRLPN 479 T+H++G QNIR+MA+IQLLLGNMGM GGG+NALRGHSN+QG TD+GLL SLPGY+ LP+ Sbjct 413 TQHTVGAQNIRTMAMIQLLLGNMGMAGGGVNALRGHSNIQGLTDLGLLSTSLPGYLTLPS 472 Query 480 DKDTSYDQYINAITPKDIVPNQVNYYRHTSKFFVSMMKTFYGDNATKENGWGFDFLPKAD 539 +K Y+ A TPK + +QVNY+ + KFFVS+MK+FYGD A KEN WG+D+LPK D Sbjct 473 EKQVDLQSYLEANTPKATLADQVNYWSNYPKFFVSLMKSFYGDAAQKENNWGYDWLPKWD 532 Query 540 RLYDPITHVKLMNEGKLHGWILQGFNVLNSLPNKNKTLSGMSKLKYLVVMDPLQTESSEF 599 + YD I + +M+EGK+ G+ QGFN + S P+KNK +S +SKLKY+VV+DPL TE+S F Sbjct 533 QTYDVIKYFNMMDEGKVTGYFCQGFNPVASFPDKNKVVSCLSKLKYMVVIDPLVTETSTF 592 Query 600 WRNFGESNNVNPAEIQTEVFRLPTTCFAEEEGSIVNSGRWTQWHWKGCDQPGEALPDVDI 659 W+N GESN+V+PA IQTEVFRLP+TCFAEE+GSI NSGRW QWHWKG D PGEA D +I Sbjct 593 WQNHGESNDVDPASIQTEVFRLPSTCFAEEDGSIANSGRWLQWHWKGQDAPGEARNDGEI 652 Query 660 LSMLREEMHELYKKEGGQGIESFEAMTWNYAQPHSPSAVELAKELNGYALEDLYDPNGNL 719 L+ + + ELY+ EGG+G+E M+WNY QPH P + E+AKE NGYALEDLYD NG L Sbjct 653 LAGIYHHLRELYQSEGGKGVEPLMKMSWNYKQPHEPQSDEVAKENNGYALEDLYDANGVL 712 Query 720 MYKKGQLLNGFAHLRDDGTTTSGNWLYVGQWTEKGNQTANRDNSDPSGLGCTIGWGFAWP 779 + KKGQLL+ FAHLRDDGTT S W+Y G WTE+GNQ ANRDNSDPSGLG T+GW +AWP Sbjct 713 IAKKGQLLSSFAHLRDDGTTASSCWIYTGSWTEQGNQMANRDNSDPSGLGNTLGWAWAWP 772 Query 780 ANRRVLYSRASLDINGNPWDKNRQLIKWNGKNWNWFDIADYGTQPPGSDTGPFIMSAEGV 839 NRRVLY+RAS DING PWD R LI+WNG W DI D+G PG+ TGPFIM EG+ Sbjct 773 LNRRVLYNRASADINGKPWDPKRMLIQWNGSKWTGNDIPDFGNAAPGTPTGPFIMQPEGM 832 Query 840 GRLFAVDKIANGPMPEHYEPVESPIDTNPFHPNVVTDPTLRIYKEDREFIGSNKEYPFVA 899 GRLFA++K+A GP PEHYEP+E+P+ TNP HPNVV++P +R+Y++D +G +++P+V Sbjct 833 GRLFAINKMAEGPFPEHYEPIETPLGTNPLHPNVVSNPVVRLYEQDALRMGKKEQFPYVG 892 Query 900 TTYRLTEHFHSWTAQSALNIIAQPQQFVEIGEKLAAEKGIQKGDMVKITSRRGYIKAVAV 959 TTYRLTEHFH+WT + LN IAQP+QFVEI E LAA KGI GD V ++S+RG+I+AVAV Sbjct 893 TTYRLTEHFHTWTKHALLNAIAQPEQFVEISETLAAAKGINNGDRVTVSSKRGFIRAVAV 952 Query 960 VTKRLKDLEIDGRVVHHIGLPIHWNMKALNGKGNRGFSTNTLTPSWGEAITQTPEYKTFL 1019 VT+RLK L ++G+ V +G+PIHW + G +G+ NTLTP+ G+A +QTPEYK FL Sbjct 953 VTRRLKPLNVNGQQVETVGIPIHWGFE---GVARKGYIANTLTPNVGDANSQTPEYKAFL 1009 Query 1020 VNIEKV 1025 VNIEK Sbjct 1010 VNIEKA 1015Данное выравнивание частично совпало с моим пробным выравниванием из задания 4:
, где seq1 - Sbjct, а seq2 - Query. Различие состоит в том, где начинается единственный гэп.
выравнивая с помощью needle и water при одиннаковых условиях: штраф за открытие гэпа - 10, штраф за продолжение - 1. В ссылках приведены выравнивания, где FDNG_ECOLI - Sbjct, FDHA_HAEIN - Query.
Сравнение:
BLAST needle water Длина 1015 1029 1025 Идентичность 65 64.3 64.6 Сходство 79 78.4 78.7 Гэпы 1 1.5 1.2 Если сравниванивать по последовательностям выравнивания, то все три почти одинаковы. В выравниваниях BLASTP и needle отличие состоит в том, что заканчиваются выравнивания в разных местах: BLASTP на 1025, а needle - 1028.
needle:
FDNG_ECOLI 990 TLTPNVGDANSQTPEYKAFLVNIEKA--- 1015 ||||:.|:|.:||||||.|||||||. FDXG_HAEIN 1000 TLTPSWGEAITQTPEYKTFLVNIEKVGEA 1028 BLASTP:Query 1020 VNIEKV 1025 VNIEK Sbjct 1010 VNIEKA 1015Отсюда видно, что в выравнивании с помощью BLASTP просто обрезано 3 ак.
А в выравниваниях BLASTP-water сдвинута одна буква в гэпе:
BLASTP:
Query 61 LYSTGKPYNSLSSHTGTNTRSKLFHIEGDPDHPVSRGALCPKGAGSLDYVNSESRSLYPQ 120 +YS G N R ++HIEGDPDHPVSRGALCPKGAG LDYVNSE+R YP+ Sbjct 61 MYSLGD--------GAKNAREAIYHIEGDPDHPVSRGALCPKGAGLLDYVNSENRLRYPE 112 water:FDNG_ECOLI 51 TYCSVGCGLLMYSLG--------DGAKNAREAIYHIEGDPDHPVSRGALC 92 |||:|.||:|:||.| ....|.|..::|||||||||||||||| FDXG_HAEIN 51 TYCAVSCGMLLYSTGKPYNSLSSHTGTNTRSKLFHIEGDPDHPVSRGALC 100В BLASTP гэп 67-75, а в water - 66-74. А также вконце обрезано несколько оснований.
Эти различия отразились и на всех остальных оценках, что видно из таблицы сравнения.