Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://kodomo.cmm.msu.ru/~v.romashchenko/Term_2/anneal.html
Дата изменения: Thu May 14 22:18:44 2009 Дата индексирования: Tue Oct 2 14:23:39 2012 Кодировка: Windows-1251 |
Поиск по БД Swiss-Prot | Поиск по БД PDB | Поиск по БД "nr" | |
1. Лучшая находка | |||
Идентификатор БД | P76344 | 1S7D | P76344 |
E-value | 1e-127 | 7e-129 | 1e-126 |
Вес (в битах) | 455 | 455 | 455 |
% идентичности | 100% | 100% | 100% |
Найдены ли другие белки с теми же значениями E-value и веса в битах? | Не найдены. | Найдено еще два белка - это 1OEJ, 1OEK. | Такие белки найдены - это, например, NP_416482. |
2. Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний, Descriptions, с E-value<=1E-10) | В гомологи найдено семь хороших кандидатов. Их индетификаторы в Swiss-Prot: ADCA_STRPN - O05703 YRPE_BACSU - O05410 ADCA_STRP6 - Q5XD15 ADCA_STRP3 - Q8K847 ADCA_STRP8 - Q8P1N2 ADCA_STRP1 - Q9A0L9 |
Найдено еще 2 хороших гомолога. 1TXL 1OEE |
Найдено еще 143 хороших гомолога. |
2. "Худшая" находка (последняя в выдаче с E-value<=1.0) | |||
Номер находки в списке описаний (Descriptions) | 25 | 6 | 166 |
Идентификатор БД | ENO_BACC1 - Q72XY5 | IVEH | XP_001213143 |
E-value | 9,3 | 8,8 | 9,8 |
Вес (в битах) | 30 | 26,2 | 33,9 |
% идентичности | 36% | 42% | 26% |
% сходства | 52% | 45% | 42% |
Длина выравнивания | 55 | 33 | 128 |
Координаты выравнивания (номера первых и последних а.о.) | Номер первого а.о. у Yoda_Ecoli 89, а второго - 143, а у Eno_Bacc1 номер первого а.о. 267, а второго - 309. | Номер первого а.о у Yoda_Ecoli 109, последнего - 141, а у 1VEH номер первого - 41, последнего - 68. | Номер первого а.о у Yoda_Ecoli 23, последнего - 133, а у XP_001213143 номер первого - 91, последнего - 212. |
% гэпов | 21% | 15% | 17% |
Изучаемый белок Yoda_Ecoli был найден во всех трех банках данных: Swiss-Prot, "nr" и PDB. Во всех трех БК были представлены выравнивания полных последовательностей.
Выравнивание изучаемого белка с самим собой в разных БД отличается в значении E-value, в количестве белков с совпавшими значениями E-value и веса в битах, количестве хороших гомологов, а так же и количеством находок, отображенных в списке Descriptions. Это можно объяснить, исходя из определений самих БД: банк "nr" из трех остальных самый большой по объему заключаемой в нем информации о последоваетльностях, так как он содержит в себе Swiss-Prot и PDB, а так же еще несколько БД, что позволяет ему производить поиск гомологов в гораздо более широких масштабах. Различие в E-value тоже обуславивается объемом содержащейся информации в БД, так как само значение E-value расчитывается по формуле E=l*L*K*e(-λS), где l-длина последовательности, K и -λ - это константы, которые зависят от матрицы, по которой идет расчет веса выравнивания, S - средний вес выравнивания в случайном банке, а главное, это значание L - "объем банка", что в основном и обуславливает сильную разницу в значении E-value между БД.
Важно отметить, что значение E-value различается межу Swiss-Prot и nr только на один порядок. Возможно, это можно объснить параметром S (вес выравнивания), так как если вес выравнивания будет высоким, то гомологов с таким же высоким значением найти будет гораздо труднее, тем более когда поиск ограничен объемом информации. Таким образом, в Swiss-Prot было дано очень хорошее значение E-value, близкое к значению E-value в nr, но в последнем это значение немного хуже за счет того, что объем данных гораздо выше.
Различие в количестве гомологов так же можно объяснить с помощью разницы в количестве последовательностей в БД. Так как в "nr" найдено больше всего гомологов, то можно предположить, что им охвачены и те потенциальные гомологи, что найдены в Swiss-Prot и PDB, но, скорее всего, у них уже значение E-value будет выше.
Худшие находки в трех БД оказались разными, что обусловлено объемом данных, то есть с возможостью сравнить изучаемый белок с большим количеством последовательностей. По значению E-value лидирует белок IVEH, выданный в поиске гомологов в БД PDB, но как мне кажется, здесь так же надо еще учитывать и другие факторы. Например, длина и вес выравнивания белка Yoda_Ecoli с XP_001213143 выше чем, Yoda_Ecoli с IVEH, и хотя в первом случае значение E-value выше на единицу, нельзя забывать что nr выдал количество находок в 81 раз больше, чем их нашлось в PDB, то есть я хочу сказать, что будь информация о белке XP_001213143 в PDB, то в нем выравние Yoda_Ecoli-XP_001213143, скорее всего, имело бы значение E-value выше, что делало бы эти белки немного более близкими друг к другу.
Исследуемые таксоны. | Homo sapiens | Archaea | Actinobacteria | Alteromonadales | Vibrionaceae |
Идентификатор БД | нет | нет | ZP_02917969 | нет | нет |
E-value | 7e-46 | ||||
Вес (в битах) | 182 | ||||
% идентичности | 48% | ||||
% сходства | 64% | ||||
Длина выравнивания | 190 | ||||
Координаты выравнивания (номера первых и последних а.о.) | Номер первого а.о у Yoda_Ecoli 33, последнего - 216, а у ZP_02917969 номер первого - 327, последнего - 559. | ||||
% гэпов | 4% |
Здесь хотелось бы отметить, что выравнивание имеет неплохое значение E-value, что вприниципе распространяется и на другие параметры выравнивания.
Поиск по фрагменту | Поиск по полной последовательности |
|
АС лучшей находки | O05703 | O05703 |
E-value | 3t-16 | 0.0 |
Вес (в битах) | 82.1 | 1032 |
Найдены ли другие белки с теми же значениями E-value и веса в битах? |
Такой белок найден, его AC Q8CWN2 | нет |
Если осуществлять поиск гомологов с помощью полной последовательности изучаемого белка, то это значительно расширяет круг возможных совпадений, но одновременно делает его более конкретным, то есть вероятность найти действительно гомологичные белки существенно повышается. Поэтому в выравнивании с участком последовательности был найден гомолог с таким же весом в битах и значем E-value, а уже в выравнивании с полной последовательностью, хотя и был дан белок Q8CWN2, как очень близкий гомолог, но уже значение веса в битах немного отличалось.
uery 327 NGYFEDAAVKDRTLSDYAGNWQSVYPFLEDGTFDQVFDYKAKLTGKMTQAEYKAYYTKGY 386 NG F+DA V++RTLSD+ G WQSVYP L+ G D VF KA T AE K YY KGY Sbjct 42 NGVFDDANVQNRTLSDWDGVWQSVYPLLQSGKLDPVFQKKADADKTKTFAEIKDYYHKGY 101 Query 387 HTDVTKINITDNTMEFVQGGQSKKYTYKYVGKKILTYKKGNRGVRFLFEATDADAGQFKY 446 TD+ I I D +EF + ++ Y Y G KILTYK G +GVR+LFE D ++ KY Sbjct 102 ATDIEMIGIEDGIVEFHRNNETTSCKYDYDGYKILTYKSGKKGVRYLFECKDPESKAPKY 161 Query 447 VQFSDHNVAPVKAEHFHIFFGGTSQEALFEEMDNWPTYYPDNLSGQEIAQEMLAH 501 +QFSDH +AP K+ HFHIF G SQ++L EM+NWPTYYP LS +E+ +EM++H Sbjct 162 IQFSDHIIAPRKSSHFHIFMGNDSQQSLLNEMENWPTYYPYQLSSEEVVEEMMSH 216Жирным шрифтом выделен фрагмент в выравнивании, над которым я работала в программе GeneDoc на занятии по пробным выравниваниям. Он не отличается от моего выравнивания, предложенного в первый раз и имеет оптимальный для этого фрагмента вес, что вилимо, выгодно и для выравнивания всей последовательности.
Вес выравнивания в битах 194 (494), значение E-value 8e-49, идентичность - 52%, сходство 66%, гэпов 0%, длина выравнивания 175 АО.
На рисунке предложено выравнивание, сделанное с помощью программы needle. Коренным отличием от выравнивании в BLASTP является то, что нем (BLASTP) выравнивание начинается с 327 АО, то есть после большого пропуска в Adca_Strpn, с помощью которого достигается начинается наибольшее количество совпадений АО между двумя белками.
Вес выравнивания 474, идентичность - 18,9%, сходство 26,4%, гэпов 58,9%, длина выравнивания 508 АО. Значения параметров так сильно отличаются относительно BLASTP и в худшую сторону, потому что, как уже было сказано выше, выравнивание идет не по самому удачному участку, а по всей последовательности белка Adca_Strpn.
На рисунке отображено локальное выравнивание, выполненное в программе water пакета EMBOSS.
Вес выравнивания 494, идентичность - 52,2%, сходство 66,9%, гэпов 0%, длина выравнивания 175 АО. Данное выравнивание полностью совпадает с выравнием в BLASTP, если в программе water установить те же штрафы за гэп и пропуски.