Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~v.romashchenko/Term_2/anneal.html
Дата изменения: Thu May 14 22:18:44 2009
Дата индексирования: Tue Oct 2 14:23:39 2012
Кодировка: Windows-1251
Romashchenko Valeriya

Учебный сайт
Ромащенко Валерии

Поиск гипотетических гомологов изучаемого белка в разных БД.

Результаты поиска гипотетических гомологов белка Yoda_Ecoli.

  Поиск по БД Swiss-Prot Поиск по БД PDB Поиск по БД "nr"
1. Лучшая находка
Идентификатор БД P76344 1S7D P76344
E-value 1e-127 7e-129 1e-126
Вес (в битах) 455 455 455
% идентичности 100% 100% 100%
Найдены ли другие белки с теми же значениями E-value и веса в битах? Не найдены. Найдено еще два белка - это 1OEJ, 1OEK. Такие белки найдены - это, например, NP_416482.
2. Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний, Descriptions, с E-value<=1E-10) В гомологи найдено семь хороших кандидатов. Их индетификаторы в Swiss-Prot:
ADCA_STRPN - O05703
YRPE_BACSU - O05410
ADCA_STRP6 - Q5XD15
ADCA_STRP3 - Q8K847
ADCA_STRP8 - Q8P1N2
ADCA_STRP1 - Q9A0L9
Найдено еще 2 хороших гомолога.
1TXL
1OEE
Найдено еще 143 хороших гомолога.
2. "Худшая" находка (последняя в выдаче с E-value<=1.0)
Номер находки в списке описаний (Descriptions) 25 6 166
Идентификатор БД ENO_BACC1 - Q72XY5 IVEH XP_001213143
E-value 9,3 8,8 9,8
Вес (в битах) 30 26,2 33,9
% идентичности 36% 42% 26%
% сходства 52% 45% 42%
Длина выравнивания 55 33 128
Координаты выравнивания (номера первых и последних а.о.) Номер первого а.о. у Yoda_Ecoli 89, а второго - 143, а у Eno_Bacc1 номер первого а.о. 267, а второго - 309. Номер первого а.о у Yoda_Ecoli 109, последнего - 141, а у 1VEH номер первого - 41, последнего - 68. Номер первого а.о у Yoda_Ecoli 23, последнего - 133, а у XP_001213143 номер первого - 91, последнего - 212.
% гэпов 21% 15% 17%

Изучаемый белок Yoda_Ecoli был найден во всех трех банках данных: Swiss-Prot, "nr" и PDB. Во всех трех БК были представлены выравнивания полных последовательностей.
Выравнивание изучаемого белка с самим собой в разных БД отличается в значении E-value, в количестве белков с совпавшими значениями E-value и веса в битах, количестве хороших гомологов, а так же и количеством находок, отображенных в списке Descriptions. Это можно объяснить, исходя из определений самих БД: банк "nr" из трех остальных самый большой по объему заключаемой в нем информации о последоваетльностях, так как он содержит в себе Swiss-Prot и PDB, а так же еще несколько БД, что позволяет ему производить поиск гомологов в гораздо более широких масштабах. Различие в E-value тоже обуславивается объемом содержащейся информации в БД, так как само значение E-value расчитывается по формуле E=l*L*K*e(-λS), где l-длина последовательности, K и -λ - это константы, которые зависят от матрицы, по которой идет расчет веса выравнивания, S - средний вес выравнивания в случайном банке, а главное, это значание L - "объем банка", что в основном и обуславливает сильную разницу в значении E-value между БД.
Важно отметить, что значение E-value различается межу Swiss-Prot и nr только на один порядок. Возможно, это можно объснить параметром S (вес выравнивания), так как если вес выравнивания будет высоким, то гомологов с таким же высоким значением найти будет гораздо труднее, тем более когда поиск ограничен объемом информации. Таким образом, в Swiss-Prot было дано очень хорошее значение E-value, близкое к значению E-value в nr, но в последнем это значение немного хуже за счет того, что объем данных гораздо выше.
Различие в количестве гомологов так же можно объяснить с помощью разницы в количестве последовательностей в БД. Так как в "nr" найдено больше всего гомологов, то можно предположить, что им охвачены и те потенциальные гомологи, что найдены в Swiss-Prot и PDB, но, скорее всего, у них уже значение E-value будет выше.
Худшие находки в трех БД оказались разными, что обусловлено объемом данных, то есть с возможостью сравнить изучаемый белок с большим количеством последовательностей. По значению E-value лидирует белок IVEH, выданный в поиске гомологов в БД PDB, но как мне кажется, здесь так же надо еще учитывать и другие факторы. Например, длина и вес выравнивания белка Yoda_Ecoli с XP_001213143 выше чем, Yoda_Ecoli с IVEH, и хотя в первом случае значение E-value выше на единицу, нельзя забывать что nr выдал количество находок в 81 раз больше, чем их нашлось в PDB, то есть я хочу сказать, что будь информация о белке XP_001213143 в PDB, то в нем выравние Yoda_Ecoli-XP_001213143, скорее всего, имело бы значение E-value выше, что делало бы эти белки немного более близкими друг к другу.

Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам.

Исследуемые таксоны. Homo sapiens Archaea Actinobacteria Alteromonadales Vibrionaceae
Идентификатор БД нет нет ZP_02917969 нет нет
E-value     7e-46    
Вес (в битах)     182    
% идентичности     48%    
% сходства     64%    
Длина выравнивания     190    
Координаты выравнивания (номера первых и последних а.о.)     Номер первого а.о у Yoda_Ecoli 33, последнего - 216, а у ZP_02917969 номер первого - 327, последнего - 559.    
% гэпов     4%    

Здесь хотелось бы отметить, что выравнивание имеет неплохое значение E-value, что вприниципе распространяется и на другие параметры выравнивания.

Поиск белка по его фрагменту

  Поиск по фрагменту Поиск по полной
последовательности
АС лучшей находки O05703 O05703
E-value 3t-16 0.0
Вес (в битах) 82.1 1032
Найдены ли другие белки с теми же значениями E-value и веса в битах?
Такой белок найден, его AC Q8CWN2 нет

Если осуществлять поиск гомологов с помощью полной последовательности изучаемого белка, то это значительно расширяет круг возможных совпадений, но одновременно делает его более конкретным, то есть вероятность найти действительно гомологичные белки существенно повышается. Поэтому в выравнивании с участком последовательности был найден гомолог с таким же весом в битах и значем E-value, а уже в выравнивании с полной последовательностью, хотя и был дан белок Q8CWN2, как очень близкий гомолог, но уже значение веса в битах немного отличалось.

                                                                                 
                     uery  327  NGYFEDAAVKDRTLSDYAGNWQSVYPFLEDGTFDQVFDYKAKLTGKMTQAEYKAYYTKGY  386       
                                NG F+DA V++RTLSD+ G WQSVYP L+ G  D VF  KA      T AE K YY KGY            
                    Sbjct  42   NGVFDDANVQNRTLSDWDGVWQSVYPLLQSGKLDPVFQKKADADKTKTFAEIKDYYHKGY  101       
                                                                                                        
                    Query  387  HTDVTKINITDNTMEFVQGGQSKKYTYKYVGKKILTYKKGNRGVRFLFEATDADAGQFKY  446
                                 TD+  I I D  +EF +  ++    Y Y G KILTYK G +GVR+LFE  D ++   KY     
                    Sbjct  102  ATDIEMIGIEDGIVEFHRNNETTSCKYDYDGYKILTYKSGKKGVRYLFECKDPESKAPKY  161
                                                                                                        
                    Query  447  VQFSDHNVAPVKAEHFHIFFGGTSQEALFEEMDNWPTYYPDNLSGQEIAQEMLAH  501            
                                +QFSDH +AP K+ HFHIF G  SQ++L  EM+NWPTYYP  LS +E+ +EM++H                 
                    Sbjct  162  IQFSDHIIAPRKSSHFHIFMGNDSQQSLLNEMENWPTYYPYQLSSEEVVEEMMSH  216            
                  
Жирным шрифтом выделен фрагмент в выравнивании, над которым я работала в программе GeneDoc на занятии по пробным выравниваниям. Он не отличается от моего выравнивания, предложенного в первый раз и имеет оптимальный для этого фрагмента вес, что вилимо, выгодно и для выравнивания всей последовательности.
Вес выравнивания в битах 194 (494), значение E-value 8e-49, идентичность - 52%, сходство 66%, гэпов 0%, длина выравнивания 175 АО.

Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями.

На рисунке предложено выравнивание, сделанное с помощью программы needle. Коренным отличием от выравнивании в BLASTP является то, что нем (BLASTP) выравнивание начинается с 327 АО, то есть после большого пропуска в Adca_Strpn, с помощью которого достигается начинается наибольшее количество совпадений АО между двумя белками.
Вес выравнивания 474, идентичность - 18,9%, сходство 26,4%, гэпов 58,9%, длина выравнивания 508 АО. Значения параметров так сильно отличаются относительно BLASTP и в худшую сторону, потому что, как уже было сказано выше, выравнивание идет не по самому удачному участку, а по всей последовательности белка Adca_Strpn.

На рисунке отображено локальное выравнивание, выполненное в программе water пакета EMBOSS.
Вес выравнивания 494, идентичность - 52,2%, сходство 66,9%, гэпов 0%, длина выравнивания 175 АО. Данное выравнивание полностью совпадает с выравнием в BLASTP, если в программе water установить те же штрафы за гэп и пропуски.