Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~v.romashchenko/Term_2/anneal.html
Дата изменения: Thu May 14 22:18:44 2009
Дата индексирования: Tue Oct 2 14:23:39 2012
Кодировка: Windows-1251

Romashchenko Valeriya

Учебный сайт
Ромащенко Валерии

Поиск гипотетических гомологов изучаемого белка в разных БД.

Результаты поиска гипотетических гомологов белка Yoda_Ecoli.

	Поиск по БД Swiss-Prot	Поиск по БД PDB	Поиск по БД "nr"
1. Лучшая находка
Идентификатор БД	P76344	1S7D	P76344
E-value	1e-127	7e-129	1e-126
Вес (в битах)	455	455	455
% идентичности	100%	100%	100%
Найдены ли другие белки с теми же значениями E-value и веса в битах?	Не найдены.	Найдено еще два белка - это 1OEJ, 1OEK.	Такие белки найдены - это, например, NP_416482.
2. Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний, Descriptions, с E-value<=1E-10)	В гомологи найдено семь хороших кандидатов. Их индетификаторы в Swiss-Prot: ADCA_STRPN - O05703 YRPE_BACSU - O05410 ADCA_STRP6 - Q5XD15 ADCA_STRP3 - Q8K847 ADCA_STRP8 - Q8P1N2 ADCA_STRP1 - Q9A0L9	Найдено еще 2 хороших гомолога. 1TXL 1OEE	Найдено еще 143 хороших гомолога.
2. "Худшая" находка (последняя в выдаче с E-value<=1.0)
Номер находки в списке описаний (Descriptions)	25	6	166
Идентификатор БД	ENO_BACC1 - Q72XY5	IVEH	XP_001213143
E-value	9,3	8,8	9,8
Вес (в битах)	30	26,2	33,9
% идентичности	36%	42%	26%
% сходства	52%	45%	42%
Длина выравнивания	55	33	128
Координаты выравнивания (номера первых и последних а.о.)	Номер первого а.о. у Yoda_Ecoli 89, а второго - 143, а у Eno_Bacc1 номер первого а.о. 267, а второго - 309.	Номер первого а.о у Yoda_Ecoli 109, последнего - 141, а у 1VEH номер первого - 41, последнего - 68.	Номер первого а.о у Yoda_Ecoli 23, последнего - 133, а у XP_001213143 номер первого - 91, последнего - 212.
% гэпов	21%	15%	17%

Изучаемый белок Yoda_Ecoli был найден во всех трех банках данных: Swiss-Prot, "nr" и PDB. Во всех трех БК были представлены выравнивания полных последовательностей.
Выравнивание изучаемого белка с самим собой в разных БД отличается в значении E-value, в количестве белков с совпавшими значениями E-value и веса в битах, количестве хороших гомологов, а так же и количеством находок, отображенных в списке Descriptions. Это можно объяснить, исходя из определений самих БД: банк "nr" из трех остальных самый большой по объему заключаемой в нем информации о последоваетльностях, так как он содержит в себе Swiss-Prot и PDB, а так же еще несколько БД, что позволяет ему производить поиск гомологов в гораздо более широких масштабах. Различие в E-value тоже обуславивается объемом содержащейся информации в БД, так как само значение E-value расчитывается по формуле E=l*L*K*e^(-λS), где l-длина последовательности, K и -λ - это константы, которые зависят от матрицы, по которой идет расчет веса выравнивания, S - средний вес выравнивания в случайном банке, а главное, это значание L - "объем банка", что в основном и обуславливает сильную разницу в значении E-value между БД.
Важно отметить, что значение E-value различается межу Swiss-Prot и nr только на один порядок. Возможно, это можно объснить параметром S (вес выравнивания), так как если вес выравнивания будет высоким, то гомологов с таким же высоким значением найти будет гораздо труднее, тем более когда поиск ограничен объемом информации. Таким образом, в Swiss-Prot было дано очень хорошее значение E-value, близкое к значению E-value в nr, но в последнем это значение немного хуже за счет того, что объем данных гораздо выше.
Различие в количестве гомологов так же можно объяснить с помощью разницы в количестве последовательностей в БД. Так как в "nr" найдено больше всего гомологов, то можно предположить, что им охвачены и те потенциальные гомологи, что найдены в Swiss-Prot и PDB, но, скорее всего, у них уже значение E-value будет выше.
Худшие находки в трех БД оказались разными, что обусловлено объемом данных, то есть с возможостью сравнить изучаемый белок с большим количеством последовательностей. По значению E-value лидирует белок IVEH, выданный в поиске гомологов в БД PDB, но как мне кажется, здесь так же надо еще учитывать и другие факторы. Например, длина и вес выравнивания белка Yoda_Ecoli с XP_001213143 выше чем, Yoda_Ecoli с IVEH, и хотя в первом случае значение E-value выше на единицу, нельзя забывать что nr выдал количество находок в 81 раз больше, чем их нашлось в PDB, то есть я хочу сказать, что будь информация о белке XP_001213143 в PDB, то в нем выравние Yoda_Ecoli-XP_001213143, скорее всего, имело бы значение E-value выше, что делало бы эти белки немного более близкими друг к другу.

Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам.

Исследуемые таксоны.	Homo sapiens	Archaea	Actinobacteria	Alteromonadales	Vibrionaceae
Идентификатор БД	нет	нет	ZP_02917969	нет	нет
E-value			7e-46
Вес (в битах)			182
% идентичности			48%
% сходства			64%
Длина выравнивания			190
Координаты выравнивания (номера первых и последних а.о.)			Номер первого а.о у Yoda_Ecoli 33, последнего - 216, а у ZP_02917969 номер первого - 327, последнего - 559.
% гэпов			4%

Здесь хотелось бы отметить, что выравнивание имеет неплохое значение E-value, что вприниципе распространяется и на другие параметры выравнивания.

Поиск белка по его фрагменту

	Поиск по фрагменту	Поиск по полной последовательности
АС лучшей находки	O05703	O05703
E-value	3t-16	0.0
Вес (в битах)	82.1	1032
Найдены ли другие белки с теми же значениями E-value и веса в битах?	Такой белок найден, его AC Q8CWN2	нет

Если осуществлять поиск гомологов с помощью полной последовательности изучаемого белка, то это значительно расширяет круг возможных совпадений, но одновременно делает его более конкретным, то есть вероятность найти действительно гомологичные белки существенно повышается. Поэтому в выравнивании с участком последовательности был найден гомолог с таким же весом в битах и значем E-value, а уже в выравнивании с полной последовательностью, хотя и был дан белок Q8CWN2, как очень близкий гомолог, но уже значение веса в битах немного отличалось.

                                                                                 
                     uery  327  NGYFEDAAVKDRTLSDYAGNWQSVYPFLEDGTFDQVFDYKAKLTGKMTQAEYKAYYTKGY  386       
                                NG F+DA V++RTLSD+ G WQSVYP L+ G  D VF  KA      T AE K YY KGY            
                    Sbjct  42   NGVFDDANVQNRTLSDWDGVWQSVYPLLQSGKLDPVFQKKADADKTKTFAEIKDYYHKGY  101       
                                                                                                        
                    Query  387  HTDVTKINITDNTMEFVQGGQSKKYTYKYVGKKILTYKKGNRGVRFLFEATDADAGQFKY  446
                                 TD+  I I D  +EF +  ++    Y Y G KILTYK G +GVR+LFE  D ++   KY     
                    Sbjct  102  ATDIEMIGIEDGIVEFHRNNETTSCKYDYDGYKILTYKSGKKGVRYLFECKDPESKAPKY  161
                                                                                                        
                    Query  447  VQFSDHNVAPVKAEHFHIFFGGTSQEALFEEMDNWPTYYPDNLSGQEIAQEMLAH  501            
                                +QFSDH +AP K+ HFHIF G  SQ++L  EM+NWPTYYP  LS +E+ +EM++H                 
                    Sbjct  162  IQFSDHIIAPRKSSHFHIFMGNDSQQSLLNEMENWPTYYPYQLSSEEVVEEMMSH  216            
                  
Жирным шрифтом выделен фрагмент в выравнивании, над которым я работала в программе GeneDoc на занятии по пробным выравниваниям. Он не отличается от моего выравнивания, предложенного в первый раз и имеет оптимальный для этого фрагмента вес, что вилимо, выгодно и для выравнивания всей последовательности.
Вес выравнивания в битах 194 (494), значение E-value 8e-49, идентичность - 52%, сходство 66%, гэпов 0%, длина выравнивания 175 АО.

Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями.

На рисунке предложено выравнивание, сделанное с помощью программы needle. Коренным отличием от выравнивании в BLASTP является то, что нем (BLASTP) выравнивание начинается с 327 АО, то есть после большого пропуска в Adca_Strpn, с помощью которого достигается начинается наибольшее количество совпадений АО между двумя белками.
Вес выравнивания 474, идентичность - 18,9%, сходство 26,4%, гэпов 58,9%, длина выравнивания 508 АО. Значения параметров так сильно отличаются относительно BLASTP и в худшую сторону, потому что, как уже было сказано выше, выравнивание идет не по самому удачному участку, а по всей последовательности белка Adca_Strpn.