Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~lu.andreeva/psiblast.html
Дата изменения: Fri May 22 17:07:53 2009
Дата индексирования: Tue Oct 2 03:52:26 2012
Кодировка: Windows-1251
PSI-BLAST

Учебный сайт Люды Андреевой


Программа PSI-BLAST

Программа PSI-BLAST (Position-Specific Iterated BLAST) находит последовательности с заданным порогом E-value, похожие на исследуемую последовательность. Эта программа используется для поиска наиболее далеких родственников. За первую итерацию обнаруживаются наиболее близкие гомологи, и на основе всех этих последовательностей создается профиль, объединяющий в себе наиболее значимые особенности найденных белков. Следующая итерация основана на этом профиле, таким образом находится новая группа белков, на основе которой снова строится профиль для нового поиска. Таким образом, программа PSI-BLAST является более чувствительной для поиска удаленных в эволюционном плане родственников белка, чем обычный Protein BLAST (взято из Википедии).

Проведем итеративный поиск по банку Swiss-Prot программой PSI-BLAST следующих последовательностей: P18196, P0A832, P0A780 и P13001. Выполним до 5 итераций, при которых появляются новые последовательности с E-value выше 0.005. Результаты сведены в таблицу:
ID белка AC белка Число итераций Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога
MINC_ECOLI P18196 5 126 0.004 0.005 239 0.003 0.007
SSRP_ECOLI P0A832 2 449 3e-10 5.0 449 8e-31 0.62
NUSB_ECOLI P0A780 4 327 0.003 0.008 388 2e-12 0.031
BIOH_ECOLI P13001 5 118 0.004 0.006 836 0.05 0.05

При поиске по всем последовательностям наблюдается тенденция к увеличению количества находок при каждой последующей итерации. Кроме того, в последующих итерациях увеличивается количество последовательностей белков одного семейства и одного организма.
Обратим внимание на разность худшего значения E-value выше порога 0.005 и лучшего значения при первой и последней итерации. Во всех случаях наблюдается увеличение этой разницы с увеличением количества итераций, что свидетельствует о том, что белки, не оказавшиеся выше порога при первой итерации, являются совсем дальними родственниками исследуемого белка. Этот результат объясняется тем, что профиль основывается на последовательностях, вошедших выше порога, поэтому с каждой новой итерацией далекие родственные последовательности становятся еще более далекими, т.е. их сходство с усредненной последовательностьюуменьшается. Чтобы попытаться объяснить эти результаты, обратим внимание на изменение E-value средней находки (E-value едва превышает порог при первом поиске) и лучшей находки:

E-value средней находки (MINC_ECOLI) 0.004 1e-22 5e-31 9e-37 7e-37
E-value лучшей находки (MINC_ECOLI) 4e-134 2e-92 2e-82 4e-79 2e-77
E-value средней находки (SSRP_ECOLI) 3e-10 8e-31 - - -
E-value лучшей находки (SSRP_ECOLI) 4e-91 2e-74 - - -
E-value средней находки (NUSB_ECOLI) 0.003 1e-22 2e-26 1e-26 -
E-value лучшей находки (NUSB_ECOLI) 5e-76 5e-54 4e-51 3e-50 -
E-value средней находки (BIOH_ECOLI) 0.004 2e-26 3e-39 3e-39 -
E-value лучшей находки 1e-148 7e-107 4e-76 1e-70 -

Из вышеприведенных результатов можно пронаблюдать, что с каждым новым поиском E-value лучшей находки увеличивается, а E-value худшей при первом поиске находки уменьшается, таким образом весь набор последовательностей как будто сжимается к центру, а по нижнему краю последовательности добавляются. Посмотрим на формулу расчета E-value: E=l*L*K*e(-λS), где l-длина последовательности, K и -λ - это константы, которые зависят от матрицы, по которой идет расчет веса выравнивания, S - средний вес выравнивания в случайном банке, L - "объем банка".
Так как l, L в нашем случае постоянны, рассмотрим влияние на E-value осташихся величин. Уменьшение E-value неидентичных последовательностей будет вызвано увеличением величины S, что напрямую связано с увеличением весов наиболее часто встречающихся консервативных и полуконсервативных замен. Исследуя значение Е для лучшей находки, представленной во всех случаях самим белком, увеличение E-value будет связано в основном с тем, что с каждой итерацией меняется усредненная последовательность, которая принимает черты всех белков, оказавшихся выше порога. В связи с этим меняется вес выравнивания белка BIOH_ECOLI с этой последовательностью, что и ведет к увеличению E-value.

Из вышеисследованных последовательностей поиск PSI-BLAST не дает сходящегося результата для белка BIOH_ECOLI для порога 0.005. При пороге 0.001 набор последовательностей после 7 итерации перестает меняться, чего нельзя добиться при пороге 0.002. Различия в сходимости и расходимости при разных порогах могут быть связаны с разными наборамипоследовательностей, на основе которых строится первый профиль, и, как следствие, при последующих итерациях выбираются другие наборы последовательностей.


©Andreeva_2008