Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://kodomo.cmm.msu.ru/~golergka/term2/practices/practice13/
Дата изменения: Fri May 5 18:34:24 2006 Дата индексирования: Sat Dec 22 07:14:25 2007 Кодировка: Windows-1251 |
Янков
М.К., 1 курс ФББ, занятие 13, 04.05.2006
На сайте BlastP мною был произведен поиск гомологов несложно угадать какого белка со следующими параметрами:
Учет особенностей аминокислотного состава (Compositional adjustments) - Без учета особенностей (No Adjustment).
Фильтрование областей низкой
сложности (Low complexity filter) -
Включен (там галочка стоит)
Максимальное значение E-Value (Expect) - 10
Максимальное количество находок (Number of descriptions)- 1000
База данных - Swissprot.
Всего я получил 117 находок из 79 организмов, в том числе из 43 эукариотов: 48 хитов из покрытосеменных, 1из Бриофита, 26 хитов на 16 организмов билатеральных животных, 4 хита на три аскомицета, и 36 бактериальных хитов.
Статистика по таксономии приведена в файле taxonomy.txt.
Результаты поиска приведены в Таблица 1.
На этот раз поиск производился на
странице PSI-BLAST с теми же
параметрами. Результаты приведены в Таблица
2.
Psi-blast составляет профили автоматически, и думаю, что он хорошо подходит для поиска функциональных гомологов из далеких таксонов [М.К.1]статистическими методами. Думаю, что больше можно написать для каждой конкретной ситуации. Первая итерация поиска по этой базе данных представляет собой просто поиск по blastp, но в результате мы получаем, как, например, в упр.2, наиболее функционально походящих на исходный белок. В данном конкретном случае, задав в качестве исходного белка бактериальный функциональный аналог гемоглобина, у человека, например, в качестве результата я получил гемоглобин (правда, эмбриональный вариант, но сути это не меняет). В процессе поиска находки с высоким E-value, естественно, значительно влияли на профиль, поэтому этот профиль и позволял им оставаться высоко, но если на следующей итерации профилю, образованному огромным множеством последовательностей в данном организме больше подходила уже другая последовательность, то лидер менялся.
В программе есть возможность ручного выбора основы для профиля. Если выбирать последовательности из всех таксонов, то профиль будет в большей степени учитывать эволюционную вариативность; если же строить профиль на конкретном таксоне, то он он будет лучше работать для поиска в конкретно этом таксоне, но если искать с помощью него в других таксонах, то хаоса и непорядка будет существенно больше.
Что касается найденных белков, то у человека (по крайней мере, у найденных белков) с гемом контактируют 63 и 92 гистидины; в белке, найденном у кишечной палочки - один 85 гистидин (он вообще существенно отличается, т.к. связывается еще и с NAD), в исходном - 63 и 97 гистидины, что еще более подчеркивает сходство иходного белка и человеческого. К слову, человеческая последовательность, найденная Blastp, вообще не имеет отношения к гемам или чему-то подобному - CRNL1_HUMAN принимает участие в сплайсинге предшественников матричных РНК.
Итогом работы можно считать собственно профиль, сохраненный в pssm.txt. Чтобы впоследствии им воспользоваться, надо скопировать этот текстовый фрагмент в соответствующее поле web-интерфейса программы, в поле Query можно скопировать или его же, или идентификатор белка, такой же, как и в прошлый раз (что будет, если скопировать туда идентификатор совершенно другого белка, мне самому интересно), остальные опции можно задать так, как требуется в этот раз.
Таблица
1. Поиск гомологов белка LGB1_LUPLU (P02239) в БД SwissProt
|
Кол-во |
E-value лучшей находки |
Название лучшей находки (ID ) |
% идентичности |
Длина выравнивания |
Всего находок |
117 |
5∙10-82 |
LGB1_LUPLU |
100% |
154 |
В бактериях (Bacteria) |
36 |
10-6 |
HMP_RHIME |
29% |
117 |
В Escherichia coli K-12 |
0 |
|
|
|
|
В животных (Metazoa) |
26 |
2∙10-6 |
NGB_BRARE |
25% |
141 |
В человеке |
3 |
5,8 |
CRNL1_HUMAN |
28% |
78 |
Таблица
2. Итерационный поиск гомологов LGB1_LUPLU (P02239) в
БД SwissProt
с помощью программы PSI-BLAST.
Номер итерации |
Бактерии |
Животные |
Характеристика лучшей находки среди белков |
|||||||||
Кол-во |
Новые |
Кол-во |
Новые |
Escherichia coli, K-12 |
Homo sapiens sapiens |
|||||||
Название |
E-value |
% идентичности |
Длина выравнивания |
Название |
E-value |
% идентичности |
Длина выравнивания |
|||||
1 |
36 |
+ |
26 |
26 |
нет |
CRNL1_HUMAN |
5,8 |
28% |
78 |
|||
2 |
50 |
+ |
673 |
+ |
HMP_ECO57 |
10-29 |
20% |
148 |
NGB_HUMAN |
2∙10-19 |
21% |
143 |
3 |
47 |
- |
890 |
+ |
HMP_ECO57 |
6∙10-28 |
20% |
148 |
HBG2_HUMAN |
8∙10-45 |
18% |
150 |
4 |
52 |
- |
896 |
+ |
HMP_ECO57 |
2∙10-22 |
20% |
148 |
HBE_HUMAN |
5∙10-54 |
17% |
154 |
5 |
52 |
- |
894 |
- |
HMP_ECO57 |
2∙10-22 |
143[М.К.2] |
HBE_HUMAN |
7∙10-54 |
17% |
154 |