|
-
Поиск гипотетических гомологов изучаемого белка в разных БД
Таблица 1. Результаты поиска гипотетических гомологов белка IHFA_Ecoli
|
Поиск по БД Swiss-Prot |
Поиск по БД PDB |
Поиск по БД "nr" |
1. Лучшая находка (в принципе должна соответствовать заданному белку) |
Идентификатор БД |
IHFA_ECOLI |
1IHF|A |
NP_416227 |
E-value |
2e-52 |
8e-49 |
5e-50 |
Вес (в битах) |
199 |
199 |
199 |
% идентичности |
100% |
100% |
100% |
Найдены ли другие белки с теми же значениями E-value и веса в битах?
Если найдены, то укажите общее число и приведите один идентификатор (любой, но желательно Swiss-Prot ID) |
нет |
да, 4 вложенных например 1OUZ|A |
да, 119 например Q3Z260 (AС в SwissProt) |
2. Сколько хороших кандидатов в гомологи найдено?
(число находок в списке описаний, Descriptions, с E-value<=1E-10)
| 206 |
8 |
732 |
2. "Худшая" находка (последняя в выдаче с E-value<=1.0) |
Номер находки в списке описаний (Descriptions) |
334 |
15 |
>1000 |
Идентификатор БД |
DBHL_RICRS |
1WTU|A |
YP_303251 |
E-value |
0.049 |
4e-04 |
0.98 |
Вес (в битах) |
35.8 |
39.3 |
36.2 |
% идентичности |
32% |
25% |
38% |
% сходства |
61% |
48% |
61% |
Длина выравнивания |
55 |
90 |
42 |
Координаты выравнивания (номера первых и последних а.о.) |
2-55 в последовательности IHFA_ECOLI (1-55 у искомого белка) |
3-92 (1-90) |
17-58 (16-57) |
% гэпов
| 1% |
0% |
0% |
- изучаемый белок удалось ли найти в Swiss-Prot и "nr", а его структуру в PDB, что видно из того,что все лучшие случаи совпадают собственно с изучаемым белком
- Различий между выравниванием белка с самим собой в разных БД не обнаружено
- в общем, понятно, что в PDB количество гомологов минимально, что в первую очередь определяется размером БД - число белков с известной пространственной структурой мало относительно общего количества известных белков.
Далее идет SwissProt, в котором нахождятся аннотированные белки, число которых тоже мало, хотя на порядок больше белков в предыдущей базе.
NR Бд, по-видимому, содержит в себе просто последовательности белков, каковых явно значительно больше, чем предыдущих, что и объясняет результаты
- В отличии от лучших находок, худшие во всех БД различны. Причем лучший вариант мы видим в PDB, что в общем логично, так как остальные БД содержат в себе все белки из PDB и могут дать такой же или худший вариант.
Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам
Гипотетический гомолог изучаемого белка найден в таксоне Archea. ID DBH_THEAC. E-value 4e-8. Вес в битах 51.2. % идентичности - 28%. Процент сходства - 59%. Процент гэпов - 0%. Длина выравнивания - 83. Координаты выравнивания: 6-88
Поиск белка по его фрагменту
Найденный белок имеет ID IHFA_BRUSI, AC B0CLA3.
Таблица 2. Результаты поиска белка в Swiss-Prot по фрагменту последовательности
|
Поиск по фрагменту |
Поиск по полной последовательности |
АС лучшей находки |
B0CLA3 |
B0CLA3 |
E-value |
4e-15 |
4e-57 |
Вес (в битах) |
78.3 |
219 |
Найдены ли другие белки с теми же значениями E-value и веса в битах?
|
да. еще 4. их AC: A6X1X7, Q1MIS5, Q2KA00, P64391 |
нет |
Поиск по фрагменту в данном случае показывает, из какого белка мог быть взят искомый кусок а.к. последовательности. В связи с малой длинной последовательности имеем сравнительно большое E-value.
Поиск же по всей последовательности имеет принципиально другую цель - найти уже не сам белок, с ним-то вроде все более-менее ясно, а посмотреть его гомологов. В связи с большей длиной последовательности, увеличивается E-value. Этот же факт позволяет отбросить появившихся в пердыдущем случае кандидатов - благодоря тому, что мы рассматриваем уже всю последовательность, находим неидентичные участки последовательности белков, о которых можно было подумать, что они одинаковы по первому поиску.
Рассмотрим предложенное BLAST выравнивание моего белка и искомого:
* *
IHFA_ECOLI 2 ALTKAEMSEYLFDKLGLSKRDAKELVELFFEEIRRALENGEQVKLSGFGNFDLRDKNQRP 61
+T+A++ E ++ K+GLS+ ++ LVE+ +E+ A+ NGE VKLS F F +RDKN+R
IHFA_BRUSI 5 TVTRADLVEAVYRKVGLSRTESAALVEMILDEVCDAIVNGETVKLSSFATFQVRDKNERI 64
*
IHFA_ECOLI 62 GRNPKTGEDIPITARRVVTFRPGQKLKSRV 91
GRNPKTGE++PI RRV+TF+ LK R+
IHFA_BRUSI 65 GRNPKTGEEVPILPRRVMTFKASNVLKQRI 94
*
вес(в битах) 99, вес(согласно матрице замен) 245, E-value 6e-21.
%идентичности 48%, %сходства 72%, %гэпов 0%. Длина выравнивания 90.
собственно, на участке, который рассматривался мной в первой работе блока (обозначен звездочками), мной было предложено точно такое же выравнивание:
Сравнение выравниваний, выданных программой BLASTP, с
оптимальными глобальным и локальным выравниваниями.
Сравним выравнивание, предложенное BLAST с оптимальным глобальным, выданным needle и оптимальным локальным от water
а)оптимальное полное выравнивание
IHFA_ECOLI 1 ---MALTKAEMSEYLFDKLGLSKRDAKELVELFFEEIRRALENGEQVKLS 47
..:|:|::.|.::.|:|||:.::..|||:..:|:..|:.|||.||||
IHFA_BRUSI 1 MGGKTVTRADLVEAVYRKVGLSRTESAALVEMILDEVCDAIVNGETVKLS 50
IHFA_ECOLI 48 GFGNFDLRDKNQRPGRNPKTGEDIPITARRVVTFRPGQKLKSRVENASPK 97
.|..|.:||||:|.||||||||::||..|||:||:....||.|:.....|
IHFA_BRUSI 51 SFATFQVRDKNERIGRNPKTGEEVPILPRRVMTFKASNVLKQRILQEHQK 100
IHFA_ECOLI 98 DE----- 99
.:
IHFA_BRUSI 101 RQGKTSK 107
% идентичности 42,1%, %сходства 62,6%, %гэпов 7,5%. Длина выравнивания 107. Вес выравнивания 236.
BLAST предлагает выравнивание от 2 до 91 ак остатка IHFA_ECOLI (5-94 ак остаток IHFA_BRUSI). если рассматривать участок глобального выравнивания в этом интервале, то они полностью совпадают. различие в длине выравниваний, наличие дополнительных гэпов в глобальном выравнивании и дополнительных замен приводят к ухудшению показателей выравнивания
б) оптимальное частичное выравнивание последовательностей
тех же белков.
IHFA_ECOLI 3 LTKAEMSEYLFDKLGLSKRDAKELVELFFEEIRRALENGEQVKLSGFGNF 52
:|:|::.|.::.|:|||:.::..|||:..:|:..|:.|||.||||.|..|
IHFA_BRUSI 6 VTRADLVEAVYRKVGLSRTESAALVEMILDEVCDAIVNGETVKLSSFATF 55
IHFA_ECOLI 53 DLRDKNQRPGRNPKTGEDIPITARRVVTFRPGQKLKSRV 91
.:||||:|.||||||||::||..|||:||:....||.|:
IHFA_BRUSI 56 QVRDKNERIGRNPKTGEEVPILPRRVMTFKASNVLKQRI 94
%идентичности 49,4%. %сходства 73%. % гэпов 0%. Длина выравнивания 89. Вес 238.
не совпадают координаты выравнивания. У BLAST: от 2 до 91 ак остатка IHFA_ECOLI (5-94 ак остаток IHFA_BRUSI). У water от 3 до 91 ак остатка IHFA_ECOLI (6-94 ак остаток IHFA_BRUSI). на пересечении промежутков выравнивания представленные выравнивания совпадают. Аналогично предыдущему случаю, засчет ууменьшения длины выравнивая улучшены показатели выравнивания. А во столькардинальное различие весов мне непонятно. У меня две догадки: либо матрицы BLOSSUM62 и EBLOSSUM62 несколько отличаются друг от друга, либо у программ разные способы подсчета веса.
|