Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~vika-chan/projects/aln/aln3.html
Дата изменения: Thu Mar 26 18:42:59 2009
Дата индексирования: Tue Oct 2 18:13:51 2012
Кодировка: Windows-1251
Vladykina's page.projects.Alignment3

учебный сайт Вероники Владыкиной

Программа BLASTP

на главную
1 семестр
2 семестр
проекты
официальный сайт ФББ
  1. Поиск гипотетических гомологов изучаемого белка в разных БД

    Таблица 1. Результаты поиска гипотетических гомологов белка IHFA_Ecoli

      Поиск по БД Swiss-Prot Поиск по БД PDB Поиск по БД "nr"
    1. Лучшая находка (в принципе должна соответствовать заданному белку)
    Идентификатор БД IHFA_ECOLI 1IHF|A NP_416227
    E-value 2e-52 8e-49 5e-50
    Вес (в битах) 199 199 199
    % идентичности 100% 100% 100%
    Найдены ли другие белки с теми же значениями E-value и веса в битах?
    Если найдены, то укажите общее число и приведите один идентификатор (любой, но желательно Swiss-Prot ID)
    нет да, 4 вложенных
    например 1OUZ|A
    да, 119
    например Q3Z260 (AС в SwissProt)
    2. Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний, Descriptions, с E-value<=1E-10) 206 8 732
    2. "Худшая" находка (последняя в выдаче с E-value<=1.0)
    Номер находки в списке описаний (Descriptions) 334 15 >1000
    Идентификатор БД DBHL_RICRS 1WTU|A YP_303251
    E-value 0.049 4e-04 0.98
    Вес (в битах) 35.8 39.3 36.2
    % идентичности 32% 25% 38%
    % сходства 61% 48% 61%
    Длина выравнивания 55 90 42
    Координаты выравнивания (номера первых и последних а.о.) 2-55 в последовательности IHFA_ECOLI
    (1-55 у искомого белка)
    3-92 (1-90) 17-58 (16-57)
    % гэпов 1% 0% 0%
    • изучаемый белок удалось ли найти в Swiss-Prot и "nr", а его структуру в PDB, что видно из того,что все лучшие случаи совпадают собственно с изучаемым белком
    • Различий между выравниванием белка с самим собой в разных БД не обнаружено
    • в общем, понятно, что в PDB количество гомологов минимально, что в первую очередь определяется размером БД - число белков с известной пространственной структурой мало относительно общего количества известных белков.
      Далее идет SwissProt, в котором нахождятся аннотированные белки, число которых тоже мало, хотя на порядок больше белков в предыдущей базе.
      NR Бд, по-видимому, содержит в себе просто последовательности белков, каковых явно значительно больше, чем предыдущих, что и объясняет результаты
    • В отличии от лучших находок, худшие во всех БД различны. Причем лучший вариант мы видим в PDB, что в общем логично, так как остальные БД содержат в себе все белки из PDB и могут дать такой же или худший вариант.
  2. Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам

    Гипотетический гомолог изучаемого белка найден в таксоне Archea.
    ID DBH_THEAC.
    E-value 4e-8.
    Вес в битах 51.2.
    % идентичности - 28%.
    Процент сходства - 59%.
    Процент гэпов - 0%.
    Длина выравнивания - 83.
    Координаты выравнивания: 6-88
  3. Поиск белка по его фрагменту

    Найденный белок имеет ID IHFA_BRUSI, AC B0CLA3.

    Таблица 2. Результаты поиска белка в Swiss-Prot по фрагменту последовательности

      Поиск по фрагменту Поиск по полной
    последовательности
    АС лучшей находки B0CLA3 B0CLA3
    E-value 4e-15 4e-57
    Вес (в битах) 78.3 219
    Найдены ли другие белки с теми же значениями E-value и веса в битах?
    да. еще 4. их AC: A6X1X7, Q1MIS5, Q2KA00, P64391 нет

    Поиск по фрагменту в данном случае показывает, из какого белка мог быть взят искомый кусок а.к. последовательности. В связи с малой длинной последовательности имеем сравнительно большое E-value.
    Поиск же по всей последовательности имеет принципиально другую цель - найти уже не сам белок, с ним-то вроде все более-менее ясно, а посмотреть его гомологов. В связи с большей длиной последовательности, увеличивается E-value. Этот же факт позволяет отбросить появившихся в пердыдущем случае кандидатов - благодоря тому, что мы рассматриваем уже всю последовательность, находим неидентичные участки последовательности белков, о которых можно было подумать, что они одинаковы по первому поиску.

    Рассмотрим предложенное BLAST выравнивание моего белка и искомого:
    
                                                     *                     *
    IHFA_ECOLI 2 ALTKAEMSEYLFDKLGLSKRDAKELVELFFEEIRRALENGEQVKLSGFGNFDLRDKNQRP  61
                  +T+A++ E ++ K+GLS+ ++  LVE+  +E+  A+ NGE VKLS F  F +RDKN+R 
    IHFA_BRUSI 5 TVTRADLVEAVYRKVGLSRTESAALVEMILDEVCDAIVNGETVKLSSFATFQVRDKNERI  64
    						    *
    
    IHFA_ECOLI  62 GRNPKTGEDIPITARRVVTFRPGQKLKSRV  91
                   GRNPKTGE++PI  RRV+TF+    LK R+
    IHFA_BRUSI  65 GRNPKTGEEVPILPRRVMTFKASNVLKQRI  94
                     *
     
     

    вес(в битах) 99, вес(согласно матрице замен) 245, E-value 6e-21.
    %идентичности 48%, %сходства 72%, %гэпов 0%. Длина выравнивания 90.
    собственно, на участке, который рассматривался мной в первой работе блока (обозначен звездочками), мной было предложено точно такое же выравнивание:
  4. Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями.

    Сравним выравнивание, предложенное BLAST с оптимальным глобальным, выданным needle и оптимальным локальным от water
    а)оптимальное полное выравнивание
    
    IHFA_ECOLI         1 ---MALTKAEMSEYLFDKLGLSKRDAKELVELFFEEIRRALENGEQVKLS     47
                            ..:|:|::.|.::.|:|||:.::..|||:..:|:..|:.|||.||||
    IHFA_BRUSI         1 MGGKTVTRADLVEAVYRKVGLSRTESAALVEMILDEVCDAIVNGETVKLS     50
                            
    IHFA_ECOLI        48 GFGNFDLRDKNQRPGRNPKTGEDIPITARRVVTFRPGQKLKSRVENASPK     97
                         .|..|.:||||:|.||||||||::||..|||:||:....||.|:.....|
    IHFA_BRUSI        51 SFATFQVRDKNERIGRNPKTGEEVPILPRRVMTFKASNVLKQRILQEHQK    100
    
    IHFA_ECOLI        98 DE-----     99
                         .:     
    IHFA_BRUSI       101 RQGKTSK    107 

    % идентичности 42,1%, %сходства 62,6%, %гэпов 7,5%. Длина выравнивания 107. Вес выравнивания 236.

    BLAST предлагает выравнивание от 2 до 91 ак остатка IHFA_ECOLI (5-94 ак остаток IHFA_BRUSI). если рассматривать участок глобального выравнивания в этом интервале, то они полностью совпадают. различие в длине выравниваний, наличие дополнительных гэпов в глобальном выравнивании и дополнительных замен приводят к ухудшению показателей выравнивания


    б) оптимальное частичное выравнивание последовательностей тех же белков.
    IHFA_ECOLI         3 LTKAEMSEYLFDKLGLSKRDAKELVELFFEEIRRALENGEQVKLSGFGNF     52
                         :|:|::.|.::.|:|||:.::..|||:..:|:..|:.|||.||||.|..|
    IHFA_BRUSI         6 VTRADLVEAVYRKVGLSRTESAALVEMILDEVCDAIVNGETVKLSSFATF     55
    
    IHFA_ECOLI        53 DLRDKNQRPGRNPKTGEDIPITARRVVTFRPGQKLKSRV     91
                         .:||||:|.||||||||::||..|||:||:....||.|:
    IHFA_BRUSI        56 QVRDKNERIGRNPKTGEEVPILPRRVMTFKASNVLKQRI     94
    

    %идентичности 49,4%. %сходства 73%. % гэпов 0%. Длина выравнивания 89. Вес 238.

    не совпадают координаты выравнивания. У BLAST: от 2 до 91 ак остатка IHFA_ECOLI (5-94 ак остаток IHFA_BRUSI). У water от 3 до 91 ак остатка IHFA_ECOLI (6-94 ак остаток IHFA_BRUSI). на пересечении промежутков выравнивания представленные выравнивания совпадают. Аналогично предыдущему случаю, засчет ууменьшения длины выравнивая улучшены показатели выравнивания. А во столькардинальное различие весов мне непонятно. У меня две догадки: либо матрицы BLOSSUM62 и EBLOSSUM62 несколько отличаются друг от друга, либо у программ разные способы подсчета веса.

Владыкина 2008