Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~lu.andreeva/blastp.html
Дата изменения: Sun Mar 29 12:53:55 2009
Дата индексирования: Tue Oct 2 02:09:22 2012
Кодировка: Windows-1251
Программа BLASTP

Учебный сайт Люды Андреевой


Поиск возможных гомологов белка Bioh_Ecoli

Программа BLASTP позволяет искать сходные последовательности данного белка в разных базах данных, при этом результатами поиска являются выравнивания последовательности изучаемого белка с найденными в указанной базе данных. Для удобства можно пользоваться web-интерфейсом программы BLASTP.
Найдем возможных гомологов белка BIOH_ECOLI (AC: P13001) в банках данных Swiss-Prot, PDB и "nr". Результаты поиска сведем в представленную ниже таблицу.

Лучшая находка
  БД Swiss-Prot БД PDB БД "nr"
Идентификатор БД P13001 1M33_A NP_417871
E-value 1*10-148 1*10-143 2*10-147
Вес (в битах) 525 504 525
% идентичности 100% 97% 100%
Найдены ли другие белки с теми же значениями E-value и веса в битах? нет нет нет
Число находок в списке описаний (Descriptions) с E-value<=1*10-10 56 2 99
Худшая находка (E-value<=1.0)
  БД Swiss-Prot БД PDB БД "nr"
Номер находки в списке описаний (Descriptions) 110 36 99
Идентификатор БД A7MB28 1S8O_A YP_001143787
E-value 0.002 1.0 3*10-67
Вес (в битах) 42.4 29.6 258
% идентичности 28% 22% 54%
% сходства 43% 48% 69%
Длина выравнивания 375 555 254
Координаты выравнивания (номера первых и последних а.к.) BioH_ecoli: 11-134
A7MB28: 51-187
BioH_ecoli: 16-107
1S80_A: 261-360
BioH_ecoli: 10-249
YP_001143787: 9-249
% гэпов 16% 8% 1%

Как видно из таблицы, удалось найти белок BIOH_ECOLI в банках данных Swiss-Prot и "nr", в то время как в PDB был найден лишь на 97% совпадающий с исследуемым белок. Судя по идентификатору в PDB и исходя из ранее выполненных работ (см. семестр 1), можно сделать вывод, что найденная в PDB структура с AC: 1M33_A отличается от белка p13001 (BIOH_ECOLI) в связи с особенностями метода ее получения, либо различия обусловлены принадлежностью белков к разным штамам E.coli.
Интересны различия в "лучших находках" в разных БД по E-value. Выравнивания белка BIOH_ECOLI с самим собой отличаются по этому параметру в БД "nr" и Swiss-Prot. Чтобы объяснить этот факт, обратимся к формуле, по которой определяют E-value:

E=l*L*k*e-λS,

где E = E-value, l - длина последовательности, L- объем Бд, λ и k - константы, зависящие от матрицы замен.
Выравнивания белка с самим собой в Swiss-Prot и "nr" имеют одинаковый вес, одинаковые длины и одинаковые константы λ и k (BLASTP подгоняет матрицу замен под аминокислотный состав белка, но белки идентичны), поэтому большее в "nr" значение E обусловлено его большим, чем у Swiss-Prot объемом L. Действительно, БД "nr" включает в себя Swiss-Prot, PDB и несколько других банков, т.е. имеет больший, чем отдельно Swiss-Prot и PDB, объем.
Обратим внимание на то, что E-value "лучшей находки" в PDB, не соответствующей в точности BIOH_ECOLI, на 4-5 порядков выше значений этого параметра для совпадащих белков, найденных в Swiss-Prot и "nr". Обратимся к вышеуказанной формуле для подсчета E-value. "Лучшая находка" PDB отличается от находок в других БД следующим образом: она имеет большую длину l (258, в то время как в остальных Бд - 256), меньший объем БД L, незначительно (% идентичности = 97%) отличающиеся λ и k и вес выравнивания, мешьший на 21 бит. Меньшее значение L, которое могло бы уменьшить значение E, с лихвой компенсируется мешьшим значением S, стоящем в отрицательной степени и по этой причине значительно увеличивающим E-value.
Тем не менее, значения E-value - числа находок в случайном БД, с весом не меньшим S,- ничтожно мало во всех "лучших находках", что говорит об исключительности такой последовательности аминокислот в белках и неслучайности результата.
Поскольку в Swiss-Prot и "nr" был найден в точности белок BIOH_ECOLI, процент идентичности равен 100%, а вес выравнивания максимален - 525 бит. Белок, найденный в БД PDB, по всем показателям очень близок к изучаемому белку: процент идентичности и вес выравнивания, конечно, меньше, нежели у предыдущих находок, однако тоже довольно велики и составляют 97% и 504 бит соответственно.
С помощью программы BLASTP в каждой БД не было найдено белков с такими же, как у "лучших находок" значениями E-value и веса выравнивания, что еще раз подтверждает исключительность находок.

Вызывает интерес соотношение числа находок с e-value<=1*10-10, т.е. потенциальных гомологов. В базах данных Swiss-prot и "nr" найдены довольно большие количества таких "гомологов": 56 и 99. Однако в БД PDB их найдено всего два. Это может быть связано с особенностями иформации, представленной в базе данных: в PDB находятся описания структур белков, в то время как в Swiss-Prot и "nr" приведены описания и характеристики белков. Разумно предположить, что в банке данных PDB не будут представлены структуры белков, отличающихся лишь одной аминокислотой, да и изучение структуры будет проводиться лишь для часто исследуемых белков, поскольку процесс ее получения очень трудоемок. Как видно из таблици, наибольшее количество потенциальных гомологов нашлось в банке "nr", что связано с тем, что данный БД включает в себя Swiss-Prot, PDB и несколько других банков, т.е. содержит в себе большее, чем отдельно в Swiss-Prot и PDB, количество информации.
Стоит также заметить, что возрастание количества находок в БД в последовательности увеличения их объема (PDB->Swiss-Prot->"nr") говорит об отсутствии видоспецифичности белка: если бы он встречался только у E. coli, увеличение количества данных по другим организмам не изменило бы количества находок.

Сравним теперь "худшие находки". Как видно из таблицы, сходные значения параметров имеют "худшие находки" в БД Swiss-Prot и PDB, за исключением лишь меньшего, по сравнению с остальными, номера находки базы данных PDB в списке описаний, что связано с меньшим общим количеством находок в этом банке. Действительно, они характеризуются E-value близким к 1, весом выравниваний, не превышающим 50 бит, процентом идентичности меньшим 30%, и процентом сходства меньшим 50%. Кроме того, длина выравниваний найденных белков с исследуемым довольно велика, что говорит о значительном количестве гэпов в нем (см. таблицу). "Худшая находка" в банке данных "nr" отличается гораздо большей сходностью с BIOH_ECOLI. Ее E-value гораздо меньше, чем у худших находок в БД Swiss-Prot и PDB, кроме того, она отличается примерно в 5 раз большим весом выравнивания и большими процентами сходства и идентичности. Длина выравнивания этой находки с исследуемым белком больше, чем на 100 символов, короче худших находок в других банках, что говорит о маленьком проценте гэпов в нем. Возможной причиной таких особенностей может быть то что база данных "nr" включает в себя множество банков данных, а именно: CDS translations, PDB, SwissProt, PIR, PRF. Очевидно, из большего количества информации легче найти подходящие последователности, и их будет больше.

Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам

С помощью программы BLASTP будем искать возможных гомологов белка BIOH_ECOLI с ограничениями по таксонам. Рассматривать будем следующие: Homo sapiens, Archaea, Actinobacteria, Alteromonadales, Vibrionaceae. Таксоны приведены в порядке приближения к E. coli. Будем называть гомологом находку с E-value<0.001.
Результаты приведены в таблице.

База данных Swiss-Prot PDB "nr"
таксон Homo sapiens Actinobacteria Homo sapiens
Идентификатор БД Q8TB40 2VF2_A NP_071343
E-value 2*10-6 3*10-5 1*10-5
Вес (в битах) 49.7 40.8 49.7
% идентичности 31% 30% 31%
% сходства 47% 43% 47%
Длина выравнивания 342 311 342
Координаты выравнивания (номера первых и последних а.к.) BioH_ecoli:2-105
Q8tb40: 54-169
BioH_ecoli; 3-103
2Ve2_A: 45-155
BioH: 2-105
1e05: 54-169
% гэпов 10% 14% 10%

Из таблицы видно, что белок, найденный в Swiss-Prot имеет те же параметры, что и найденный в "nr". С помощью программы BLASTP выясним, что эти белки идентичны на 100%.
Отличается от упомянутых выше белок, найденный в БД PDB. Однако отличия эти невелики: выравнивание последовательностей 2VF2_A и BIOH_ECOLI лишь на 31 символ короче выравниваний исследуемого белка с найденными в Swiss-Prot и "nr", а процент гэпов лишь на 4% больше. Стоит заметить, подходящий гомолог в PDB нашелся только в таксоне Actinobacteria, и это значительно ближе к E. coli, чем Homo sapiens. Но если судить по тому, что параметры выравниваний находок всех трех баз данных очень близки между собой, можно предположить, что в БД PDB не нашлось белка из Homo sapiens, поскольку он имеет очень консервативную структуру, и ее можно исследовать и по таким же белкам других организмов, из которых их легче выделить. Возможно также, что именно структура человеческого белка-гомолога BIOH_ECOLI не столь важна для ученых.

Поиск белка по его фрагменту

На странице, посвященной пробным выравниваниям, фрагмент белка BIOH_ECOLI сравнивался с фрагментом неизвестного белка. Найдем, из какого белка был взят фрагмент:

PSPEGLAFGLEILGTWDFR

Для этого воспользуемся возможностями BLASTP и будем искать соответствия в банке данных Swiss-Prot. Результатом поиска стали четыре белка. Найдем из аминокислотные последовательности и проведем поиск по полученным полным последовательностям. Результаты представлены ниже в иде таблицы.

  Поиск по фрагменту Поиск по полной последовательности A5IBW4 (lcl|5966) Поиск по полной последовательности Q5WW99 (lcl|28016) Поиск по полной последовательности Q5X590 (lcl|49382) Поиск по полной последовательности Q5ZVG6 (lcl|95603)
АС лучшей находки A5IBW4 A5IBW4 Q5WW99 Q5X590 Q5ZVG6
E-value 4*10-11 5*10-138 4*10-138 7*10-138 2*10-138
Вес (в битах) 64.7 489 489 489 491
Найдены ли другие белки с теми же значениями E-value и веса в битах? Белки с AC: Q5WW99, Q5X590, Q5ZVG6 нет нет нет нет

Поиск по фрагменту отличается лишь меньшим, чем при поиске по полной последовательности, весом выравнивания и значением E-value, которе, тем не менее, очень невелико и равно 4*10-11. Эти отличия вызваны меньшей длиной фрагмента. Стоит заметить, что при всех вышеобозначенных запросах первыми четырьмя результатами являлись представленные в таблице белки.

В списке выравниваний найдем выравнивание A5IBW4 с p13001 (уже давно исследуемый нами белок). Оно приведено ниже (query соответствует A5Bw4, sbject - p13001):

Query  2    NIHLDKYGQG-MPLVLFHGWGFDSQIWQPIIPYLKPKYQIILVDLPGFGLTP---MMDWE  57
            NI     GQG + LVL HGWG ++++W+ I   L   + + LVDLPGFG +     +   
Sbjct  3    NIWWQTKGQGNVHLVLLHGWGLNAEVWRCIDEELSSHFTLHLVDLPGFGRSRGFGALSLA  62

Query  58   SFKKNLLDQLPDKFALAGWSMGGLYATRLAIEEPARVQYLINITSSPRFISDVDWPGVAE  117
               + +L Q PDK    GWS+GGL A+++A+  P RVQ L+ + SSP F +  +WPG+  
Sbjct  63   DMAEAVLQQAPDKAIWLGWSLGGLVASQIALTHPERVQALVTVASSPCFSARDEWPGIKP  122

Query  118  EVFVNFYNNLSKDINKTLKEFISLQL--------NKMKFDFKIGNPPSPE--GLAFGLEI  167
            +V   F   LS D  +T++ F++LQ         +       +   P PE   L  GLEI
Sbjct  123  DVLAGFQQQLSDDFQRTVERFLALQTMGTETARQDARALKKTVLALPMPEVDVLNGGLEI  182

Query  168  LGTWDFREQLKQISIPTVYLFGRLDPITPAKTMAIMEKNYPNFKYVLFNRAAHMPFLSHT  227
            L T D R+ L+ +S+P + L+G LD + P K + +++K +P+ +  +F +AAH PF+SH 
Sbjct  183  LKTVDLRQPLQNVSMPFLRLYGYLDGLVPRKVVPMLDKLWPHSESYIFAKAAHAPFISHP  242

Query  228  DLFITMM  234
              F  ++
Sbjct  243  AEFCHLL  249

В вышепредставленной последовательности красным обозначен участок последовательности bioh_ecoli, синим - A5BW4, участвовавшие в пробном выравнивании.
Сравним предложенное BLASTP выравнивание со сделанным вручную в анализируемом фрагменте (seq2 соответствует фрагмент A5Bw4, seq1 - фрагмент p13001):

Выравнивания очень похожи, единственным отличием выравнивания, полученного вручную, является постановка гэпа в фрагменте A5Bw4, где глицин можно поставить до или после гэпа. Однако оба варианта приемлемы, так как перестановка данной аминокислоты не изменит ни вес, ни длину выравнивания: в обоих случаях глицину будет сопоставлен валин.

Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями

В предыдущей теме была получена последовательность сходного с bioh_ecoli белка a5bw4, а также их выравнивание, полученное с помощью BLASTP. Сравним выравнивание, предложенное BLASTP, с оптимальными глобальным (программа needle) и локальным (программа water пакета Emboss), выполненными в ходе работы в командной строке Linux согласно описанной в теме "Глобальное и локальное выравнивание последовательностей" схеме. Полученные выравнивания можно увидеть в документах a5bw4andp13001.needle и a5bw4andp13001.water.

  blast needle water
% идентичности 36% 39.4% 35.6%
% сходства 55% 53.9% 55.5%
% гэпов 5% 6.6% 5.7%
Вес 410 393 401
Длина 247 256 247

Для наглядности рассмотрим рисунки с описанными выравниваниями (красным обозначены совпадения, желтым - положительные замены):

При построении выравниваний были изменены стандартные для needle и water значения параметров на принятые программой BLASTP: gap_penalty= 11, extend_penalty=1.
Для удобства сравнивания импортируем выравнивание BLASTP в GENEDOC и раскрасим его:

Из рисунков видно, что оптимальные глобальное и локальное выравнивания отличаются лишь тем, что локальное выравнивание не учитывает первые одну-две аминоксилоты и последние 5-7 аминокислот последовательностей - участки глобального выранивания, лишенные совпадений и положительных замен. В остальном выравнивания абсолютно идентичны, в связи с этим сравним выравнивание, выполненное программой BLAST с локальным выравниванием water.
Как и в локальном выравнивании a5bw4andp13001_water, в выравнивании BLASTP отсутствуют начало и конец выравнивания, сделанного в needle. Первые 145 позиций, как и последние 75 (с 173 по 247 позицию), полностью одинаковы в выравниваниях a5bw4andp13001_blast и a5bw4andp13001_water. Различия в участке 146-173 обусловлены различными постановками гэпов. В выравнивании BLASTP первый длинный гэп передвинут на один символ вперед по отношению к выравниванию water, кроме того, в выравнивании BLASTP присутствует второй гэп, который в a5bw4andp13001_water входит в состав первого длинного гэпа. Такая перестановка позволила BLASTP обнаружить на одно совпадение и на одну положительную замену больше, чем присутствует в выравнивании water. С этим связаны больший, чем в water и needle, вес выравнивания в BLASTP. Однако значения всех остальных параметров очень близки между собой (см. таблицу выше). Кроме того, значения большинства параметров выравнивания в water и needle даны более точно, нежели в описании выравнивания, данном BLASTP. Этим объясняется различие в процентном соотношении гэпов: в таблице процент гэпов в выравнивании water больше, чем в выравнивании BLAST (данные, полученные из указанных выше документов с выравниваниями и из web-интерфейса BLASTP). В это же время, как уже говорилось в сравнении рисунков, эти значения абсолютно одинаковы.

Итак, можно сделать вывод, что для поиска гомологичных последовательностей программа BLASTP пытается найти оптимальное соотношение между качеством выравнивания и количеством совпадений и положительных замен.


©Andreeva_2008