Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://kodomo.cmm.msu.ru/~lu.andreeva/blastp.html
Дата изменения: Sun Mar 29 12:53:55 2009 Дата индексирования: Tue Oct 2 02:09:22 2012 Кодировка: Windows-1251 |
Программа BLASTP позволяет искать сходные последовательности данного белка в разных базах данных,
при этом результатами поиска являются выравнивания последовательности изучаемого белка с найденными в указанной базе данных.
Для удобства можно пользоваться web-интерфейсом программы BLASTP.
Найдем возможных гомологов белка BIOH_ECOLI (AC: P13001) в банках данных Swiss-Prot, PDB и "nr". Результаты поиска сведем в представленную ниже таблицу.
Лучшая находка | |||
  | БД Swiss-Prot | БД PDB | БД "nr" |
Идентификатор БД | P13001 | 1M33_A | NP_417871 |
E-value | 1*10-148 | 1*10-143 | 2*10-147 |
Вес (в битах) | 525 | 504 | 525 |
% идентичности | 100% | 97% | 100% |
Найдены ли другие белки с теми же значениями E-value и веса в битах? | нет | нет | нет |
Число находок в списке описаний (Descriptions) с E-value<=1*10-10 | 56 | 2 | 99 |
Худшая находка (E-value<=1.0) | |||
  | БД Swiss-Prot | БД PDB | БД "nr" |
Номер находки в списке описаний (Descriptions) | 110 | 36 | 99 |
Идентификатор БД | A7MB28 | 1S8O_A | YP_001143787 |
E-value | 0.002 | 1.0 | 3*10-67 |
Вес (в битах) | 42.4 | 29.6 | 258 |
% идентичности | 28% | 22% | 54% |
% сходства | 43% | 48% | 69% |
Длина выравнивания | 375 | 555 | 254 |
Координаты выравнивания (номера первых и последних а.к.) | BioH_ecoli: 11-134 A7MB28: 51-187 |
BioH_ecoli: 16-107 1S80_A: 261-360 |
BioH_ecoli: 10-249 YP_001143787: 9-249 |
% гэпов | 16% | 8% | 1% |
Как видно из таблицы, удалось найти белок BIOH_ECOLI в банках данных Swiss-Prot и "nr", в то время как в PDB был найден лишь на 97% совпадающий с исследуемым белок. Судя по
идентификатору в PDB и исходя из ранее выполненных работ (см. семестр 1), можно сделать вывод,
что найденная в PDB структура с AC: 1M33_A отличается от белка p13001 (BIOH_ECOLI) в связи с особенностями метода ее получения, либо различия обусловлены принадлежностью белков к разным штамам E.coli.
Интересны различия в "лучших находках" в разных БД по E-value. Выравнивания белка BIOH_ECOLI с самим собой
отличаются по этому параметру в БД "nr" и Swiss-Prot. Чтобы объяснить этот факт, обратимся к формуле, по которой определяют E-value:
Вызывает интерес соотношение числа находок с e-value<=1*10-10, т.е. потенциальных гомологов. В базах данных Swiss-prot и "nr" найдены довольно большие количества таких "гомологов": 56 и 99. Однако в БД PDB их найдено всего два. Это может быть связано с особенностями иформации,
представленной в базе данных: в PDB находятся описания структур белков, в то время как в Swiss-Prot и "nr" приведены описания и характеристики белков. Разумно предположить, что в банке данных PDB не будут представлены структуры белков, отличающихся лишь одной аминокислотой, да и изучение структуры будет
проводиться лишь для часто исследуемых белков, поскольку процесс ее получения очень трудоемок. Как видно из таблици, наибольшее количество потенциальных гомологов нашлось в банке "nr", что связано с тем, что данный БД включает в себя Swiss-Prot, PDB и несколько других банков, т.е. содержит в себе большее, чем отдельно в Swiss-Prot и PDB, количество информации.
Стоит также заметить, что возрастание количества находок в БД в последовательности увеличения их объема (PDB->Swiss-Prot->"nr") говорит об отсутствии видоспецифичности белка: если бы он встречался только у E. coli, увеличение количества данных по другим организмам не изменило бы количества находок.
Сравним теперь "худшие находки". Как видно из таблицы, сходные значения параметров имеют "худшие находки" в БД Swiss-Prot и PDB, за исключением лишь меньшего, по сравнению с остальными, номера находки базы данных PDB в списке описаний, что связано с меньшим общим количеством находок в этом банке.
Действительно, они характеризуются E-value близким к 1, весом выравниваний, не превышающим 50 бит, процентом идентичности меньшим 30%, и процентом сходства меньшим 50%. Кроме того, длина выравниваний найденных белков с исследуемым довольно велика, что говорит о значительном количестве гэпов в нем (см. таблицу).
"Худшая находка" в банке данных "nr" отличается гораздо большей сходностью с BIOH_ECOLI. Ее E-value гораздо меньше, чем у худших находок в БД Swiss-Prot и PDB, кроме того, она отличается примерно в 5 раз большим весом выравнивания и большими процентами сходства и идентичности. Длина выравнивания этой находки с исследуемым белком больше, чем на 100 символов, короче худших находок в других банках, что говорит о маленьком проценте гэпов в нем. Возможной причиной
таких особенностей может быть то что база данных "nr" включает в себя множество банков данных, а именно: CDS translations, PDB, SwissProt, PIR, PRF. Очевидно, из большего количества информации легче найти подходящие последователности, и их будет больше.
С помощью программы BLASTP будем искать возможных гомологов белка BIOH_ECOLI с ограничениями по таксонам. Рассматривать будем следующие: Homo sapiens, Archaea, Actinobacteria, Alteromonadales, Vibrionaceae. Таксоны приведены в порядке приближения к E. coli. Будем называть гомологом находку с E-value<0.001.
Результаты приведены в таблице.
База данных | Swiss-Prot | PDB | "nr" |
таксон | Homo sapiens | Actinobacteria | Homo sapiens |
Идентификатор БД | Q8TB40 | 2VF2_A | NP_071343 |
E-value | 2*10-6 | 3*10-5 | 1*10-5 |
Вес (в битах) | 49.7 | 40.8 | 49.7 |
% идентичности | 31% | 30% | 31% |
% сходства | 47% | 43% | 47% |
Длина выравнивания | 342 | 311 | 342 |
Координаты выравнивания (номера первых и последних а.к.) | BioH_ecoli:2-105 Q8tb40: 54-169 |
BioH_ecoli; 3-103 2Ve2_A: 45-155 |
BioH: 2-105 1e05: 54-169 |
% гэпов | 10% | 14% | 10% |
Из таблицы видно, что белок, найденный в Swiss-Prot имеет те же параметры, что и найденный в "nr". С помощью программы BLASTP выясним, что эти белки идентичны на 100%.
Отличается от упомянутых выше белок, найденный в БД PDB. Однако отличия эти невелики: выравнивание последовательностей 2VF2_A и BIOH_ECOLI лишь на 31 символ короче выравниваний исследуемого белка с найденными в Swiss-Prot и "nr", а процент гэпов лишь на 4% больше.
Стоит заметить, подходящий гомолог в PDB нашелся только в таксоне Actinobacteria, и это значительно ближе к E. coli, чем Homo sapiens. Но если судить по тому, что параметры выравниваний находок всех трех баз данных очень близки между собой, можно предположить, что в БД PDB не нашлось белка из Homo sapiens, поскольку он имеет очень консервативную структуру, и ее можно исследовать и по таким же белкам других организмов, из которых их легче выделить.
Возможно также, что именно структура человеческого белка-гомолога BIOH_ECOLI не столь важна для ученых.
На странице, посвященной пробным выравниваниям, фрагмент белка BIOH_ECOLI сравнивался с фрагментом неизвестного белка. Найдем, из какого белка был взят фрагмент:
  | Поиск по фрагменту | Поиск по полной последовательности A5IBW4 (lcl|5966) | Поиск по полной последовательности Q5WW99 (lcl|28016) | Поиск по полной последовательности Q5X590 (lcl|49382) | Поиск по полной последовательности Q5ZVG6 (lcl|95603) |
АС лучшей находки | A5IBW4 | A5IBW4 | Q5WW99 | Q5X590 | Q5ZVG6 |
E-value | 4*10-11 | 5*10-138 | 4*10-138 | 7*10-138 | 2*10-138 |
Вес (в битах) | 64.7 | 489 | 489 | 489 | 491 |
Найдены ли другие белки с теми же значениями E-value и веса в битах? | Белки с AC: Q5WW99, Q5X590, Q5ZVG6 | нет | нет | нет | нет |
Поиск по фрагменту отличается лишь меньшим, чем при поиске по полной последовательности, весом выравнивания и значением E-value, которе, тем не менее, очень невелико и равно 4*10-11.
Эти отличия вызваны меньшей длиной фрагмента. Стоит заметить, что при всех вышеобозначенных запросах первыми четырьмя результатами являлись представленные в таблице белки.
В списке выравниваний найдем выравнивание A5IBW4 с p13001 (уже давно исследуемый нами белок). Оно приведено ниже (query соответствует A5Bw4, sbject - p13001):
Query 2 NIHLDKYGQG-MPLVLFHGWGFDSQIWQPIIPYLKPKYQIILVDLPGFGLTP---MMDWE 57 NI GQG + LVL HGWG ++++W+ I L + + LVDLPGFG + + Sbjct 3 NIWWQTKGQGNVHLVLLHGWGLNAEVWRCIDEELSSHFTLHLVDLPGFGRSRGFGALSLA 62 Query 58 SFKKNLLDQLPDKFALAGWSMGGLYATRLAIEEPARVQYLINITSSPRFISDVDWPGVAE 117 + +L Q PDK GWS+GGL A+++A+ P RVQ L+ + SSP F + +WPG+ Sbjct 63 DMAEAVLQQAPDKAIWLGWSLGGLVASQIALTHPERVQALVTVASSPCFSARDEWPGIKP 122 Query 118 EVFVNFYNNLSKDINKTLKEFISLQL--------NKMKFDFKIGNPPSPE--GLAFGLEI 167 +V F LS D +T++ F++LQ + + P PE L GLEI Sbjct 123 DVLAGFQQQLSDDFQRTVERFLALQTMGTETARQDARALKKTVLALPMPEVDVLNGGLEI 182 Query 168 LGTWDFREQLKQISIPTVYLFGRLDPITPAKTMAIMEKNYPNFKYVLFNRAAHMPFLSHT 227 L T D R+ L+ +S+P + L+G LD + P K + +++K +P+ + +F +AAH PF+SH Sbjct 183 LKTVDLRQPLQNVSMPFLRLYGYLDGLVPRKVVPMLDKLWPHSESYIFAKAAHAPFISHP 242 Query 228 DLFITMM 234 F ++ Sbjct 243 AEFCHLL 249
В предыдущей теме была получена последовательность сходного с bioh_ecoli белка a5bw4, а также их выравнивание, полученное с помощью BLASTP. Сравним выравнивание, предложенное BLASTP, с оптимальными глобальным (программа needle) и локальным (программа water пакета Emboss), выполненными в ходе работы в командной строке Linux согласно описанной в теме "Глобальное и локальное выравнивание последовательностей" схеме. Полученные выравнивания можно увидеть в документах a5bw4andp13001.needle и a5bw4andp13001.water.
  | blast | needle | water |
% идентичности | 36% | 39.4% | 35.6% |
% сходства | 55% | 53.9% | 55.5% |
% гэпов | 5% | 6.6% | 5.7% |
Вес | 410 | 393 | 401 |
Длина | 247 | 256 | 247 |
Для наглядности рассмотрим рисунки с описанными выравниваниями (красным обозначены совпадения, желтым - положительные замены):
Из рисунков видно, что оптимальные глобальное и локальное выравнивания отличаются лишь тем, что локальное выравнивание не учитывает первые одну-две аминоксилоты и последние 5-7 аминокислот последовательностей -
участки глобального выранивания, лишенные совпадений и положительных замен. В остальном выравнивания абсолютно идентичны, в связи с этим сравним выравнивание, выполненное программой BLAST с
локальным выравниванием water.
Как и в локальном выравнивании a5bw4andp13001_water, в выравнивании BLASTP отсутствуют начало и конец выравнивания, сделанного в needle.
Первые 145 позиций, как и последние 75 (с 173 по 247 позицию), полностью одинаковы в выравниваниях a5bw4andp13001_blast и a5bw4andp13001_water.
Различия в участке 146-173 обусловлены различными постановками гэпов. В выравнивании BLASTP первый длинный гэп передвинут на один символ вперед по отношению к выравниванию water, кроме того, в выравнивании BLASTP
присутствует второй гэп, который в a5bw4andp13001_water входит в состав первого длинного гэпа. Такая перестановка позволила BLASTP обнаружить на одно совпадение и на одну положительную замену больше, чем присутствует в выравнивании water.
С этим связаны больший, чем в water и needle, вес выравнивания в BLASTP. Однако значения всех остальных параметров очень близки между собой (см. таблицу выше). Кроме того, значения большинства параметров выравнивания в water и needle даны более точно, нежели в описании выравнивания, данном BLASTP. Этим
объясняется различие в процентном соотношении гэпов: в таблице процент гэпов в выравнивании water больше, чем в выравнивании BLAST (данные, полученные из указанных выше документов с выравниваниями и из web-интерфейса BLASTP). В это же время,
как уже говорилось в сравнении рисунков, эти значения абсолютно одинаковы.
Итак, можно сделать вывод, что для поиска гомологичных последовательностей программа BLASTP пытается найти оптимальное соотношение между качеством выравнивания и количеством совпадений и положительных замен.