Главная
Новости
Полезные ссылки
Контакты
Обо мне
Мои работы
|
Занятие 6. Программа BLASTP
Обязательные задания
- Поиск белка по его гомологу
- Информация о поданном на вход белке (порядковый номер - 1):
sp|Q9HUM6|PURA_PSEAE Adenylosuccinate synthetase (IMP--aspartate ligase) (AdSS) (AMPSase)
Length=430
Score = 874 bits (2259), Expect = 0.0
Информация о моем белке (порядковый номер - 36):
sp|P0A7D4.2|PURA_ECOLI Adenylosuccinate synthetase (IMP--aspartate ligase) (AdSS) (AMPSase)
Length=432
Score = 627 bits (1618), Expect = 2e-179
Информация о последнем белке в выдаче программы (порядковый номер - 100):
sp|A1WMN5.1|PURA_VEREI Adenylosuccinate synthetase (IMP--aspartate ligase) (AdSS) (AMPSase)
Length=458
Score = 531 bits (1367), Expect = 3e-150
Стоит отметиться, что значение Score строго уменьшается сверху вниз (то есть по нему строится порядок выдачи результатов). Значение Expect, как правило (не всегда), увеличивается.
Программа не выдала больше находок, так как в разделе "Algorithm parameters" в графе "Max target sequence" было задано ограничение на количество выдаваемых файлов - не более 100. Я заного запустил поиск, установив параметр "не более 5000", и программа выдала мне все 5 000 выравниваний. Первая сотня, конечно, осталась такой же. В самом конце, кстати, совпадали всего несколько групп по несколько аминокислот в каждой.
-
Повторил поиск с той же входной последовательностью, указав в качестве банка pdb. Вот данные для первой находки в списке:
PDB-коды и идентификаторы цепей: 1KJX (Chain A), 1KKB (Chain A), 1KKF (Chain A).
Score: 627
E-value: 1e-180
Начало и конец выравнивания во входной последовательности (Query): 1 и 429
Начало и конец выравнивания в находке (Subject): 1 и 430
Процент совпадений: 70%
Вторая найденная последовательность соответствует той, с которой я работал в первом семестре - 1CG0 (Chain A). Она имеет второй порядковый номер, значения Score = 624 и Expect = 1e-179.
В качестве комментариев хотелось бы отметить следущее. Во-первых, судя по общему количеству найденных белков (около 30) и тому, что самый близкий к входной последовательности белок имел с ней лишь 70% совпадений, пространственная структура расшифрована для очень небольшой части белков. Во-вторых, номера начала и конца совпадающих участков в подавляющем большинстве случаев не совпадают, что может означать две вещи: либо какие-то куски расшифровке не поддаются, либо в каждой записи pdb ведется своя нумерация атомов. Вероятно, обычно происходит и то, и то.
- Поиск белка по части его последовательности
Я повторил поиск по Swiss-Prot, подав на вход первую треть последовательности (143 остатка из 430). В результате исходная последовательность осталась первой в списке, а значения выравнивания изменились так: Score = 286 (было 874), Expect = 1e-77 (было 0.0).
Объяснить изменение можно так: score уменьшилось, так как уменьшилась общая длина введенной на вход последовательности, и, следовательно, абсолютное число совпадающих букв. Причем уменьшилось score как раз почти точно на треть. Что же касается значения expect, то оно сильно увеличилось (в нижеследующих выравниваниях тоже). Это можно объяснить таким образом: чем меньше длина подаваемого на вход куска, чем легче найти совпадения между случайно построенными последовательностями этой длины и каким-нибудь белком из базы данных. Соответственно, и среднее количество случайных выравниваний, имеющих больший или то же вес, что и данное, увеличилось.
- Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями
Из списка, выданного программой BLASTP, я выбрал выравнивание с белком A5EVE1.1 (PURA_DICNV). Это выравнивание сохранено мной в файле blast.txt. Посмотрев штрафы за гэпы из BLASTP (Gap Penalties: Existence: 11, Extension: 1), я с помощью Linux и kodomo (разрешите опустить подробности) составил еще два файла (whole.needle и local.water). Они содержат соответственно оптимальные полное и частичное вырвнивания белков PURA_PSEAE и PURA_DICNV с штрафами за гэпы 11 и 1.
-
Сравнение выравнивания BLASTP (1) и оптимального полного выравнивания (2)
|
BLASTP |
Needle |
Score |
512 |
1294.0 |
Длина (max) |
424 |
430 |
% совпадений |
250/424 (58%) |
250/430 (58.1%) |
% сходства |
312/424 (73%) |
313/430 (72.8%) |
"Длина (max)" означает, что из двух выравненных фрагментов белков мы выбираем самый длинный.
Выравнивание 1 включает в себя остатки 1-424 белка PURA_PSEAE и остатки 1-422 белка PURA_DICNV. Выравнивание 2 включает в себя остатки 1-430 белка PURA_PSEAE и остатки 1-428 белка PURA_DICNV. Сравним эти два выравнивания.
- BLASTP не включил в выравнивание шесть последних остатков каждого белка, посчитав, видимо, что они никак не сходны. Needle, однако, сумел найти там одну пару схожих остатков, а оставшиеся четыре пары все-таки дописал до конца, хоть никакого сходства там и не было. На этом примере мы находим два принципиальных различия: во-первых, программы используют разные таблицы схожести (по крайней мере, сходной пары Q-R я в BLASTP не обнаружил). Во-вторых, после окончания сходности BLAST не доводит выравнивание до конца, а Needle - доводит.
- Score в BLASTP более чем в два раза меньше, чем в Needle. Вряд ли это можно объяснить лишь разницей в выравнивании и в его длине. Скорее всего, дело в разном количестве очков, начисляемых за одно совпадение или схожесть в двух программах.
- Количество совпадений одинаково, процент, казалось бы, тоже. Но при ручном подсчете оказалось, что BLASTP не умеет округлять десятичные дроби: 250/424 = 58.96 %, округлять такое нужно в любом случае до 59 %, как это, к слову, и сделал Water.
- Количество сходств различается на единицу - за счет вышеупомянутой разницы. Процент почти одинаков, разница опять-таки за счет недостающего в BLASTE сходства и разнице в размерах.
- Кроме вышеупомянутого участка в конце, никаких других различий в выравниваниях мной обнаружено не было. В обоих выравниваниях на одниковых местах стоят два гэпа.
-
Сравнение выравнивания BLASTP (1) и оптимального частичного выравнивания (3)
|
BLASTP |
Water |
Score |
512 |
1300 |
Длина (max) |
424 |
424 |
% совпадений |
250/424 (58%) |
250/424 (59.0%) |
% сходства |
312/424 (73%) |
312/424 (73.6%) |
Выравнивание 1 включает в себя остатки 1-424 белка PURA_PSEAE и остатки 1-422 белка PURA_DICNV. То же можно сказать и о выравнивании 3. Сравним эти два выравнивания.
- Как нетрудно догадаться, Water пошел по пути BLASTP и отбросил шесть последних столбцов, в том числе одно сходство. На этом примере, кстати, еще более заметен ляп BLASTP по поводу дробей: абсолютные числа те же, а проценты разные. То же, в целом, можно сказать и о проценте сходства.
- Score в Water еще больше, чем в Needle, не говоря уже о BLASTP. Видимо, дело снова в баллах за совпадения и схожести.
- Никаких различий в выравниваниях мной обнаружено не было. Оба гэпа твердо стоят на положенных местах.
|