Множественное выравнивание. Мотивы и паттерны.
Целью занятия было ознакомиться с возможностями паттернов и мотивов в применении к множественным выравниваниям.
С помощью программы
blastp я нашел (
ortolog.fasta) гомологи своего белка, из которых выбрал 5, с процентами совпадений 40-80%,
E-value не хуже (не больше) 10-3. Оказалось (совершенно не специально), что у всех них в описании сказано, что они тоже связывают Витамин B-12. После построения выравнивания в программе
muscle я получил выравнивание (
aligned.fasta), в котором было видно два довольно консервативных домена - как раз на месте аминокислот, взаимодействующих с витамином. Я выбрал второй из этих участков для дальнейшего исследования, экспортировав его в html-файл
aligned.htm и сохранив в
fragment.msf.
Паттерны
Паттерн - эдакий 'образец' для последовательности, позволяющий без сложных алгоритмов выравнивания получить последовательности по заданному образцу. Моим заданием было создать такие 'паттерны' для интересующего меня сайта связывания с витамином. Их должно было быть три - один в точности соответствовать фрагменту моего белка, второй должен был распозновать белки моей выборки и только их, а третий - быть слабым и неправильным, на основе второго.
Поиск по паттернам производится на сайте
PROSITE с параметрами '
not greedy, not overlap', что означает, что найденные последовательности не обязательно должны были быть наибольшей длинны и не должны накладываться друг на друга.
Таблица 1. Результаты поиска по паттернам
Характеристика паттерна |
Паттерн |
В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? |
Все ли последовательности из Вашего выравнивания найдены? |
Фрагмент последовательности |
CGGENVFADSRVPWPQVSREQV |
3 |
Нет. |
Сильный |
C-G-G-[ER]N-[IV]-FA-[DN]-S-[RP]-V-P-W-P-Q-V-S-R-E-Q-V |
7 |
Да. |
Слабый |
G-[ER]N-[IV]-FA-[DN]-S-[RP]-V-P-W-P-Q-V-S-R-E |
41 |
Да. |
Последним упражнением был поиск мотивов в моем белке с помощью PROSITE. Как мне кажется, из найденных мотивов ценность имеет только первый, весьма подходящий по смыслу, а остальные - лишь издержки мягких условий поиска, без отсортировки неспецифичных паттернов.
Таблица 2. Мотивы в белке BTUF_ECOLI
Идентификатор документа PROSITE (AC) |
Название мотива |
Краткое описание мотива |
Тип подписи (паттерн, профиль) |
Паттерн (регулярное выражение) |
Специфична ли подпись? |
Сколько мотивов нашлось в белке? |
PS50983 |
FE_B12_PBP |
Профиль домена, периплазматически связывающего железо |
Профиль |
это матрикс |
да |
5 |
PS00006 |
CK2_PHOSPHO_SITE |
Casein kinase II phosphorylation site |
Паттерн |
[ST] - x(2) - [DE] |
нет |
5 |
PS00005 |
PKC_PHOSPHO_SITE |
Protein kinase C phosphorylation site |
Паттерн |
[ST] - x - [RK] |
нет |
2 |