Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~anzhela/term4/pattern.html
Дата изменения: Sat May 21 18:33:43 2011
Дата индексирования: Tue Oct 2 10:28:22 2012
Кодировка: Windows-1251
pattern Четвертый семестр

Создание паттерна по выравниванию семейства белков

  1. Паттерн белка RS12_BACSU (PS00055) в банке Prosite

    [RK]-x-P-N-S-[AR]-x-R

    Описание:

    Рибосомальный белок S12 - один из юелков малой субъединицы рибосомы. В Escherichia coli S12 вовлечена в инициацию трансляции. Этот белок состоит из 120-150 амино-кислотных остатков. S12 принадлежит семейству рибосомальных белков в группах:

    • Бактериальный S12
    • Архейный S12
    • Белок хлоропластов водорослей и высших растений S12
    • Белок цианобактерий S12
    • Митохондриальный S12 прокариот и растений
    • Дрожжевой S28
    • Митохондриальный белок дрозофиллы tko (Technical KnockOut)
    • Белок млекопитающих S23

    15 последовательностей семейства не находятся и 5 лишних последовательностей находятся паттерном в банке Swiss-Prot, значения величин "Precision" (точность) - 99,51% и "Recall" (чувствительность) - 98,53%.

  2. Паттерн для поиска белков подсемейства

    Был выбран отдел Firmicutes и белки:
    RS12_BACSU
    RS12_CLOTE
    RS12_LACDA
    RS12_LISMO
    RS12_PEDPA
    RS12_STRPN

    Белки из других таксонов
    RS12_CHLAB
    RS12_CHLPN
    RS12_PARUW
    RS12_ARTAT
    RS12_BIFLO
    RS12_COREF

    Паттерном PS00055 в Firmicutes находятся 154 белка

    Паттерном K-x-R-{A}-[TS]-[VKQ]-{AL}-{R}-[QNK]-S-[DKT]-[SA]-P-A-L-[KN]-[NVKY]-[CGS] было найдено 53 последовательности, все они из Firmicutes.
    Жирным шрифтом отмечены консервативные остатки выбранной группы, которые не являются консервативными в контрольной
    Следовательно нужно смягчит паттерн. В белке RS12_ALKMQ, который не нашелся эти паттерном этот участок: стоит в 5 позиции A, Q в 16. Паттерн перепишем
    K-x-R-{A}-[ATS]-[VKQ]-{AL}-{R}-[QNK]-S-[DKT]-[SA]-P-A-L-[KNQ]-[NVKY]-[CGS]
    Этим паттерном найдены 55 последовательностей, решено смягчить его еще больше:
    K-x-R-{A}-[ATS]-[VKQ]-{AL}-{R}-[QNK]-S-[DKT]-[SA]-P-A-L-[KNQ]-x-[CGS] - найдено 75, все из данного таксона.
    K-x-R-x(2)-[VKQ]-{AL}-{R}-[QNK]-S-[DKT]-[SA]-P-A-L-[KNQ]-x-[CGS] - найдено 86, из них 3 из других таксонов.
    Смягчаем K-x-R-x-{K}-{S}-{AL}-{R}-{R}-S-[DKT]-[SA]-P-A-L-[KNQ] - найдено 111, из них 90 только из нужного таксона

    Было принято решение усилить паттерн
    Здесь лучшие результаты:
    [FKNRQ]-[ASPG]-R-x-[KRDATSV]-[AHITVKQL]-x(3)-S-x-[SA]-P-A-L 161, 135
    [FKNRQ]-[ASPG]-R-x-[KRDATSV]-[AHITVKQL]-x(3)-S-[DKT]-[SA]-P-A-L 141, 127
    И паттерн, сделанный по полному выравниванию:
    [FKNRQ]-[ASPGK]-R-[EKYSQHRVT]-[STDAPKVQE]-[EAHITVKQL]-x-[AEKTSQYVWFG]-[AQNK]-S-[ADKTN]-[SA]-P-A-L - 173, 136 оказался ничуть не лучше предыдущих

    Паттерн [FKNRQ]-[ASPG]-R-x-[KRDATSV]-[AHITVKQL]-x(3)-S-x-[SA]-P-A-L
    Им находятся всего - 161 белок, белки данного таксона - 135
    TP=135, FP=26, FN=19, чувствительность - 0,88, селективность - 0,84

    Выравнивание
    Голубым отмечен участок, по которому строился паттерн
    Синим отмечен исходный паттерн

Четвертый семестр


© Migur Anzhela 2010