Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~lynx/term4/text/Profile.html
Дата изменения: Thu May 19 09:32:28 2011
Дата индексирования: Tue Oct 2 17:11:27 2012
Кодировка: Windows-1251
Profile

Простейший профиль: частотная матрица.

  1. Построение частотной матрицы (профиля) по участку выравнивания программой prophecy

    Был создан файл, содержащий тот участок выравнивания рибосомальных белков из выбранного таксона Firmicutes, по которому вы строился паттерн а прошлом задании.
    Потом на kodomo была запущена программа prophecy:
    prophecy
    Create frequency matrix or profile from a multiple alignment
    Input (aligned) sequence set: pat_2.msf
    Profile type
    F : Frequency
    G : Gribskov
    H : Henikoff
    Select type [F]: F
    Enter a name for the profile [mymatrix]:
    Enter threshold reporting percentage [75]: 30
    Output file [pat_2.prophecy]: pat_2.prophecy
  2. Поиск участков в бактериальных белках из Swiss-Prot, дающих счет выше 30 при сравнении с созданным профилем

    Взяты бактериальные белки из Swiss-Prot (/home/export/samba/public/y09/Term4/Materials/bacteria.fasta)
    На kodomo запущена программа profit:
    profit
    Scan one or more sequences with a simple frequency matrix
    Profile or weight matrix file: pat_2.prophecy
    Input sequence(s): bacteria.fasta
    Output file [pat_2.profit]: pat_2.profit
    На выходе получены названия найденных последовательностей с совпадениями, стартовая позиция последовательности и процентное содержание максимально возможного значения.
    Полученный файл был импортирован в Excel, находки упорядочены по убыванию счета, последовательности со значениями ниже 51 были удалены.
    Найдено:
    86420 всего (>30),
    1620 > 40,
    761 > 50,
    697 > 60.
  3. Анализ списока находок и сравнение его со списком всех белков подсемейства

    Белками подсемейства считаются все те, что находятся паттерном из Prosite при поиске по выбранному таксону (порог 50).
    i. Число верных находок ("True positive hits", TP), тех, которые присутсвуют как в списке находок, так и в списке белков подсемейства: 263;
    ii. Число ложных находок ("False positive hits", FP): белков, не принадлежащих подсемейству, но попавших в список находок (они же ошибки первого рода): 498;
    iii. Число ненайденных белков подсемейства (ложноотрицательных результатов, "False negatives", FN), или ошибок второго рода: 559-498=61;
    iv. Чувствительность TP/(TP+FN): 0,8117; (сильно ниже по сравнению с паттерном)
    v. Селективность TP/(TP+FP): 0,3456.
    ROC-кривая:



    При пороге 94 селективность близка к селективности созданного на предыдущем занятии паттерна. Чувствительность будет равна 495/559=0.8855.

    1. © Anastasia Maslova, 2011