Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://kodomo.cmm.msu.ru/~irbis/term4/11.html
Дата изменения: Thu May 26 23:25:03 2011
Дата индексирования: Tue Oct 2 06:23:58 2012
Кодировка: Windows-1251
1.Строим частотную матрицу (профиль) по участку выравнивания программой prophecy
Для этого создаем файл, содержащий частичное выравнивание (без контрольной группы).
После запускания на kodomo прогаммы prophecy (при этом используем файл с частичным выравниванием, на все вопросы отвечаем по умолчанию, кроме вопроса о пороге ("Enter threshold reporting percentage"), на который отвечаем "30"), получаем файл all_aligned.prophecy. Картинка ниже:
Колонки описывают аминокислоты A -> Z
Строчки позиции выравнивания 1 -> n
2.Проводим в бактериальных белках из Swiss-Prot поиск участков, дающих счет выше 30 при сравнении с созданным вами профилем
С помощью программы profit нашли:
Всего находок: 88479;
Счет больше 40: 1170;
Счет больше 50: 616;
Счет больше 60: 548;
Ограничимся счетом более 40, т.к. всего находок более 10000.
Итак, составлена таблица. См. лист "табл".
3. Анализируем список найденных белков и сравниваем его со списком всех белков подсемейства
Характиристики списка найденных белков:
Число верных находок ("True positive hits", TP): 54;
Число ложных находок ("False positive hits", FP): 1116;
Число ненайденных белков подсемейства (ложноотрицательных результатов, "False negatives", FN): 1;
Чувствительность TP/(TP+FN): 98,18%;
Селективность TP/(TP+FP): 4,41%.
Построили ROC-кривую. См. лист "ROC" в файле EXCEL Или на картинке:
Возьмем порог 51.
Для нее характеристики:
Число верных находок ("True positive hits", TP): 51;
Число ложных находок ("False positive hits", FP): 2;
Число ненайденных белков подсемейства (ложноотрицательных результатов, "False negatives", FN): 4;
Чувствительность TP/(TP+FN): 92,72%;
Селективность TP/(TP+FP): 96,22%.
Xарактеристики для моего паттерна:
Число верных находок ("True positive hits", TP): 48;
Число ложных находок ("False positive hits", FP): 0;
Число ненайденных белков подсемейства (ложноотрицательных результатов, "False negatives", FN): 7;
Чувствительность TP/(TP+FN): 87,27%;
Селективность TP/(TP+FP): 100%.
Построили ROC-кривую. См. лист "селект" в файле EXCEL Или на картинке: