Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://kodomo.cmm.msu.ru/~svit/term4/MemProt.htm
Дата изменения: Sun Apr 22 17:24:47 2007 Дата индексирования: Tue Oct 2 07:06:39 2012 Кодировка: Windows-1251 |
На страницу IV-ого семестра
Ввиду того, что последовательности и нумерация остатков в БД PDB и БД UniProt могут различаться, построили парное глобальное выравнивание последовательностей (PDB - 2B5F.fasta и UniProt - Q41372) белка-прототипа с помощью программы needle (см. файл). Последовательность PDB длиннее на 22 а.о., но эти "лишние" остатки находятся в конце последовательности PDB, первые же 281 а.о. совпадают полностью в этих двух последовательностях. "Лишние" остатки на нумерацию совпадающих остатков не влияют. Эти остатки не имеют оношения к реальной последовательности белка, они, по-видимому, относятся к методам выделения и кристализации данного белка.
Получили последовательность белка Q39440, построили выравнивание этой последовательности с последовательностью белка-прототипа. Выравнивание строили с помощью программа ClustalW (emma), а затем импортировали в GeneDoc (см. выравнивание). Характеристики выравнивания можно узнать, воспользовавшись функцией "Statistics report" в GeneDoc. Итак, процент идентичности (в скобках указаны данные без учета 22 последних а.о. PDB последовательности белка-прототипа): 81,5% (87,9%); процент сходста: 84,8% (91,5%); гэпов: 7,3% (0%). Таким образом, выравнивание - хорошее, высокий процент идентичности.
По идентификатору PDB белка-прототипа 2B5F нашли описание ориентации белка в мембране в БД OPM (Orientations of Proteins in Membranes database).
На страничке OPM, посвещенной белку Spinach Aquaporin SoPIP2 (2B5F), можно почерпнуть много полезной информации. Во-первых, N-конец белковой молекулы погружен в цитоплазму. Во-вторых, указаны трансмембранные α-спирали, эти данные отражены в файле выравнивания (см. ниже). В-третьих, там есть красивая картинка, отражающая расположение белка в мембране (см. картинку, синия сторона обращенна в цитоплазму, красная - в межклеточную среду). Там есть еще полезная информация, но для данного задания она не нужна.
Предсказали топологию заданного белка с помощью сервера TMHMM (cм. страницу результатов). По результатам TMHMM добавили еще одну строчку в файл выравнивания (см. выравнивание в HTML формате, в Clustal формате)
Для быстрого подсчета нижеуказанных чисел (TP, FP, TN, FN ...) написали простенькую программку на языке Java (см. программный код в текстовом формате).
Результаты предсказания топологии мембранного белка Q41372
Число а.к. остатков | |
Всего а.к. остатков | 281 |
Остатки, предсказанные как локализованные в мембране (всего) | 135 |
Правильно предсказали (true positives, TP) | 108 |
Предсказали не то, что нужно (а.о. предсказаны как мембранные, а по данным ОРМ таковыми не являются, false positives, FP) | 27 |
Правильно не предсказали ( не предсказаны, и по данным ОРМ не находятся в мембране, true negatives, TN) | 116 |
Не предсказали то, что нужно (остатки по данным ОРМ находятся в мембране, false negatives, FN) | 30 |
Чувствительность (sensivity) = TP / (TP+FN) | 0,78 |
Специфичность (specificity) = TN / (TN+FP) | 0,81 |
Точность (precision) = TP / (TP+FP) | 0,80 |
Сверхпредсказание = FP/ (FP+TP) | 0,20 |
Недопредсказание = FN / (TN+FN) | 0,20 |
Качество предсказания можно оценить как достаточно высокое (точность = 0,8%), тем не менее из 8 α-спиральных участков указанных в OPM было предсказано только 6. Два коротких трансмембранных участка программа TMHMM пропустила. Параметр чувствительность указывает, какое количество трансмембранных а.о. предсказано из общего количества трансмембранных остатков. Этот показатель составляет 0,78%, что является хорошим результатом предсказания. То что программа TMHMM пропустила два коротких трансмембранных сегмента, очевидно, связано с особенностями алгоритма данной программы. Алгоритм расчитан на обнаружение трансмембранных участков длиной в районе 20 а.о., и два участочка по 10 а.о. были пропущены. Соображения насчет того, что трансмембранные участки, присутствующие в эталоне могут отсутствовать в топологии исследуемого белка, мало вероятны ввиду высокого сходства последовательностей эталонного и исследуемого белков.
Петли обращенные в сторону цитоплазмы должны содержать больше аргинина (R) и лизина (К). В последовательности белка-прототипа (2b5F) всего аргининов и лизинов: 17 из них 9 содержатся в цитоплазматических петлях (по OPM данным). В последовательности исследуемого белка Q39440 всего аргинов и лизинов: 18 из них 11 содержатся в цитоплазматических петлях (по TMHMM предсказанию) (см. выравнивание с соответствующей раскраской). Вообщем-то, правило правило фон Хейне выполняется, хотя количество аргина и лизина в цитоплазматических петлях не намного больше, чем в других участках молекулы.
С помощью программы pepwindow построили профиль гидрофобности для белка Q39440. Команда UNIX:
pepwindow Q39440.fasta -length 19 -graph data
Для определения трансмембранных сегментов, в Excel по полученным данным построили график.
На графике четко определяется 5 пиков, для которых среднее значение гидропатичности больше 1,7. Эти пики отвечают сегментам с серединами в 51; 81; 129; 173; 205 остатках. Пики в 81 и 205 а.о. имеют близко расположенные пики в 86 и 203 а.о. соответственно. С учетом этих данных пожно предположить пять трансмембранных сегментов: (42; 60), (72; 91), (120; 138), (164; 182), (196; 215). Отметим эти трансмембранные сегменты на выравнивании наших последовательностей (см. выравнивание в HTML формате, в Clustal формате).
Исследуем качество предсказания как в п.3 с помощью программы.
Результаты предсказания топологии мембранного белка Q41372 по профилю гидрофобности
Число а.к. остатков | |
Всего а.к. остатков | 281 |
Остатки, предсказанные как локализованные в мембране (всего) | 97 |
Правильно предсказали (true positives, TP) | 87 |
Предсказали не то, что нужно (а.о. предсказаны как мембранные, а по данным ОРМ таковыми не являются, false positives, FP) | 10 |
Правильно не предсказали ( не предсказаны, и по данным ОРМ не находятся в мембране, true negatives, TN) | 133 |
Не предсказали то, что нужно (остатки по данным ОРМ находятся в мембране, false negatives, FN) | 51 |
Чувствительность (sensivity) = TP / (TP+FN) | 0,63 |
Специфичность (specificity) = TN / (TN+FP) | 0,93 |
Точность (precision) = TP / (TP+FP) | 0,9 |
Сверхпредсказание = FP/ (FP+TP) | 0,1 |
Недопредсказание = FN / (TN+FN) | 0,28 |
На основании полученной статистики можно сказать, что предсказание по профилю гидрофобности несколько хуже, чем с помощью программы TMHMM. По профилю гидрофобности выше точность и специфичность предсказания, но найдено в этом случае заметно меньше трансмембранных участков. По профилю не удалось обнаружить три трансмембранных участка из восьми, что, на мой взгляд, является не очень хорошим результатом.
Скачать файлы marking.msf и marking2.msf