Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~svit/term4/MemProt.htm
Дата изменения: Sun Apr 22 17:24:47 2007
Дата индексирования: Tue Oct 2 07:06:39 2012
Кодировка: Windows-1251
Мембранные белки

На страницу IV-ого семестра

Мембранные белки

  1. Построение парного выравнивания исследуемого белка и заданного прототипа

    Ввиду того, что последовательности и нумерация остатков в БД PDB и БД UniProt могут различаться, построили парное глобальное выравнивание последовательностей (PDB - 2B5F.fasta и UniProt - Q41372) белка-прототипа с помощью программы needle (см. файл). Последовательность PDB длиннее на 22 а.о., но эти "лишние" остатки находятся в конце последовательности PDB, первые же 281 а.о. совпадают полностью в этих двух последовательностях. "Лишние" остатки на нумерацию совпадающих остатков не влияют. Эти остатки не имеют оношения к реальной последовательности белка, они, по-видимому, относятся к методам выделения и кристализации данного белка.

    Получили последовательность белка Q39440, построили выравнивание этой последовательности с последовательностью белка-прототипа. Выравнивание строили с помощью программа ClustalW (emma), а затем импортировали в GeneDoc (см. выравнивание). Характеристики выравнивания можно узнать, воспользовавшись функцией "Statistics report" в GeneDoc. Итак, процент идентичности (в скобках указаны данные без учета 22 последних а.о. PDB последовательности белка-прототипа): 81,5% (87,9%); процент сходста: 84,8% (91,5%); гэпов: 7,3% (0%). Таким образом, выравнивание - хорошее, высокий процент идентичности.

  2. Разметка мембранных сегментов на выравнивании

    По идентификатору PDB белка-прототипа 2B5F нашли описание ориентации белка в мембране в БД OPM (Orientations of Proteins in Membranes database).

    На страничке OPM, посвещенной белку Spinach Aquaporin SoPIP2 (2B5F), можно почерпнуть много полезной информации. Во-первых, N-конец белковой молекулы погружен в цитоплазму. Во-вторых, указаны трансмембранные α-спирали, эти данные отражены в файле выравнивания (см. ниже). В-третьих, там есть красивая картинка, отражающая расположение белка в мембране (см. картинку, синия сторона обращенна в цитоплазму, красная - в межклеточную среду). Там есть еще полезная информация, но для данного задания она не нужна.

  3. Предсказание топологии заданного белка с помощью наиболее популярной программы (TMHMM)

    Предсказали топологию заданного белка с помощью сервера TMHMM (cм. страницу результатов). По результатам TMHMM добавили еще одну строчку в файл выравнивания (см. выравнивание в HTML формате, в Clustal формате)

  4. Оценка качества предсказания

    Для быстрого подсчета нижеуказанных чисел (TP, FP, TN, FN ...) написали простенькую программку на языке Java (см. программный код в текстовом формате).

    Результаты предсказания топологии мембранного белка Q41372

      Число а.к. остатков
    Всего а.к. остатков 281
    Остатки, предсказанные как локализованные в мембране (всего) 135
    Правильно предсказали (true positives, TP) 108
    Предсказали не то, что нужно (а.о. предсказаны как мембранные, а по данным ОРМ таковыми не являются, false positives, FP) 27
    Правильно не предсказали ( не предсказаны, и по данным ОРМ не находятся в мембране, true negatives, TN) 116
    Не предсказали то, что нужно (остатки по данным ОРМ находятся в мембране, false negatives, FN) 30
    Чувствительность (sensivity) = TP / (TP+FN) 0,78
    Специфичность (specificity) = TN / (TN+FP) 0,81
    Точность (precision) = TP / (TP+FP) 0,80
    Сверхпредсказание = FP/ (FP+TP) 0,20
    Недопредсказание = FN / (TN+FN) 0,20

    Примечание: при расчетах не учитывались 22 последних а.о. последовательности из PDB, так как они в предсказании не участвуют.

    Качество предсказания можно оценить как достаточно высокое (точность = 0,8%), тем не менее из 8 α-спиральных участков указанных в OPM было предсказано только 6. Два коротких трансмембранных участка программа TMHMM пропустила. Параметр чувствительность указывает, какое количество трансмембранных а.о. предсказано из общего количества трансмембранных остатков. Этот показатель составляет 0,78%, что является хорошим результатом предсказания. То что программа TMHMM пропустила два коротких трансмембранных сегмента, очевидно, связано с особенностями алгоритма данной программы. Алгоритм расчитан на обнаружение трансмембранных участков длиной в районе 20 а.о., и два участочка по 10 а.о. были пропущены. Соображения насчет того, что трансмембранные участки, присутствующие в эталоне могут отсутствовать в топологии исследуемого белка, мало вероятны ввиду высокого сходства последовательностей эталонного и исследуемого белков.


  5. Выполняется ли правило фон Хейне в структуре белка-прототипа (по данным ОРМ) и в топологии, предсказанной ТMHMM

    Петли обращенные в сторону цитоплазмы должны содержать больше аргинина (R) и лизина (К). В последовательности белка-прототипа (2b5F) всего аргининов и лизинов: 17 из них 9 содержатся в цитоплазматических петлях (по OPM данным). В последовательности исследуемого белка Q39440 всего аргинов и лизинов: 18 из них 11 содержатся в цитоплазматических петлях (по TMHMM предсказанию) (см. выравнивание с соответствующей раскраской). Вообщем-то, правило правило фон Хейне выполняется, хотя количество аргина и лизина в цитоплазматических петлях не намного больше, чем в других участках молекулы.

  6. Предсказание топологии мембранного белка Q39440 на основе его профиля гидрофобности

    С помощью программы pepwindow построили профиль гидрофобности для белка Q39440. Команда UNIX:

    pepwindow Q39440.fasta -length 19 -graph data

    Для определения трансмембранных сегментов, в Excel по полученным данным построили график.

    На графике четко определяется 5 пиков, для которых среднее значение гидропатичности больше 1,7. Эти пики отвечают сегментам с серединами в 51; 81; 129; 173; 205 остатках. Пики в 81 и 205 а.о. имеют близко расположенные пики в 86 и 203 а.о. соответственно. С учетом этих данных пожно предположить пять трансмембранных сегментов: (42; 60), (72; 91), (120; 138), (164; 182), (196; 215). Отметим эти трансмембранные сегменты на выравнивании наших последовательностей (см. выравнивание в HTML формате, в Clustal формате).

    Исследуем качество предсказания как в п.3 с помощью программы.

    Результаты предсказания топологии мембранного белка Q41372 по профилю гидрофобности

      Число а.к. остатков
    Всего а.к. остатков 281
    Остатки, предсказанные как локализованные в мембране (всего) 97
    Правильно предсказали (true positives, TP) 87
    Предсказали не то, что нужно (а.о. предсказаны как мембранные, а по данным ОРМ таковыми не являются, false positives, FP) 10
    Правильно не предсказали ( не предсказаны, и по данным ОРМ не находятся в мембране, true negatives, TN) 133
    Не предсказали то, что нужно (остатки по данным ОРМ находятся в мембране, false negatives, FN) 51
    Чувствительность (sensivity) = TP / (TP+FN) 0,63
    Специфичность (specificity) = TN / (TN+FP) 0,93
    Точность (precision) = TP / (TP+FP) 0,9
    Сверхпредсказание = FP/ (FP+TP) 0,1
    Недопредсказание = FN / (TN+FN) 0,28

    На основании полученной статистики можно сказать, что предсказание по профилю гидрофобности несколько хуже, чем с помощью программы TMHMM. По профилю гидрофобности выше точность и специфичность предсказания, но найдено в этом случае заметно меньше трансмембранных участков. По профилю не удалось обнаружить три трансмембранных участка из восьми, что, на мой взгляд, является не очень хорошим результатом.

    Скачать файлы marking.msf и marking2.msf


© Sedliarov Vitaliy