Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~kinta/Term4/protocol8.html
Дата изменения: Mon May 14 21:16:24 2007
Дата индексирования: Tue Oct 2 10:07:20 2012
Кодировка: Windows-1251
function назад к четвертому семестру

Мембранные белки

Задача - предсказать топологию мембранного белка и сравнить предсказание с ориентированной в мембране 3D-структурой белка-прототипа.

Белок для исследования: AC UniProt A0ITQ0;
Белок-прототип: AC UniProt P0AER0, PDB ID 1LDF.

Построение парного выравнивания исследуемого белка и заданного прототипа

Последовательности и нумерация остатков в БД PDB и БД UniProt могут различаться. Поэтому было решено получить и сравнить обе последовательности белка-прототипа. С помощью программы Needle было построено глобальное выравнивание двух последовательностей, параметры по умолчанию, в результате получили выравнивание. Идентичность - 99.3%. Таким образом, нумерация остатков не различается, последовательности различаются на 2 аминокислоты.
Построим парное выравнивание последовательности заданного белка и последовательности белка-прототипа из PDB. Воспользуемся программой Needle, параметры оставим по-умолчанию: штраф за открытие гэпа - 10, за продолжение - 0,5. В результате получено выравнивание (файл marking.msf). Процент идентичности - 80.6%, процент сходства - 89,4%. Длина обеих последовательностей - 281 а.о.

Разметка мембранных сегментов на выравнивании

По идентификатору PDB белка-прототипа в БД OPM (Orientations of Proteins in Membranes database) было найдено описание ориентации белка в мембране: результат. В записи содержится информация о типе трансмембранного белка, его классе, семействе, организме и локализации. В результате стало известно, что белок-прототип относится к трансмембранный белкам семейства (MIP) Major Intrinsic Protein и осуществляет перенос глицерола через мембрану.
В записи приведена информация о трансмембранных участках белка. Нет информации о том, что оба конца белка находятся со стороны цитоплазмы, но об этом можно узнать, посмотрев пространственную структуру белка, приведенную здесь же (для этого достаточно выделить концевые а.о. и посмотреть, с какой стороны они располагаются).
В файле marking.msf была добавлена последовательность с названием "OPM" и разметкой ТМ сегментов, далее перешли в режим редактуры остатков (Edit Residue Mode) и отметили позиции мембранных сегментов буквой "Н", позиции цитоплазматических петель знаком "+", остальные - знаком "-". Полученно следующее изображение, голубым выделены трасмембранные сегменты, розовым - цитоплазматические петли.

Предсказание топологии заданного белка с помощью наиболее популярной программы (TMHMM)

На странице сервера TMHMM был указан путь к файлу, содержащему последовательность заданного белка. Все параметры оставлены по умолчанию. Программа выдала предсказание топологии заданного белка. Страница содержит следующую информацию:
количество трансмембранных участков - 6
общее количество аминокислотных остатков в трансмембренных участках - 138
количество аминокислотных остатков в трансмембренных участках из первых 60 а.о. - 34
вероятность того, что N-конец находится со стороны цитоплазмы - 0.88402 (достоверно!)
Далее приводится список трансмембранных участков и схема, отражающая вероятности появления того или иного трансмембранного участка.
К последовательностям в файле marking.msf добавили еще одну искусственную последовательность, отражающую результаты данного предсказания. Эту последовательность назвали "TMHMM", файл marking.msf стал выглядеть так. Пояснения раскраски:
Желтый - предсказание совпадает с данными OPM, а.о. входит в ТМ сегмент (далее в таблице - TP),
зеленый - предсказание не совпадает с данными OPM, а.о. входит в ТМ сегмент по данным OPM (FN),
красный - предсказание не совпадает с данными OPM, а.о. не входит в ТМ сегментпо данным OPM (FP),
синий - предсказание совпадает с данными OPM, а.о. не входит в ТМ сегмент(TN).

Необходимо отметить, что в выравнивании присутствуют гэпы, нужно договориться, как их учитывать при анализе данных. В выравнивании 2 группы гэпов по 2 а.о., эти гэпы не попадают на ТМ участки (ни по OPM, ни по TMHMM), поэтому их можно не учитывать. Длина белков - 281 а.о., а длина выравнивания формально - 283. Участки, на которых в выравнивании "попадали" гэпы, были выделены знаком "?" и учитывались при подсчете как TN (правильно, что не предсказали трансмембранный сегмент).
Из-за гэпов возникла некоторая путаница с общим количеством а.о. Формально, это число должно быть равно TP+TN+FP+FN=283, но, учитывая гэпы, получим 281.
Также полученное выравнивание было сохранено в виде текстового файла формата Clustal: marking.txt.

Анализ полученных данных

Анализ полученных данных заключался в сравнении ТМ сегментов, предсказанных с помощью TMHMM, с сегментами по данным OPM. Необходимо было подсчитать некоторые параметры, это можно было сделать вручную, а можно - с помощью программы, написанной на языке Java (код). Ниже представлены результаты, полученные с помощью программы (на всякий случай произведена проверка и вручную тоже):
  Число а.к. остатков
Всего а.к. остатков 281
Остатки, предсказанные как локализованные в мембране (всего) 135
Правильно предсказали (true positives, TP) 113
Предсказали не то, что нужно (а.о. предсказаны как мембранные, а по данным ОРМ таковыми не являются, false positives, FP) 22
Правильно не предсказали ( не предсказаны, и по данным ОРМ не находятся в мембране, true negatives, TN) 121
Не предсказали то, что нужно (остатки по данным ОРМ находятся в мембране, false negatives, FN) 27
Чувствительность (sensivity) = TP / (TP+FN) 0,81
Специфичность (specificity) = TN / (TN+FP) 0,85
Точность (precision) = TP / (TP+FP) 0,83
Сверхпредсказание = FP/ (FP+TP) 0,16
Недопредсказание = FN / (TN+FN) 0,18
Программа TMHMM предсказала 6 ТР сегментов, в то время как у белка-прототипа по данным OPM 8 ТМ сегментов. Учитывая большой процент идентичности иследумого белка и белка-прототипа, можно сравнивать из ТМ сегменты и обсуждать точность предсказания, а также его специфичность и чувствительнсть. В основе работы программы TMHMM лежит скрытая марковская модель, позволяющая предсказывать ТМ участки длиной не менее 20 а.о. 2 из 8 ТМ сегмента белка-прототипа короче 20 а.о., это объясняет то, что программа TMHMM не предсказала эти 2 ТМ сегмента. В остальном программа справилась с поставленной задачей, процент точности достаточно высок, как и процент специфичности. Метод достаточно чувствителен (81%) - 6 из 8 ТМ сегментов были предсказаны.

Правило фон Хейне

Необходимо было проверить, выполняется ли правило фон Хейне в структуре белка-прототипа (по данным ОРМ) и в топологии, предсказанной ТMHMM. Согласно этому правилу петли, обращенные в сторону цитоплазмы, содержат больше остатков аргинина и лизина.
Воспользуемся возможностями программы GeneDoc. Выбрав в меню Reports -> Base Composition Report, получим данные о встречаемости различных а.о. в последовательности. Используя эту опцию, получили таблицу:
данные OPM данные TMHMM
Всего аргинина в последовательности (число а.о.) 7 7
Число аргинина во "внутренних" петлях 3 3
Всего лизина в последовательности (число а.о.) 8 7
Число лизина во "внутренних" петлях 4 4
Таким образом, по данным OPM, аргинин/лизин в цитоплазматических петлях - 46% от общего числа агринина/лизина в последовательности белка-прототипа. Учитывая, что а.о. цитоплазматических петель составляют 33% от общей длины последовательности, считаем, что правило фон Хейне выполняется.
По данным TMHMM, аргинин/лизин в цитоплазматических петлях - 53% от общего числа агринина/лизина в последовательности белка-прототипа. Учитывая, что а.о. цитоплазматических петель составляют 24% от общей длины последовательности, считаем, что правило фон Хейне выполняется.
Правило фон Хейне можно использовать для предсказания ориентации белка в мембране: количество аргининов и лизинов выше в цитоплазматических петлях, следовательно, можно определить ориентацию белка.
© Виноградова Светлана