Мембранные белки
На главную страницу четвертого семестра
Задача предсказать топологию мембранного белка и сравнить предсказание
с ориентированной в мембране 3D-структурой белка-прототипа.
Идентификаторы:
белок-прототип Q41372_SPIOL: AC UniProt Q41372
PDB ID 2B5F
белок для исследования Q5K123_9ROSI: AC UniProt Q5K123
Построение парного выравнивания исследуемого белка и заданного прототипа
Т.к. последовательности и нумерация остатков в БД PDB и БД UniProt могут
различаться, поэтому необходимо было получить и сравнить обе последовательности
белка-прототипа.
В БД UniProt была получена последовательность белка-прототипа (запрос:
[uniprot-AccNumber:Q41372*]).
На главной страничке сайта PDB в поле
запроса был введен ID белка-прототипа. На появившейся страниче, с помощью опции
Download Files > FASTA Sequence, была сохранена последовательность белка-прототипа.
С помощью программы needle было сделано выравнивание данных последовательностей:
needle Q41372.fasta 2B5F.fasta aln.needle -auto
ВЫРАВНИВАНИЕ:
########################################
# Program: needle
# Rundate: Fri May 25 2007 15:31:48
# Commandline: needle
# [-asequence] Q41372.fasta
# [-bsequence] 2B5F.fasta
# [-outfile] aln.needle
# -auto
# Align_format: srspair
# Report_file: aln.needle
########################################
#=======================================
#
# Aligned_sequences: 2
# 1: Q41372_SPIOL
# 2: SEQUENCE
# Matrix: EBLOSUM62
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 303
# Identity: 254/303 (83.8%)
# Similarity: 254/303 (83.8%)
# Gaps: 49/303 (16.2%)
# Score: 1317.0
#
#
#=======================================
Q41372_SPIOL 1 MSKEVSEEAQAHQHGKDYVDPPPAPFFDLGELKLWSFWRAAIAEFIATLL 50
|||||||||||||||||||||||
SEQUENCE 1 ---------------------------DLGELKLWSFWRAAIAEFIATLL 23
Q41372_SPIOL 51 FLYITVATVIGHSKETVVCGSVGLLGIAWAFGGMIFVLVYCTAGISGGHI 100
||||||||||||||||||||||||||||||||||||||||||||||||||
SEQUENCE 24 FLYITVATVIGHSKETVVCGSVGLLGIAWAFGGMIFVLVYCTAGISGGHI 73
Q41372_SPIOL 101 NPAVTFGLFLARKVSLLRALVYMIAQCLGAICGVGLVKAFMKGPYNQFGG 150
||||||||||||||||||||||||||||||||||||||||||||||||||
SEQUENCE 74 NPAVTFGLFLARKVSLLRALVYMIAQCLGAICGVGLVKAFMKGPYNQFGG 123
Q41372_SPIOL 151 GANSVALGYNKGTALGAEIIGTFVLVYTVFSATDPKRSARDSHVPILAPL 200
||||||||||||||||||||||||||||||||||||||||||||||||||
SEQUENCE 124 GANSVALGYNKGTALGAEIIGTFVLVYTVFSATDPKRSARDSHVPILAPL 173
Q41372_SPIOL 201 PIGFAVFMVHLATIPITGTGINPARSFGAAVIFNSNKVWDDQWIFWVGPF 250
||||||||||||||||||||||||||||||||||||||||||||||||||
SEQUENCE 174 PIGFAVFMVHLATIPITGTGINPARSFGAAVIFNSNKVWDDQWIFWVGPF 223
Q41372_SPIOL 251 IGAAVAAAYHQYVLRAAAIKALGSFRSNPTN------------------- 281
|||||||||||||||||||||||||||||||
SEQUENCE 224 IGAAVAAAYHQYVLRAAAIKALGSFRSNPTNLEQKLISEEDLNSAVDHHH 273
Q41372_SPIOL 281 --- 281
SEQUENCE 274 HHH 276
#---------------------------------------
#---------------------------------------
|
|
Вывод:
Последовательноть белка-прототипа из БД UniProt и последовательность того же белка, но
из БД PDB совпадают на 83.8. Если посмотреть на выравнивание, то можно видеть,
что выравнивание очень хорошее, гэпов нет, последовательность белка-прототипа
начинается с 28 а.о., а также можно видеть, что одна последовательность из
БД UniProt длинее последовательности белка из БД PDB на 22 а.о..
Причины данного факта могут быть разными.
Далее идентификатору UniProt была получена последовательность заданного белка (Q5K123_9ROSI).
Запрос:[uniprot-AccNumber:Q5K123*]. С помощью программы needle было
построено выравнивание последовательностей заданного белка (Q5K123_9ROSI) и
белка-прототипа Q41372_SPIOL (последовательность из БД PDB).
needle Q5K123.fasta 2B5F.fasta aln1.needle -aformat3 msf
Далее это выравнивание было открыто программой GeneDoc и сохранено в файле
marking.msf
Последовательность из БД OPM оказалась диннее последовательности из UniProt на
22 а.о.
Идентичность - 84%.
Разметка мембранных сегментов на выравнивании
По идентификатору PDB белка-прототипа (2B5F) было найдено описание
ориентации белка в мембране в БД OPM (Orientations of Proteins in Membranes database).
Данный белок имеет 4 цепи, для каждой из которых описано 8 трансмембранных сегмента:
(1(37-58), 2(75-93), 3(102-111), 4(116-137), 5(164-182), 6(199-214), 7(223-232), 8(242-261))
Позиции мембранных сегментов во всех четырех цепях совпадают.
Данный белок расположен в плазматической мембране эукариота.
Если воспользоваться опцией Jmol, то можно увидеть трехмерное изображение белка в мембране.
В данном случае синяя поверхность мембраны обознает липидный слой, обращенный в цитоплазму, а
красная поверхность мембраны обозначает липидный слой, обращенный во внеклеточную
среду. Также, с помощью данной опции мы может узнать позиции цитоплазматических
петель.
Петли:
для цепи А: 1(59-74), 2(138-161), 3(232-241), 4(215-217)
для цепи В: 1(59-74), 2(138-161), 3(232-241), 4(215-217)
для цепи С: 1(59-74), 2(138-161), 3(232-241), 4(215-217)
для цепи D: 1(59-74), 2(138-161), 3(232-241), 4(215-217),
цитоплазматическими не являются.
В файл marking1.msf ниже последовательности прототипа
была добавлена искусственная последовательность с названием "OPM" и разметкой ТМ
сегментов. Для этого мы воспользовались опцией импорта последовательности, как
текста с клавиатуры. Далее была создана последовательность из несколько символов "-"
с названием "OPM". После чего мы перешли в режим редактуры остатков (Edit Residue Mode)
и отметили позиции мембранных сегментов буквой "Н", позиции цитоплазматических
петель знаком "+", остальные - знаком "-".
Предсказание топологии заданного белка с помощью наиболее популярной программы (TMHMM)
На главной страничке сервера TMHMM в поле запроса мы ввели последовательность
Q5K123_9ROSI в формате fasta. Все остальные опции - по умолчанию.
Страничка с результатом предсказания TMHMM.
Далее к последовательностям в файле marking.msf была
добавлена еще одна искусственная последовательность, отражающая результаты данного
предсказания. Последовательность - "TMHMM".
Готовое выравнивание : в формате html marking.html
в формате Clustal marking.aln
Оценка качества предсказания
В этом задании необходимо сравнить полученное предсказание с данными OPM.
Для этого нужно было подсчитать 4 числа TP,TN,FP,FN, описание которых дано в
таблице
Результаты предсказания топологии мембранного белка Q5K123_9ROSI
|
Число а.к. остатков |
Всего а.к. остатков |
279 |
Остатки, предсказанные как локализованные в мембране (всего) |
138 |
Правильно предсказали (true positives, TP) |
110 |
Предсказали не то, что нужно (а.о. предсказаны как мембранные, а по данным ОРМ таковыми не являются, false positives, FP) |
28 |
Правильно не предсказали ( не предсказаны, и по данным ОРМ не находятся в мембране, true negatives, TN) |
122 |
Не предсказали то, что нужно (остатки по данным ОРМ находятся в мембране, false negatives, FN) |
28 |
Чувствительность (sensivity) = TP / (TP+FN) |
0.797 |
Специфичность (specificity) =TN / (TN+FP) |
0.772 |
Точность (precision) = TP / (TP+FP) |
0.797 |
Сверхпредсказание = FP/ (FP+TP) |
0.203 |
Недопредсказание = FN / (TN+FN) |
0.1866 |
Вывод:
На основе данных таблицы можно сделать вывод, что сервер TMHMM хорошо предсказал
белок Q5K123_9ROSI. Число ошибок по данным OPM - 56 ( предсказали ненужных 28 а.о,
в то время как не предсказали 28 а.о.). Чуствительность - доля правильно предсказанных
остатков среди тех, которые на самом деле входят в трансмембранные сегменты,
специфичность - доля правильно предсказанных остатков среди тех, которые входят
в состав петель. По данным таблицы значения чувствительности и специфичности большие.
Из-за высокого значения специфичности сверхпредсказание имеет тоже большое значение.
доля недопредсказанного очень мала, что очень хорошо.
©Трембицкая Влада