Задача предсказать топологию мембранного белка
и сравнить предсказание с ориентированной в мембране 3D-структурой белка-прототипа.
Белок-прототип
|
Белок для исследования
|
AC UniProt P02722
|
AC UniProt Q4SFK5
|
PDB ID 1OKC
|
- Построение парного выравнивания исследуемого белка и заданного прототипа
Для сравнения последовательности и нумерации из PDB-файла и файла,
полученного из БД UniProt, было построено глобальное выравнивание.
Оказалось, что в PDB-файле последовательность не имеет первый метионин,
соответственно нумерация сдвинута на 1 позицию к началу, в остальном последовательности идентичны.
Было построено выранивание белка-прототипа (последовательности из PDB-файла)
и исследуемого белка следующей командой:
needle Q4SFK5.fasta 1okc.fasta marking.needle -gapopen 10 -gapextend 0.5
Полученное выравнивание имеет достаточно хорошие характеристики:
# Length: 300
# Identity: 266/300 (88.7%)
# Similarity: 284/300 (94.7%)
# Gaps: 4/300 ( 1.3%)
# Score: 1412.0
Это говорит о высокой вероятности выполнения этими белками одной и той же функции,
а значит и структура, так как они оба являются мембранными белками, должна быть схожа.
- Разметка мембранных сегментов на выравнивании
По идентификатору PDB белка-прототипа было найдено
описание ориентации белка в мембране в БД OPM
Далее было выполнено предсказание топологии исследуемого белка с помощью сервера TMHMM. (использовались опции по умолчанию).
Так выглядит результат работы сервера TMHMM
В файле, содержащем выравнивание белка-прототипа (последовательности из PDB-файла) и исследуемого белка,
были добавлены 2 последовательности OPM, которая отражает данные об ореинтации белка-прототипа из БД OPM,
и TMHMM, которая отражает результаты работы сервера TMHMM, где буквой "Н" отмечены позиции мембранных сегментов,
позиции цитоплазматических петель знаком "+", остальные - знаком "-".
В результате выранивание выглядит следующим образом:
На выравнивании участки TP отмечены красным, TN - желтым, FP - синим и FN - фиолетовым.
Также выравнивание сохранено в виде текстового файла формата Clustal.
- Оценка качества предсказания
Сравнивалось полученное предсказание с данными ОРМ.
Результаты предсказания топологии мембранного белка с PDB ID 1OKC
|
Число а.к. остатков |
Всего а.к. остатков |
300 |
Остатки, предсказанные как локализованные в мембране (всего) |
47 |
Правильно предсказали (true positives, TP) |
43 |
Предсказали не то, что нужно (а.о. предсказаны как мембранные, а по данным ОРМ таковыми не являются, false positives, FP) |
4 |
Правильно не предсказали (не предсказаны, и по данным ОРМ не находятся в мембране, true negatives, TN) |
131 |
Не предсказали то, что нужно (остатки по данным ОРМ находятся в мембране, false negatives, FN) |
102 |
Чувствительность (sensivity) = TP/(TP+FN) |
43/(43+102)=0.3 |
Специфичность (specificity) = TN/(TN+FP) |
131/(131+4)=0.97 |
Точность (precision) = TP / (TP+FP) |
43/(43+4)=0.92 |
Сверхпредсказание = FP/(FP+TP) |
4/(4+43)=0.09 |
Недопредсказание = FN/(TN+FN) |
102/(102+131)=0.44 |
Оценка качества предсказания:
Как можно видеть из таблицы, точно предсказания оказалась достаточно велика,
то есть те участки, которые в предсказании были объявлены как мембранные
с точностью 92% оказались таковыми, что очень хорошо.
При этом специфичность предсказания так же очень высока.
В 97% случаев участки, предсказаные как немембранные оказались таковыми.
Чувствительность предсказания оказалось достаточно низкой, всего 30%.
Значит участки, предсказанные как мембранные, составляют всего 30% от мембранных участков, описанных ОРМ.
Сверхпредсказание оказалось равным почти 1%, что говорит о том, что почти не предсказано лишнего.
Зато недопредсказание достаточно велико. 44% информации о положении мембранных участков оказалось непредсказаным.
В общем предсказание оказалось достаточно хорошим с точки зрения достоверности,
но при этом многие мембранные участки не были предсказаны вообще.
|