Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~TheWatcher/Term4/Report.doc
Дата изменения: Mon May 29 18:27:26 2006
Дата индексирования: Tue Oct 2 10:56:43 2012
Кодировка: koi8-r

Отчет о результатах анализа множественного выравнивания
последовательностей белков, гомологичных белку Каталаза II

Бурков Б.

Аннотация


Проведен анализ семейства каталаз, представителем которого является белок
Cate_Ecoli (Каталаза II). С помощью первичных последовательностей, а также
данных 3D-структур белки семейства изучены на предмет наличия значимых для
их функционирования позиций и оформленных подсемейств. Это позволяет
сделать некоторые выводы о самом исходном белке.

Введение.



О белке


Исходный белок представляет собой оксидоредуктазу II (т.е. его функция
состоит в расщеплении перекиси водорода до воды и кислорода). Длина белка -
753 а. к. о., в его состав входят 2 аннотированных домена - Catalase и
Catalase-related (соответственно 81-469 а. к. о. и 514-567 а. к. о.).
Белок существует в виде тетрамера из четырех одинаковых субъединиц.


О множественном выравнивания последовательностей гомологичных белков

Множественное выравнивание последовательностей гомологичных белков должно
отражать совпадение остовов полипептидных цепей и, во вторую очередь,
сходство происхождения и функций соответствующих остатков.

Программы множественного выравнивания при его построении руководствуются
исключительно соображениями наибольшего веса и не способны отличить
области, где нет никакого сходства последовательностей, кроме чисто
статистического, от областей, где выравнивание действительно есть. Это
может приводить при кластеризации к сдвигу соответствующих участков в
последовательностях. С некоторыми проявлениями удается бороться с
переменным успехом (например, динамическая кластеризация в Muscle), с
другими - хуже. В любом случае, программы множественного выравнивания не в
состоянии правильно выровнять неконсервативные с точки зрения радикалов, но
консервативные по остову петли и тяжи. Все это означает, что их работа
нуждается в «ручной» проверке.




О выполненной работе

С помощью сервиса PDBsum был проведен сравнительный анализ нескольких PDB-
структур белков семейства, на основании полученных данных были выделены
консервативные петли и тяжи. Далее было откорректировано выравнивание
полных последовательностей (AC последовательностей были получены из seed
Pfam [часть последовательностей отсеяна], поисковой системой SRS были
найдены полные последовательности, выровнены Muscle) в соответствии с тем,
что вставки в петлях и стрэндах должны быть в минимальном количестве.
По исправленному выравниванию был составлен паттерн для поиска по
семейству. С его помощью было найдено 583 белка семейства, не нашлось 182.
Перепредсказания нет.




Материалы и методы


| |Семейство по |Другие белки |Всего |
| |данным Pfam | | |
|Найдено | 583 |- |583 |
|паттерном | | | |
|Не найдено |182 | |* |
|паттерном | | | |
|Всего | |* |* |


21 представитель семейства получен из выборки seed (файл Annotation)
банка Pfam. Затем удалены 2 последовательности - претендент на фрагмент и
случайная.
Полноразмерные последовательности белков выборки получены с помощью
SRS. Множественное выравнивание построено с помощью Muscle, файл сохранить
забыл, есть уже отредактированное.
Выравнивание размечено (и отредактировано) вручную с использованием
программы
GeneDoc на основании вторичных структур нескольких белков при помощи
PDBSum, известной из пространственной структуры; (б) наличия консервативных
участков в выравнивании (и редакции отдельных очевидных ляпов); (в)
аннотации отдельных аминокислотных остатков, взятой из того же PDBSum.
Паттерн построен по 6 позициям, которые весьма консервативны в данном
seed (и в центре - каталитические остатки), но не настолько консервативны в
целом по семейству, вследствие чего наблюдается некоторое недопредсказание.

Профиль описывает участок выравнивания, где, собственно, есть
выравнивание:) и находит все семейство без перепредсказания (по крайней
мере, при поиске по Swiss-Prot, прогнать по TrEMBL я не успел, прошу
прощения).
Последовательности выборки разбиты на две подгруппы на основании
функции (разные изозимы каталазы: 1, 2 и, в одном случае, 3), SDP
подтверждает это разделение, что касается доменной структуры, везде,
кроме двух каталаз 2 (моей из E.Coli и из Bacillus Subtilis) домен 1,
а в этих двух есть еще Catalase-related.
Для поиска диагностических признаков использовались доменная
архитектура по данным Pfam, сервис SDPpred, сервис SVETKA, редактор
GeneDoc, в частности, раскраска по консервативности в подгруппах.

3

Результаты

1. Семейство и выборка

Изучаемое семейство состоит из белков, содержащих домен Catalase.
Функция домена - расщепление перекиси до воды и кислорода.


В банке Pfam к этому семейству отнесено 699 последовательностей. Белки
семейства встречаются у [эукариот - xxx], [бактерий - yyy], [архей -
zzz].


По данным Pfam, белки бывают 2 различных доменных архитектур (См.
выше).

Для исследования составлена выборка из 19 представителей семейства.
Отбирались полноразмерные последовательности - не фрагменты.


2. Множественное выравнивания полноразмерных последовательностей белков

выборки представлено в файле AnnotationEdited.msf. Домен Pfam
соответствует участку от 81 до 541 позиции выравнивания (выделен по
Cate_Ecoli, выравнивание есть не по всей его длине, т.к. у других белков
семейства этот домен короче). В выравнивании отмечены элементы вторичной
структуры в последовательности Secondary, определенные по
пространственной структуре белка. Выравнивание отредактировано вручную
на участках ~240-260 а.к.о., т.к. там программа разорвала спираль/спирали
(по разным PDB считается по-разному).

Биологически обоснованное выравнивание, по моей оценке, отмечено в
выравнивании в позициях 81-468.


Паттерн семейства: N-N-x-P-x-F-[FY]-x-x-D. Он составлен по позициям,
начиная с 201 выравнивания.