Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~vovan/Work3/Protocol.html
Дата изменения: Tue May 9 20:44:24 2006
Дата индексирования: Tue Oct 2 08:41:12 2012
Кодировка: Windows-1251
benchmark_aln
На главную страницу второго семестра.

Сравнение фрагмента полного множественного выравнивания, полученного с помощью ClustalW, с соответствующим фрагментом "эталонного" выравнивания из SMART.



Для выполнения практикума был выбран домен белков, принадлежащих семейству аминокислотных киназ, то есть эти белки - киназы, фосфорилирующие различные аминокислоты (AAkinase, код доступа: PF00696). В качестве эталонного выравнивания использовал участок выравнивания доменов, гомологичных данному и принадлежащих следующим белкам (в скобках указаны номера начального и конечного аминокислотных остатков фрагментов последовательностей, входящих в состав эталонного выравнивания):
  1. P5CS1_ARATH, дельта 1-пирролин-5-карбоксилат синтаза А, код доступа P54887 (15-260)
  2. CBK_TRIVA, карбамат киназа, код доступа О96432 (1-295)
  3. CPKA_PYRHO, карбамат киназа, код доступа О59023 (3-296)
  4. ARCC_BACLD, карбамат киназа, код доступа O86134 (4-297)
  5. ARGB_SYNY3, карбамат киназа, код доступа P74733 (32-269)

Полные аминокислотные последовательности перечисленных выше белков приведены здесь.

Рис.1 Изображение эталонного выравнивания, полученного программой PFAM (домен AAkinase оказался PFAM'овским, отчего выравнивание последовательностей получал из БД PFAM'а). Раскраска приведена по консервативным аминокислотам.


Рис.2 Изображение фрагмента полного множественного выравнивания, полученного с помощью программы ClustalW. Розовым цветом выделены участки белков из эталонного выравнивания. Синим выделены фрагменты четырех последовательностей (CBK_TRIA, CPKA_PYRHO, ARCC_BACLD, ARGB_SUNY3), совпавшие с соответствующими позициями эталонного выравнивания . Оранжевым выделены столбцы множественного выравнивания последовательностей CBK_TRIVA, CPKA_PYRHO, ARCC_BACLD, совпадающие со столбцами эталонного выравнивания (см. рис.1).


Результаты выполнения задания:

Число колонок во фрагменте из PFAM для всех пяти белков (включая столбцы с гэпами): 65
Число колонок, совпавших с колонками в файле clustalw.msf: 0
Видно,что для всех последовательностей таких колонок не нашлось.
Но идентичные колонки в эталонном выравнивании и выравнивании ClustalW можно найти для четырех белков: 
CBK_TRIVA, CPKA_PYRHO, ARCC_BACLD, ARGB_SYNY3
На рис.2 такие идентичные колонки выделены синим цветом.
Число колонок во фрагменте из PFAM для этих четырех белков: 65
Число колонок, совпавших с колонками в файле clustalw.msf для четырех белков: 34
Тогда мера сходства для выравниваний этих четырех белков равно 34/65*100% = 52,3%
Также идентичные колонки в эталонном выравнивании и выравнивании ClustalW можно найти и для трех белков: 
CBK_TRIVA, CPKA_PYRHO, ARCC_BACLD
На рис.2 такие идентичные колонки выделены орнжевым цветом.
Число колонок во фрагменте из PFAM для трех белков: 65
Число колонок, совпавших с колонками в файле clustalw.msf для трех белков: 55
Тогда мера сходства для выравниваний этих четырех белков равно 55/65*100% = 84,6%

*Наблюдения
В целом, программа ClustalW сделала хорошее выравнивание, для некоторых последовательностей даже практически совпавшее с эталонным (с процентом совпадения до 80%). Возможные причины отклонения от полного совпадения:
  1. Во-первых, очевидно, что алгоритмы выравниваний разные, так как результаты несколько отличны. Бросается в глаза то, что в эталонном выравнивании намного больше гэпов, чем в выравнивании ClustalW. Очевидно, это связано с тем, что для построения выравнивания Clustal'ом были использованы полные последовательности белков, а не фрагменты, отвечающие за домены в этих структурах. Причем, как мне кажется, в эталонном выравнивании большую роль может играть структурный аспект: так как для некоторых белков семейства известны структуры, то наиболее выгодно в плане достоверности выравнивания будет сперва сделать структурное выравнивание белков с известными структурами, а затем сделать глобальное выравнивание всех членов семейства. Тогда вручную "мсправляя" глобальное выравнивание в соответствии со структурным, можно добиться того, что с большей вероятностью будет определены: а) границы доменов, б) структурные элементы и др. Мне кажется, что по такой логике построены локальные (потому что не входящие в домен остатки просто отрезаны от последовательности белка) эталонные выравнивания в PFAM'е. Когда же мы строим выравнивание Clustal'ом, то мы не задаем ему данных о доменной организации белков, сведений о структурных элементах: программа с помощью своего алгоритма лишь ищет подобные элементы (кластеры) в белках. Поэтому, вполне возможны отклонения от идеального выравнивания, но как можно убедиться на опыте, все же выравнивания Clustalw вполне приличные.
  2. Во-вторых, возможная причина несовпадений с первой последовательностью - слишком "длинный" сигнальный пептид в самом начале выравнивания, когда у других последовательностей он намного короче. Действительно, так как Clustal выровнял полные последовательности, то ошибка в выравнивании началась с первых аминокислот по случайным причинам: неправильно определены концы сигнальных пептидов, или просто не верно определены кластеры аминокислот, по сравнению с эталоном - все это могло повлечь усиление ошибки в следующих участках выравнивания.
  3. В-третьих, может быть, в базах данных PFAM и SwissProt разное описание белков, или содержат последовательности с/без сигнального пептида, отчего Clustalw просто выравниваниет нецелые последовательности белков.

    Матрицы попарного совпадения.

    Рис.3 Матрица попарного совпадения для эталонного выравнивания.

    Рис.4 Матрица попарного совпадения для выравнивания ClustalW.


    С помощью программы GENEDOC были получены матрицы попарного совпадения для эталонного выравнивания и для участка множественного выравнивания Clustalw, соответствующего эталонному выравниванию (рис. 3, 4). Матрицы содержат информацию о количестве идентичных позиций для каждой пары последовательностей. Например, наиболее сходными участками последовательностей эталонного выравнивания являются участки последовательностей CPKA_PYRHO и ARCC_BACLD (процент идентичных позиций составляет 62%), а наименее сходными участками - участки последовательностей ARGB_SYNY3 и ARCC_BACLD (процент идентичных позиций составляет 17%). Хочу заметить, что при сравнении обеих матриц, бросается в глаза следующее:
    1. Процент попарных совпадений для всех последовательностей меньше для выравнивания ClustalW, чем для эталонного. На мой взгляд это связано с тем, что ClustalW построил глобальное выравнивание, а не локальное, как в эталонном (как мы знаем в эталонном выравнивании использованы лишь домены белков). А как мы знаем, глобальное выравнивание не всегда отражает действительность и часто имеет заниженные веса, нежели локальное (из-за лишних гэпов).
    2. Особенно сильно занижен процент попарных совпадений для пар P5CS1_ARATH - (все остальные белки) в выравнивании ClustalW по сравнению с эталонным. И при этом в самом выравнивании ClustalW участок этого белка, который есть в эталонном выравнивании, не совпал с другими фрагментами из других белков, что нашло отражение в процентах попарных совпадений. Я думаю, что здесь действительно есть прямая закономерность, но при этом важно то, чтобы участок в эталонном выравнивании нес хорошую консервативность, чтобы при построении других выравниваний, можно было отследить динамику процентов идентичности. Ведь для консервативных фрагментов выравнивания эти величины будут высокими, а при определенных изменениях в выравнивании (или построении нового, но с другим алгоритмом) можно с большой вероятностью ожидать либо близкие к эталонным значения (значит новое выравнивание хорошо "угадало" консервативный участок), либо сильно отличные (промах). Таким образом можно с помощью сравнения чисел попарного совпадения для эталонного выравнивания и нового оценивать, например, качество алгоритма, используемого для построения нового выравнивания.
      ©Володя Рудько