Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~sds/term2/block3/benchmark_aln.html
Дата изменения: Wed May 3 22:31:12 2006
Дата индексирования: Tue Oct 2 19:04:59 2012
Кодировка: Windows-1251
benchmark_aln

Сравнение фрагмента полного множественного выравнивания, полученного с помощью программы ClustalW, с соответствующим фрагментом "эталонного" выравнивания из SMART

На главную страницу второго семестра

  1. Сравнение фрагментов выравниваний.
  2.   

    1. Что было сделано для получения исследуемых фрагментов множественных выравниваний.

        

      1. Эталонного выравнивания.

           В базе данных SMART по Accession number получено описание доменной структуры белка AAT_ECOLI
        со схематичным изображением. Оказалось, что мой белок состоит только из одного домена, который называется Aminotran_1_2. Как выяснилось, последний принадлежит базе данных Pfam.

           Этот домен был взят для последующего рассмотрения по причине единственности. К сожалению, размер выбранного домена (366 а.о.) не соответствует желательному (50–200 остатков), но другого варианта у нас нет.

           Затем мы получили эталонное множественное выравнивание данного домена с его гомологами, и, используя возможности программы GeneDoc, оставили для дальнейшего исследования небольшой участок, постаравшись учесть все требования (длины, ширины, консервативности, непрерывности выравнивания и т.п.) Рассматриваются белки с разными названиями из разных организмов.

        В результате получен участок множественного выравнивания следующего вида:
                                                                                                                                                                 
                                                  *       1 0         *       2 0         *       3 0         *       4 0         *       5 0         *          
        A A T M _ B O V I N     1   :   I L L H A C A H N P T G V D P R P E Q W K E M A T V V K K N N L F A F F D M A Y Q G F A S G D G N K D A W A V   :   5 5
        T Y R B _ E C O L I     1   :   V L L H P C C H N P T G A D L T N D Q W D A V I E I L K A R E L I P F L D I A Y Q G F G A G - M E E D A Y A I   :   5 4
        A T T Y _ R H I M E     1   :   V L L H A S C H N P T G G V L S E A Q W M E I A A L V A E R G L L P L V D L A Y Q G F G R G - L D Q D V A G L   :   5 4
        P H H C _ P S E A E     1   :   V L L H A C C H N P T G F D L S H D D W R R V L D V V R R R E L L P L I D F A Y Q G F G D G - L E E D A W A V   :   5 4
        A A T _ H A E I N _     1   :   V L L H G C C H N P T G I D P T P E Q W Q E L A A L S A K N G W L P L F D F A Y Q G L A N G - L D E D A Y G L   :   5 4
                                        v L L H   c c H N P T G   d         q W                       l   p     D   A Y Q G f     G         D a                

      2. Выравнивания с помощью ClustalW.

           По идентификаторам пяти исследуемых белков(кстати, ни один ID не оказался устаревшим, и прибегать к помощи BLASTP не пришлось) с помощью поисковой системы SRS были найдены и сохранены в FASTA-формате последовательности.

           Для получения множественного выравнивания использовалась одна из реализаций ClustalW–программа emma. Поработав с ней, получили два файла: первый – целевой – в формате aln; второй – в формате dnd (его назначение неясно).

           Данный aln-файл импортировали в GeneDoc, нашли в полученном выравнивании участок, соответствующий показанному выше и покрасили его "вручную" для удобства. Именно окрашенный фрагмент будет использоваться в дальнейшей работе.

        В итоге получили такую картину:
                                                                                                                                                                             
                                                  *     1 9 0         *     2 0 0         *     2 1 0         *     2 2 0         *     2 3 0         *     2 4 0            
        A A T M _ B O V I N   1 8 0   :   R Y Y D P K T C G F D F T G A I E D I S K I P A Q S V I L L H A C A H N P T G V D P R P E Q W K E M A T V V K K N N L F   :   2 3 9
        T Y R B _ E C O L I   1 4 9   :   P W Y D E A T N G V R F N D L L A T L K T L P A R S I V L L H P C C H N P T G A D L T N D Q W D A V I E I L K A R E L I   :   2 0 8
        A T T Y _ R H I M E   1 4 4   :   D F F D I P S Q S V I F D N L V S A L E G A A S G D A V L L H A S C H N P T G G V L S E A Q W M E I A A L V A E R G L L   :   2 0 3
        P H H C _ P S E A E   1 5 0   :   P Y V S A D N - R L D V E A M L A G L E R I P Q G D V V L L H A C C H N P T G F D L S H D D W R R V L D V V R R R E L L   :   2 0 8
        A A T _ H A E I N     1 4 8   :   R Y Y D A E R K A L D W E H L L E D L S Q A S E G D V V L L H G C C H N P T G I D P T P E Q W Q E L A A L S A K N G W L   :   2 0 7
                                            5   d                       6     6                 6 L L H   c c H N P T G   d         q W     6     6           l              
                                                                                                                                                                             
                                                  *     2 5 0         *     2 6 0         *     2 7 0         *     2 8 0         *     2 9 0         *     3 0 0            
        A A T M _ B O V I N   2 4 0   :   A F F D M A Y Q G F A S G D G N K D A W A V R H F I E Q G I N V C L C Q S Y A K N M G L Y G E R V G A F T V V C K D A E   :   2 9 9
        T Y R B _ E C O L I   2 0 9   :   P F L D I A Y Q G F G A G - M E E D A Y A I R A I A S A G L P A L V S N S F S K I F S L Y G E R V G G L S V M C E D A E   :   2 6 7
        A T T Y _ R H I M E   2 0 4   :   P L V D L A Y Q G F G R G - L D Q D V A G L R H L L G V V P E A L V A V S C S K S F G L Y R E R A G A I F A R T S S T A   :   2 6 2
        P H H C _ P S E A E   2 0 9   :   P L I D F A Y Q G F G D G - L E E D A W A V R L F A G E L P E V L V T S S C S K N F G L Y R D R V G A L I V C A Q N A E   :   2 6 7
        A A T _ H A E I N     2 0 8   :   P L F D F A Y Q G L A N G - L D E D A Y G L R A F A A N H K E L L V A S S F S K N F G L Y N E R V G A F T L V A E N A E   :   2 6 6
                                          p     D   A Y Q G f     G         D a     6 R                   l 6     S   s K   f g L Y   e R v G a               a e            

          Здесь отображен только небольшой участок (включающий исследуемый фрагмент) множественного выравнивания по причине значительной длины последнего. Полное выравнивание можно увидеть здесь.

        

    2. "Расшифровка" окраски выравниваний.

         Что касается цветов, в которые окрашены выравнивания, показанные выше, то полезно составить такую таблицу:

      Таблица 1.
      Цвет в эталонном выравнивании Cоответствующий ему цвет в ClustalW–выравнивании Что означает окрашивание данным цветом?
          В данной позиции совпадают аминокислоты всех пяти последовательностей
          То же самое в отношении четырех последовательностей
          То же самое в отношении трех
      последовательностей
          Нет совпадений, или незначительные совпадения (между двумя последовательностями из пяти)

        

    3. Результаты сравнения двух фрагментов выравниваний.

      • Число столбцов в эталонном выравнивании – 55.
      • Число столбцов ClustalW-выравнивания, идентичных колонкам эталонного выравнивания – 55.
      • Процент идентичности исследуемых фрагментов, таким образом, равен 100.

         Какие выводы можно сделать из полученных результатов? Мы знаем, что выравнивания БД SMART зачастую используются как эталонные при оценке качества работы программ выравнивания. Если рассмотреть наш случай, то программа emma (вариант релизации программы ClustalW)"прошла" подобную проверку на "отлично". Сделанное с ее помощью выравнивание фрагментов пяти последовательностей полностью идентично эталонному выравниванию тех же участков. Значит, можно говорить, что подобные программы (и emma в частности) идеальны и безошибочны? К сожалению, в нашем исследовании не хватает данных для такого заявления. Известно, что в работах других студентов встречаются примеры и нулевой идентичности.

         Так что, во-первых, не стоит спешить с выводами при столь малом объеме информации и проделанной работы (изучение выравнивания одного участка пяти гомологичных доменов); во-вторых, "качество" выравнивания (под которым здесь понимается соответствие образцу – эталонному выравниванию), безусловно, зависит не только и не столько от программы, сколько от самих "рабочих" последовательностей (степени родства, гомологичности исследуемых доменов). Ведь может оказаться так, что исследуемые домены очень далеки эволюционно друг от друга и некоторые их участки можно выровнять множеством способов (предположим, что гипотетические выравнивания будут иметь даже сходные веса). Поэтому эталонное выравнивание и какое-то исследуемое выравнивание (оба предполагаемые, гипотетические) будут разными.

        

    4. Дополнительные замечания.

         Несмотря на полную идентичность содержания сравниваемых фрагментов, рассматривая их, можно заметить разницу окраски. Она заключается в следующем: в эталонном выравнивании цветом выделяются только действительно идентичные остатки. Скажем, черным столбец будет окрашен лишь в случае наличия остатков лейцина во всех последовательностях в данной позиции. Если же в колонке стоит четыре валина и изолейцин (см.первую колонку сравниваемых фрагментов), то она будет краситься темно-серым, так же как если бы на пятой позиции стоял, скажем, гистидин – совершенно отличный от валина остаток. Таким образом, в эталонном выравнивании мы видим довольно "строгую" систему окраски по критерию "одинаковости", не обращающую внимание на сходство.

         Иначе "поступает" ClustalW. Здесь действует принцип родства. Если аминокислоты одного столбца неодинаковы, но близкородственны, а точнее, относятся к одной группе по классификации по физико-химическим свойствам (думается, здесь используется стандартная классификация для матрицы Blosum), то такой столбец красится в бордовый (насчет цветов и их эквивавлентности см.таблицу выше). Хороший пример – колонка ?23 во втором выравнивании. Она имеет вид "MVIVL"(справа налево=сверху вниз), то есть здесь присутствуют 4 разных, но близких (принадлежащих к одной группе – группе гидрофобных аминокbслот с неароматическим радикалом) остатка, однако такой столбец окрашен в бордовый.

         Кроме того, разнятся и консенсусные последовательности:в эталонном выравнивании в ней только большие (если в столбце все пять остатков одинаковы) и маленькие (если только четыре) буквы, а в консенсусной последовательности ClustalW-выравнивания кроме этих символов есть еще и цифры. Они встречаются в том случае, если в столбце представлены аминокислоты-члены какой-то группы (и для каждой группы – своя цифра, с кажем, для исследуемой нами (MVIL) – шестерка).

      Получается, что по части распознавания родства последовательностей (о чем и говорит нам окраска) ClustalW-выравнивание более "лояльно", чем эталонное.

        

  3. Анализ матриц попарной идентичности.
  4.    Рассмотрим три матрицы попарной идентичности, полученные с помощью опции "Statistics Reports" GeneDoc:

    Первая матрица – для эталонного выравнивания:

     
                       AATM_BOVIN_57-425 TYRB_ECOLI_26-393 ATTY_RHIME_26-386 PHHC_PSEAE_28-393 AAT_HAEIN_26-392 
    
    AATM_BOVIN_57-425           100%                                                                            
    
    TYRB_ECOLI_26-393            45%               100%                                                         
    
    ATTY_RHIME_26-386            41%                46%              100%                                      
    
    PHHC_PSEAE_28-393            49%                61%               55%              100%                   
    
     AAT_HAEIN_26-392            52%                48%               59%               50%            100%
    
    

    Вторая матрица – для исследуемого (выделенного на изображении цветом) фрагмента ClustalW-выравнивания:

                  AATM_BOVIN   TYRB_ECOLI   ATTY_RHIME   PHHC_PSEAE    AAT_HAEIN 
    
    AATM_BOVIN          100%                                                    
    
    TYRB_ECOLI           45%         100%                                       
    
    ATTY_RHIME           41%          46%         100%                          
    
    PHHC_PSEAE           49%          61%          55%         100%             
    
     AAT_HAEIN           52%          48%          59%          50%         100%
    
    

    Третья матрица – для ClustalW-выравнивания целиком:

    
                   AATM_BOVIN   TYRB_ECOLI   ATTY_RHIME   PHHC_PSEAE    AAT_HAEIN 
    
    AATM_BOVIN          100%                                                    
    
    TYRB_ECOLI           37%         100%                                       
    
    ATTY_RHIME           29%          37%         100%                          
    
    PHHC_PSEAE           36%          44%          44%         100%             
    
     AAT_HAEIN           39%          41%          38%          42%         100%
    
    

       Сравнивая матрицы, видим, что первые две идентичны. Этого следовало ожидать: ведь фрагменты выравниваний, для которых эти матрицы получены, также не имеют несовпадений.

       Однако последняя матрица отличается от остальных. Значения попарной идентичности (естественно, кроме диагональных) в третьей матрице меньше. Это означает не что иное, как удачный выбор нами фрагмента для исследования. Удачный в том смысле, что для данного участка высока степень сходства всех пяти последовательностей, во всяком случае она выше, чем в среднем для всего множественного выравнивания.


© Ганчарова Ольга