Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~Redwitch/t3_files/element_evol.doc
Дата изменения: Tue Dec 13 16:28:57 2005
Дата индексирования: Tue Oct 2 14:33:59 2012
Кодировка: koi8-r

Cравнение аминокислотных последовательностей белков и нуклеотидных
последовательностей соответствующих генов

Создание двух выборок - выборки белков и выборки их генов с помощью BLAST-
сервера EBI.

|Белок (AC) |Ген (AC) |
|p1 (P09373_ECOLI) |g1 (AAC73989) |
|p2 (Q83LP6_SHIFL) |g2 (AAN42528) |
|p3 (Q57R28_SALCH) |g3 (AAX64833) |
|p4 (Q7N6E2_PHOLL) |g4 (CAE13906) |
|p5 (Q9S4V8_AERHY) |g5 (AAD52103) |
|p6 (Q89YJ3_BACTN) |g6 (AAO79843) |
|p7 (Q92A91_LISIN) |g7 (CAC97261) |

Наблюдение элементарных эволюционных событий в ближайших гомологах

1. При выравнивании белка PFLB_ECOLI и его ближайшего гомолога
Q83LP6_SHIFL (~97% совпадений) программой needle обнаружено пять
аминокислотных замен:

в 93-ой позиции - Q/A,
в 97-ой позиции - I/V,
в 198-ой позиции - L/Y,
в 470-ой позиции - V/L,
в 472-ой позиции - N/S.

Так выглядит часть выравнивания белковых последовательностей,
содержащая замены:



* 100 * 120 * 140 *
160 * 1
p1 :
INKQLEKIVGLQTEAPLKRALIPFGGIKMIEGSCKAYNRELDPMIKKIFTEYRKTHNQGVFDVYTPDILRCR
KSGVLTGLPDAYGRGRI : 177
p2 :
INKALEKVVGLQTEAPLKRALIPFGGIKMIEGSCKAYNRELDPMIKKIFTEYRKTHNQGVFDVYTPDILRCR
KSGVLTGLPDAYGRGRI : 178


80 * 200 * 220 * 240
* 260
p1 :
IGDYRRVALYGIDYLMKDKLAQFTSLQADLENGVNLEQTIRLREEIAEQHRALGQMKEMAAKYGYDISGPAT
NAQEAIQWTYFGYLAAV : 266
p2 :
IGDYRRVALYGIDYLMKDKYAQFTSLQADLENGVNLEQTIRLREEIAEQHRALGQMKEMAAKYGYDISGPAT
NAQEAIQWTYFGYLAAV : 267


* 280 * 300 * 320 *
340 *
p1 :
KSQNGAAMSFGRTSTFLDVYIERDLKAGKITEQEAQEMVDHLVMKLRMVRFLRTPEYDELFSGDPIWATESI
GGMGLDGRTLVTKNSFR : 355
p2 :
KSQNGAAMSFGRTSTFLDVYIERDLKAGKITEQEAQEMVDHLVMKLRMVRFLRTPEYDELFSGDPIWATESI
GGMGLDGRTLVTKNSFR : 356


360 * 380 * 400 * 420
* 440
p1 :
FLNTLYTMGPSPEPNMTILWSEKLPLNFKKFAAKVSIDTSSLQYENDDLMRPDFNNDDYAIACCVSPMIVGK
QMQFFGARANLAKTMLY : 444
p2 :
FLNTLYTMGPSPEPNMTILWSEKLPLNFKKFAAKVSIDTSSLQYENDDLMRPDFNNDDYAIACCVSPMIVGK
QMQFFGARANLAKTMLY : 445


* 460 * 480 * 500 *
520 *
p1 :
AINGGVDEKLKMQVGPKSEPIKGDVLNYDEVMERMDHFMDWLAKQYITALNIIHYMHDKYSYEASLMALHDR
DVIRTMACGIAGLSVAA : 533
p2 :
AINGGVDEKLKMQVGPKSEPIKGDLLSYDEVMERMDHFMDWLAKQYITALNIIHYMHDKYSYEASLMALHDR
DVIRTMACGIAGLSVAA : 534
Лиловым выделены замены.

2. Какие элементарные эволюционные события повлекли за собой
аминокислотные замены?
Так выглядит часть выравнивания нуклеотидных последовательностей,
содержащая нуклеотидные замены:


* 160 * 180 * 200 *

g1 :
ctgaagcgaccaccaccctgtgggacaaagtaatggaaggcgttaaactggaaaaccgcactcacgcgcca :
213
g2 :
ctgaagcgaccaccaccctgtgggacaaagtaatggaaggtgttaaactggaaaaccgcactcacgcgcca :
213


220 * 240 * 260 * 280

g1 : gttgactttgacaccgctgttgcttccaccatcacctctcacgacgctggctacatcaacaagcagc-
ttg : 283
g2 : gttgattttgacaccgctgttgcttccaccatcacctctcacgacgctggctacatcaataa--
agcgttg : 282


* 300 * 320 * 340 *

g1 : agaaaa--
tcgttggtctgcagactgaagctccgctgaaacgtgctcttatcccgttcggtggtatcaaaa : 352
g2 :
-gaaaaagttgttggtctgcagactgaagctccgctgaaacgtgctcttatcccgttcggtggtatcaaaa :
352


360 * 380 * 400 * 420

g1 :
tgatcgaaggttcctgcaaagcgtacaaccgcgaactggatccgatgatcaaaaaaatcttcactgaatac :
423
g2 :
tgatcgaaggttcctgcaaagcgtacaaccgcgaactggacccgatgatcaaaaaaatcttcactgaatac :
423


* 440 * 460 * 480 *

g1 :
cgtaaaactcacaaccagggcgtgttcgacgtttacactccggacatcctgcgttgccgtaaatctggtgt :
494
g2 :
cgtaaaactcacaaccagggcgtgttcgacgtttacactccggacatcctgcgttgccgtaaatccggtgt :
494


500 * 520 * 540 * 560

g1 :
tctgaccggtctgccagatgcatatggccgtggccgtatcatcggtgactaccgtcgcgttgcgctgtacg :
565
g2 :
tctgaccggtctgccagatgcttatggccgtggccgtatcatcggtgactaccgtcgcgttgcgctgtacg :
565


* 580 * 600 * 620 *
64
g1 :
gtatcgactacctgatgaaagacaaactggcacagttcacttctctgcaggctgatctggaaaacggcgta :
636
g2 :
gtatcgactacctgatgaaagacaaatacgctcagttcacctctctacaggctgatctggaaaacggcgta :
636


0 * 660 * 680 * 700
*
g1 :
aacctggaacagactatccgtctgcgcgaagaaatcgctgaacagcaccgcgctctgggtcagatgaaaga :
707
g2 :
aacctggaacagactatccgtctgcgcgaagaaatcgctgaacagcaccgcgctctgggtcagatgaaaga :
707


720 * 740 * 760 *
780
g1 :
aatggctgcgaaatacggctacgacatctctggtccggctaccaacgctcaggaagctatccagtggactt :
778
g2 :
aatggctgcgaaatacggctacgacatctctggtccggctaccaacgctcaggaagctatccagtggactt :
778


* 800 * 820 * 840
*
g1 :
acttcggctacctggctgctgttaagtctcagaacggtgctgcaatgtccttcggtcgtacctccaccttc :
849
g2 :
acttcggctacctggctgctgttaagtctcagaacggtgctgcaatgtccttcggtcgtacctccaccttc :
849


860 * 880 * 900 * 920

g1 :
ctggatgtgtacatcgaacgtgacctgaaagctggcaagatcaccgaacaagaagcgcaggaaatggttga :
920
g2 :
ctggatgtgtacatcgaacgtgacctgaaagctggcaagatcaccgaacaagaagcgcaggaaatggttga :
920


* 940 * 960 * 980 *

g1 :
ccacctggtcatgaaactgcgtatggttcgcttcctgcgtactccggaatacgatgaactgttctctggcg :
991
g2 :
ccacctggtcatgaaactgcgtatggttcgcttcctgcgtactccggaatacgatgaactgttctctggcg :
991


1000 * 1020 * 1040 * 1060

g1 :
acccgatctgggcaaccgaatctatcggtggtatgggcctcgacggtcgtaccctggttaccaaaaacagc :
1062
g2 :
acccaatctgggcaaccgaatctatcggtggtatgggcctcgatggtcgtaccctggttaccaaaaacagc :
1062


* 1080 * 1100 * 1120 *

g1 :
ttccgtttcctgaacaccctgtacaccatgggtccgtctccggaaccgaacatgaccattctgtggtctga :
1133
g2 :
ttccgtttcctgaacaccctgtacactatggggccgtctccggaaccgaacatgaccattctgtggtctga :
1133


1140 * 1160 * 1180 * 1200

g1 :
aaaactgccgctgaacttcaagaaattcgccgctaaagtgtccatcgacacctcttctctgcagtatgaga :
1204
g2 :
aaaactgccgctgaacttcaagaaattcgccgctaaagtgtccatcgacacctcttctctgcagtatgaga :
1204


* 1220 * 1240 * 1260 *
12
g1 :
acgatgacctgatgcgtccggacttcaacaacgatgactacgctattgcttgctgcgtaagcccgatgatc :
1275
g2 :
acgatgacctgatgcgtccggacttcaacaacgatgactacgctatcgcttgctgcgtaagcccgatgatc :
1275


80 * 1300 * 1320 * 1340

g1 :
gttggtaaacaaatgcagttcttcggtgcgcgtgcaaacctggcgaaaaccatgctgtacgcaatcaacgg :
1346
g2 :
gttggtaaacaaatgcagttcttcggtgcgcgtgcaaacctggcgaaaaccatgctgtacgcaatcaacgg :
1346


* 1360 * 1380 * 1400 *
1420
g1 :
cggcgttgacgaaaaactgaaaatgcaggttggtccgaagtctgaaccgatcaaaggcgatgtcctgaact :
1417
g2 :
cggcgttgacgaaaaactgaaaatgcaggttggtccgaagtctgaaccgatcaaaggcgatctcctgagct :
1417


* 1440 * 1460 * 1480
*
g1 :
atgatgaagtgatggagcgcatggatcacttcatggactggctggctaaacagtacatcactgcactgaac :
1488
g2 :
acgatgaagtgatggagcgcatggatcacttcatggactggctggctaaacagtacatcactgcactgaac :
1488


1500 * 1520 * 1540 *
1560
g1 :
atcatccactacatgcacgacaagtacagctacgaagcctctctgatggcgctgcacgaccgtgacgttat :
1559
g2 :
atcatccactacatgcacgacaagtacagctacgaagcctctctgatggcgctgcacgaccgtgacgttat :
1559


* 1580 * 1600 * 1620 *

g1 :
ccgcaccatggcgtgtggtatcgctggtctgtccgttgctgctgactccctgtctgcaatcaaatatgcga :
1630
g2 :
ccgcaccatggcgtgtggtatcgctggtctgtccgttgctgctgactccctgtctgcaatcaaatatgcga :
1630


1640 * 1660 * 1680 * 1700

g1 :
aagttaaaccgattcgtgacgaagacggtctggctatcgacttcgaaatcgaaggcgaatacccgcagttt :
1701
g2 :
aagttaaaccgattcgtgacgaagacggtctggctatcgacttcgaaatcgaaggcgaatacccgcagttt :
1701


* 1720 * 1740 * 1760 *

g1 :
ggtaacaatgatccgcgtgtagatgacctggctgttgacctggtagaacgtttcatgaagaaaattcagaa :
1772
g2 :
ggtaacaatgatccgcgtgtagatgacctggctgttgacctggtagaacgtttcatgaagaaaattcagaa :
1772


1780 * 1800 * 1820 * 1840

g1 :
actgcacacctaccgtgacgctatcccgactcagtctgttctgaccatcacttctaacgttgtgtatggta :
1843
g2 :
actgcacacctaccgtgacgctatcccgactcagtctgttctgaccatcacttctaacgttgtgtatggta :
1843


* 1860 * 1880 * 1900 *
1
g1 :
agaaaacgggtaacaccccagacggtcgtcgtgctggcgcgccgttcggaccgggtgctaacccgatgcac :
1914
g2 :
agaaaactggtaacaccccagacggtcgtcgtgctggcgcgccgttcggaccgggtgctaacccgatgcac :
1914


920 * 1940 * 1960 * 1980

g1 :
ggtcgtgaccagaaaggtgcagtagcctctctgacttccgttgctaaactgccgtttgcttacgctaaaga :
1985
g2 :
ggtcgtgaccagaaaggtgctgtagcgtctctgacttccgttgctaaactgccgtttgcttacgctaaaga :
1985
Голубым выделены делеции.
Лиловым выделены замены в третьей позиции.
Серым выделены замены в первой и второй позициях.

В рамочку обведены замены в нуклеотидной последовательности, повлекшие
изменения в аминокислотной последовательности:

1) Q - A (276-281 позиции): две несинонимичные замены - по первой позиции
С - G, и по второй позиции А - С.
GCAGC-
--AGCG
2) L - Y (595-597 позиции): две несинонимичные замены - по первой позиции
С - T, и по второй позиции Т - А.
CTG
TAC
3) N - S (1417-1419 позиции): одна несинонимичная замена по второй позиции
А - G.
AAC
AGC
4) I - V (289-291 позиции): одна несинонимичная замена по первой позиции А
- G.
A--TC
AAGTT
5) V - L (1408-1410 позиции): одна несинонимичная замена по первой позиции
G - C.
GTC
CTC


Отметим следующую особенность выравнивания: нуклеотидная
последовательность, соответствующая первой и второй аминокислотным заменам,
была выровнена следующим образом:

gcagc-ttgagaaaa--tc
--agcgttg-gaaaaagtt

Как видно, появляются делеции. Но возможен другой вариант выравнивания:

gcagcttgagaaaatc
agcgttggaaaaagtt

Такое выравнивание полностью верно, но предполагается наличие большего
числа замен в последовательностях.
Заметим, что имеющаяся замена пятого нуклеотида данного выравнивания
C/T, хотя и произошла по «первой позиции», является синонимичной.


Случаев синонимичных замен по первоначальному выравниванию: 20. Из них
в третьих позициях кодонов: 20.
Случаев синонимичных замен по выравниванию без делеций: 24. Из них в
третьих позициях кодонов: 23.

. Соотношение между синонимичными и несинонимичными заменами по
выравниванию, не содержащему делеции: 24/7 ~ 3,4
Чем чаще происходит синонимичная замена по сравнению с несинонимичной,
тем более консервативная последовательность. Довольно высокое значение
отношения свидетельствует о консервативности.
. «Матрица замен» нуклеотидов:

| |a |c |g |t |
|a | |0 |3 |4 |
|c |0 | |3 |12 |
|g |3 |3 | |2 |
|t |4 |12 |2 | |

Известна закономерность: транзиции более вероятны, чем трансверсии. То
есть, вероятнее замена пуринового основания на пуриновое, чем на
пиримидиновое. Из этого следует, что замены A/G и C/T встречаются чаще. По
получившейся матрице замен эта закономерность хорошо выявляется для пары
C/T, а неочевидность преобладания замены A/G можно списать на
недостаточность данных.

Исследование зависимости процента совпадений последовательностей белков от
процента совпадений последовательностей их генов
[pic]
График 1. Пунктирная линия (ось С) показывает зависимость процента
совпадений в белковых последовательностях от совпадений в нуклеотидной
последовательности. Ось С получена следующим образом: прямой соединены
точки, отвечающие за выравнивание, с одной стороны, последовательности
некоторого белка с самим собой (100, 100), с другой стороны,
последовательностей двух несвязанных белков (5, 25). Синяя ломаная -
аналогичная зависимость для выборки гомологов белка гемагглютинина.
[pic]
График 2. Розовая линия (ось С) показывает зависимость процента
совпадений в белковых последовательностях от совпадений в нуклеотидной
последовательности. Ось С получена следующим образом: прямой соединены
точки, отвечающие за выравнивание, с одной стороны, последовательности
некоторого белка с самим собой (100, 100), с другой стороны,
последовательностей двух несвязанных белков (5, 25). Синяя ломаная -
аналогичная зависимость для выборки гомологов белка форматацетилтрансферазы
1.
На первый взгляд графики похожи, но стоит отметить отклонение графика
форматацетилтрансферазы 1 от оси С по сравнению с графиком гемагглютинина.
Известно, что вирус гриппа распространяется среди людей, присоединяясь
к человеческим клеткам с помощью белка гемагглютинина, находящегося на
оболочке вируса. Поскольку конфигурация аминокислот, определяющих
разновидность белка гемагглютинина, часто изменяется, ежегодно появляется
новый тип вируса гриппа.
Из этих данных можно сделать вывод, что первый график соответствует
набору мало консервативных последовательностей. В то же время было
получено, что гомологи белка форматацетилтрансферазы 1 являются довольно
консервативными. Этот факт подтверждается соответствующим графиком. Графий,
(по крайней мере, для двух ближайших гомологов, для которых вычислено
отношение синонимичных и несинонимичных замен) форматацетилтрансферазы 1
сильнее отклоняется от оси С, в то время как для гемагглютинина этого не
наблюдается.