Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~Solnishko/t3_files/otchot.doc
Дата изменения: Tue Dec 20 20:59:00 2005
Дата индексирования: Tue Oct 2 12:08:51 2012
Кодировка: koi8-r

Cравнение аминокислотных последовательностей белков и нуклеотидных
последовательностей соответствующих генов.

Была составлены выборка (на стр. viborka) белков - гомологов белка
Rho_Ecoli с соответствующими процентами идентичности 97%, 90-95%, 85-90%,
70%, 50%, 40% из банка UniProt. Далее было составлено парное выравнивание
белка Rho_Ecoli с его ближайшим гомологом Rho_Bucai, а также парное
выравнивание кодирующих их генов, взятых из банка EMBL. Результаты
представлены ниже (гиперссылка):

1) Выравнивание белка rho_ecoli и его ближайшего гомолога rho_bucai из
выборки (~97% совпадений);
2) Выравнивание их генов.

Таблица, представляющая данные об аминокислотных заменах в двух похожих
белках и о причинах, их повлекших:

|a | |66 |52 |48 |
|g | | |2 |17 |
|c | | | |113 |
|t | | | | |

Как видно, наиболее часто происходят замены с пурина на пурин и с
пиримидина на пиримидин. Зелёным отмечены трансверсии, а жёлтым -
транзиции.



Скрипт для получения файла с процентами идентичности в попарном
выравнивании белков:
needle p1.fasta p2.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' > identity.txt
needle p1.fasta p3.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity.txt
needle p1.fasta p4.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity.txt
needle p1.fasta p5.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity.txt
needle p1.fasta p6.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity.txt
needle p1.fasta p7.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity.txt
needle p2.fasta p3.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity.txt
needle p2.fasta p4.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity.txt
needle p2.fasta p5.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity.txt
needle p2.fasta p6.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity.txt
needle p2.fasta p7.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity.txt
needle p3.fasta p4.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity.txt
needle p3.fasta p5.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity.txt
needle p3.fasta p6.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity.txt
needle p3.fasta p7.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity.txt
needle p4.fasta p5.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity.txt
needle p4.fasta p6.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity.txt
needle p4.fasta p7.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity.txt
needle p5.fasta p6.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity.txt
needle p5.fasta p7.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity.txt
needle p6.fasta p7.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity.txt


Скрипт, но уже для попарного выравнивания генов:
needle g1.fasta g2.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' > identity1.txt
needle g1.fasta g3.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity1.txt
needle g1.fasta g4.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity1.txt
needle g1.fasta g5.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity1.txt
needle g1.fasta g6.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity1.txt
needle g1.fasta g7.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity1.txt
needle g2.fasta g3.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity1.txt
needle g2.fasta g4.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity1.txt
needle g2.fasta g5.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity1.txt
needle g2.fasta g6.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity1.txt
needle g2.fasta g7.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity1.txt
needle g3.fasta g4.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity1.txt
needle g3.fasta g5.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity1.txt
needle g3.fasta g6.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity1.txt
needle g3.fasta g7.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity1.txt
needle g4.fasta g5.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity1.txt
needle g4.fasta g6.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity1.txt
needle g4.fasta g7.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity1.txt
needle g5.fasta g6.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity1.txt
needle g5.fasta g7.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity1.txt
needle g6.fasta g7.fasta -gapopen 10 -gapextend 1 stdout | grep '#
Identity' >> identity1.txt

График (на стр. Graph) зависимости процента совпадений последовательностей
белков от процента совпадений последовательностей их генов (для выборки,
состоящей из самого белка rho_ecoli и 6 белков, имеющих разную степень
сходства с ним, а также их генов). Там же представлен другой график,
иллюстрирующий то же, но только для белка-предшественника гемагглютинина у
разных штаммов вируса гриппа: P18875, P13102, P12584, P03454, P26562,
P87506. Белок гемагглютинин располагается на липидной оболочке вируса
гриппа и отвечает за такой важный этап инфицирования, как слияние с
плазматическиой мембраной клетки-жертвы.
Интересно отметить для графика вируса гриппа, что в среднем попарные
выравнивания генов имеют более высокое identity, чем попарные выравнивания
соответствующих белков. В то же время для вирусов известны такие факты, как
сдвиг рамки считывания, «проскок» при транскрипции гена. Если я правильно
понимаю, белок-предшественник (он один!) по идее должен транслироваться с
одного и того же гена, который, однако, у разных штаммов может быть по-
разному мутирован, причём различия в степени мутаций очень значительные. В
силу этого, а также в силу упомянутых выше фактов белок-предшественник
также различается у разных штаммов, и тогда понятно, что различаться он
будет в большей степени, чем его ген. Не думаю также, что этот белок
консервативен по своему составу и пространственной структуре, т.к. он - на
поверхности вируса, а значит должен быть готов к постоянно изменяющимся
условиям.
Я думаю, что различия двух графиков обусловлены следующим:
1. Выборки имеют разные диапазоны изменения идентичности белков. Скажем,
в примере «Предшественник гемагглютинина вируса гриппа» Prot_ID
опускается до 25%, в то время, как в нашей выборке только до 49%.
2. Большая амплитуда колебания графика для нашей выборки, вероятно,
обусловлена тем, что белки всё-таки из разных организмов, а белок-
предшественник относится к одному вирусу гриппа, хоть и к разным его
штаммам. А если белки из разных организмов, то можно допустить, что
identity попарных варавниваний для них будет колебаться более, чем в
случае с вирусом.
3. В целом график зависимости для нашей выборки ниже прямой,
показывающей статистическую зависимость. Это отражает более низкую
идентичность генов, кодирующих белки. По-моему, это можно объяснить
вырожденностью генетического кода, т.е. гены кодируют более похожие
между собой белки, при этом сами отличаясь между собой в силу того,
что одна аминокислота может быть закодирована несколькими триплетами.