|
Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://kodomo.cmm.msu.ru/~tusena/term3/practice2.html
Дата изменения: Sun Dec 2 21:05:38 2007 Дата индексирования: Tue Oct 2 11:02:38 2012 Кодировка: Windows-1251 |
Занятие 2. Банк EMBL
В файлах присутствуют 2 полных генома E.coli штаммов W3110 и K12, одна полная кодирующая последовательность, а так же три части последовательности(последние 3 строки в таблице) Последовательности, кодирующие белок pabB_ecoli в двух записях банка EMBL
K02673 1 atgaagacgttatctcccgctgtgattactttactctggcgtcaggacgc 50
U07748 0 -------------------------------------------------- 0
K02673 51 cgctgaattttatttctcccgcttaagccacctgccgtgggcgatgcttt 100
U07748 0 -------------------------------------------------- 0
K02673 101 tacactccggctatgccgatcatccgtatagccgctttgatattgtggtc 150
||||||||||||||||||||||||||||
U07748 1 ----------------------tccgtatagccgctttgatattgtggtc 28
K02673 151 gccgagccgatttgcactttaaccactttcggtaaagaaaccgttgttag 200
||||||||||||||||||||||||||||||||||||||||||||||||||
U07748 29 gccgagccgatttgcactttaaccactttcggtaaagaaaccgttgttag 78
K02673 201 tgaaagcgaaaaacgcacaacgaccactgatgacccgctacaggtgctcc 250
||||||||||||||||||||||||||||||||||||||||||||||||||
U07748 79 tgaaagcgaaaaacgcacaacgaccactgatgacccgctacaggtgctcc 128
K02673 251 agcaggtgctggatcgcgcagacattcgcccaacgcataacgaagatttg 300
||||||||||||||||||||||||||||||||||||||||||||||||||
U07748 129 agcaggtgctggatcgcgcagacattcgcccaacgcataacgaagatttg 178
K02673 301 ccatttcagggcggcgcactggggttgtttggctacgatctgggccgccg 350
||||||||||||||||||||||||||||||||||||||||||||||||||
U07748 179 ccatttcagggcggcgcactggggttgtttggctacgatctgggccgccg 228
K02673 351 ttttgagtcactgccagaaattgcggaacaagatatcgttctgccggata 400
||||||||||||||||||||||||||||||||||||||||||||||||||
U07748 229 ttttgagtcactgccagaaattgcggaacaagatatcgttctgccggata 278
K02673 401 tggcagtgggtatctacgattgggcgctcattgtcgaccaccagcgtcat 450
||||||||||||||||||||||||||||||||||||||||||||||||||
U07748 279 tggcagtgggtatctacgattgggcgctcattgtcgaccaccagcgtcat 328
K02673 451 acagtttctttgctgagtcataatgatgtcaatgcccgtcgggcctggct 500
||||||||||||||||||||||||||||||||||||||||||||||||||
U07748 329 acagtttctttgctgagtcataatgatgtcaatgcccgtcgggcctggct 378
K02673 501 ggaaagccagcaattctcgccgcaggaagatttcacgctcacttccgact 550
||||||||||||||||||||||||||||||||||||||||||||||||||
U07748 379 ggaaagccagcaattctcgccgcaggaagatttcacgctcacttccgact 428
K02673 551 ggcaatccaatatgacccgcgagcagtacggcgaaaaatttcgccaggta 600
||||||||||||||||||||||||||||||||||||||||||||||||||
U07748 429 ggcaatccaatatgacccgcgagcagtacggcgaaaaatttcgccaggta 478
K02673 601 caggaatatctgcacagcggtgattgctatcaggtgaatctcgcccaacg 650
||||||||||||||||||||||||||||||||||||||||||||||||||
U07748 479 caggaatatctgcacagcggtgattgctatcaggtgaatctcgcccaacg 528
K02673 651 ttttcatgcgacctattctggcgatgaatggcaggcattccttcagctta 700
||||||||||||||||||||||||||||||||||||||||||||||||||
U07748 529 ttttcatgcgacctattctggcgatgaatggcaggcattccttcagctta 578
K02673 701 atcaggccaaccgcgcgccatttagcgcttttttacgtcttgaacagggt 750
||||||||||||||||||||||||||||||||||||||||||||||||||
U07748 579 atcaggccaaccgcgcgccatttagcgcttttttacgtcttgaacagggt 628
K02673 751 gcaattttaagcctttcgccagagcggtttattctttgtgataatagtga 800
||||||||||||||||||||||||||||||||||||||||||||||||||
U07748 629 gcaattttaagcctttcgccagagcggtttattctttgtgataatagtga 678
K02673 801 aatccagacccgcccgattaaaggcacgctaccacgcctgcccgatcctc 850
||||||||||||||||||||||||||||||||||||||||||||||||||
U07748 679 aatccagacccgcccgattaaaggcacgctaccacgcctgcccgatcctc 728
K02673 851 aggaagatagcaaacaagcagtaaaactggcgaactcagcgaaagatcgt 900
||||||||||||||||||||||||||||||||||||||||||||||||||
U07748 729 aggaagatagcaaacaagcagtaaaactggcgaactcagcgaaagatcgt 778
K02673 901 gccgaaaatctgatgattgtcgatttaatgcgtaatgatatcggtcgtgt 950
||||||||||||||||||||||||||||||||||||||||||||||||||
U07748 779 gccgaaaatctgatgattgtcgatttaatgcgtaatgatatcggtcgtgt 828
K02673 951 tgccgtagcaggttcggtaaaagtaccagagctgttcgtggtggaaccct 1000
||||||||||||||||||||||||||||||||||||||||||||||||||
U07748 829 tgccgtagcaggttcggtaaaagtaccagagctgttcgtggtggaaccct 878
K02673 1001 tccctgccgtgcatcatctggtcagcaccataacggcgcaactaccagaa 1050
||||||||||||||||||||||||||||||||||||||||||||||||||
U07748 879 tccctgccgtgcatcatctggtcagcaccataacggcgcaactaccagaa 928
K02673 1051 cagttacacgccagcgatctgctgcgcgcagcttttcctggtggctcaat 1100
||||||||||||||||||||||||||||||||||||||||||||||||||
U07748 929 cagttacacgccagcgatctgctgcgcgcagcttttcctggtggctcaat 978
K02673 1101 aaccggggctccgaaagtacgggctatggaaattatcgacgaactggaac 1150
|||||||||||||||||||||||||||||||
U07748 979 aaccggggctccgaaagtacgggctatggaa------------------- 1009
K02673 1151 cgcagcgacgcaatgcctggtgcggcagcattggctatttgagcttttgc 1200
U07748 1009 -------------------------------------------------- 1009
K02673 1201 ggcaacatggataccagtattactatccgcacgctgactgccattaacgg 1250
U07748 1009 -------------------------------------------------- 1009
K02673 1251 acaaattttctgctctgcgggcggtggaattgtcgccgatagccaggaag 1300
U07748 1009 -------------------------------------------------- 1009
K02673 1301 aagcggaatatcaggaaacttttgataaagttaatcgtatcctgaagcaa 1350
U07748 1009 -------------------------------------------------- 1009
K02673 1351 ctggagaagtaa 1362
U07748 1009 ------------ 1009
Идентичность выравнивания - 74.1 %. Это связано исключительно с тем, что вторая последовательность - лишь участок полной кодирующей последовательности. На общих участках последовательности полностью идентичны.
Данный ген находится на комплементарной цепи. FT CDS join(complement(75869..76003),complement(75430..75518), FT complement(75263..75349),complement(73958..74058), FT complement(73705..73817),complement(73378..73626), FT complement(73143..73277) При этом в гене присутствуют следующие экзоны(9 штук): FT exon complement(72196..73277) FT exon complement(73378..73626) FT exon complement(73705..73817) FT exon complement(73958..74058) FT exon complement(75263..75349) FT exon complement(75430..75518) FT exon complement(75869..76090) FT exon complement(79545..79629) FT exon complement(82322..82482) Если рассмотреть теперь CDS, то она охватывает часть первого экзона (нумерацию ведем по приведенному списку), полностью 2-6 экзоны и часть седьмого. Это также понятно, поскольку набор экзонов представляет собой нуклеотидную последовательность, остающуюся после сплайсинга. Очевидно, этот фрагмент может не совпадать с участком между старт-кодоном и стоп-кодоном. Действительно, на 73143-73145 позициях стоит триплет TCA (так как наш ген расположен на комплементарной цепи, то и триплет комплементарен 'привычному' TGA), а на 76001-76003 позициях - триплет CAT (комплементарный старт-кодону ATG). CDS целиком лежит внутри экзонов (то есть, не затрагивает интронов), что тоже понятно.
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| На главную страницу >>> | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||