Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~artemov/term3/sem3prac2.html
Дата изменения: Fri Oct 5 02:04:44 2007
Дата индексирования: Tue Oct 2 11:46:15 2012
Кодировка: Windows-1251
Семестр 3: Блок 1: Практикум 2: Банк EMBL

// Семестр 3: Блок 1: Последовательности нуклеиновых кислот

 // EMBL // BLAST // гомологи некодирующей нуклеотидной последовательности

1. Сравнение разных записей в EMBL


Идентификатор записи EMBL Тип молекулы Класс данных Раздел EMBL Дата создания документа Описание Длина последовательности
EMBL:AP009048 genomic DNA STD PRO 22-Jan-06 Escherichia coli W3110 DNA, complete genome.  4646332
EMBL:U00096 genomic DNA STD PRO 23-Feb-06 Escherichia coli K12 MG1655, complete genome.  4639675
EMBL:X52540 genomic DNA STD PRO 5-Jun-90 Escherichia coli cell-envelope murG gene  1713
EMBL:X52644 genomic DNA STD PRO 5-Jul-90 Escherichia coli murG and murC genes for an unidentified reading frame and UDP-N-acetylmuramate:L-alanine ligase (EC 6.3.2.8) respectively  2793
EMBL:X55034 genomic DNA STD PRO 21-Feb-91 E. coli 2 minute region  28277

Среди записей EMBL, содержащих нужный ген, есть полные геномы (первые две), последовательности генов и их окрцжения (третья и четвертая) и регионы генома (последняя). Полные геномы секвенированы позже, чем гены.


2. Сравнение описаний гена Escherichia coli в двух разных записях EMBL

Последовательности, кодирующие белок MURG_ECOLI в двух записях банка EMBL

  I II
ID записи   x52540 x55034
Начало гена в записи  82 16198
Конец гена в записи  1149 17241
Направление гена  прямое  прямое
Примечания*  AA 1-355  AA 1-347

Выравнивание (начальный фрагмент):
X52540             1 atgagtggtcaaggaaagcgattaatggtgatggcaggcggaaccggtgg     50
                                             ||||||||||||||||||||||||||
X55034             1 ------------------------atggtgatggcaggcggaaccggtgg     26

Последовательности генов отличаются тем, что в первом есть лишний кусов в начале. Скорее всего различие появилось из-за того, что авторы по-разному предсказали начало гена. Из-за обилия старт-кодонов на данном участке генома такое достаточно вероятно.

3. Запись гена из эукариотического генома

Вариантов рамки считывания много, был выбран один из тех, части которого целиком умещаются в данном файле (нет ссылки на другие AC):
FT   CDS             complement(join(<19652..19761,36226..36402,62148..62242))

Схема гена:
<-- [<19652..19761] -- .. -- [62148..62242] ---

3 экзона
Самый короткий экзон имеет длину 94np, самый длинный 176np.
Самый короткий интрон имеет длину  16465np, самый длинный 25746np

См. файл eukaryotes.xls