Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~ipoverennaya/term3/embl.html
Дата изменения: Thu Dec 17 13:50:24 2009
Дата индексирования: Tue Oct 2 11:52:57 2012
Кодировка: Windows-1251
EMBL

Занятие 7. Банк нуклеотидных последовательностей EMBL

Задание 1.  При помощи системы SRS (http://srs.ebi.ac.uk/) были найдены следующие данные:
 a) Дата последнего проиндексированного в системе релиза EMBL: 07.09.2009
Количество записей в релизе:108577013
 b) Различные классы данных в БД EMBL представлены 3буквенными обозначениями. Все классы представлены ниже:
* ANN: Constructed sequence with annotation
* CON: Constructed sequence
* EST: Expressed Sequence Tag
* GRV: Genome Reviews
* GSS: Genome Survey Sequence
* HTC: High Throughput cDNA sequencing
* HTG: High Throughput Genome sequencing
* MGA: Mass Genome Annotation
* PAT: Patent
* SET: Project set (EMBL WGS Masters only)
* STD: Standard
* STS: Sequence Tagged Site
* TPA: Third Party Annotation
* TSA: Transcriptome Shotgun Assembly
* WGS: Whole Genome Shotgun
Число записей, проиндексированных SRS для последнего релиза EMBL.
  est 62846990
  gss 25905073
  htc 549753
  htg 142473
  pat 10439165
  std 7253026
  sts 1310171
  tpa 6520
  tsa 123842
Классы ANN, CON, GRV, MGA, SET, WGS не проиндексированы.
 c) Cписок разделов ("Divisions") банка EMBL.

Обозначение с описанием Число записей в последнем релизе
* ENV: Environmental Samples (проба из окружающей среды) 4145029
* FUN: Fungi (Грибы) 3942084
* HUM: Human (Человек) 12841544
* INV: Invertebrates (Беспозвоночные) 15518735
* MAM: Other Mammals (другие млекопитающие) 9429823
* MUS: Mus musculus (домовая мышь) 7424621
* PHG: Bacteriophage (бактериофаги) 5865
* PLN: Plants (растения) 33806044
* PRO: Prokaryotes (прокариоты) 909986
* ROD: Rodents (Грызуны) 2261678
* SYN: Synthetic (синтетические) 2671622
* TGN: Transgenic (трансгенные) 265465
* UNC: Unclassified (неклассифицируемые) 3945859
* VRL: Viruses (вирусы) 827405
* VRT: Other Vertebrates (другие позвоночные) 10581253

Задание 2. Из записи EMBL с кодом доступа BA000025, я получила следующие сведения о гене HLA-16:
- обратное направление гена (относительно направления, выбранного для записи)
- число кодирующих участков (экзонов): 5
- длина первого кодирующего участка: 276
- длина последнего кодирующего участка: 246
- длина первого интрона: 126
- длина последнего интрона: 158
FT   CDS             complement(join(2044479..2044724,2044881..2044928,
FT                   2045077..2045109,2045503..2045620,2045745..2046020))
FT                   /pseudo
FT                   /gene="HLA-16"
FT                   /note="Class I gene fragment"
FT   exon            2044479..2044724
FT                   /pseudo
FT                   /gene="HLA-16"
FT                   /number=5
FT   exon            2044881..2044928
FT                   /gene="HLA-16"
FT                   /number=4
FT   exon            2045077..2045109
FT                   /gene="HLA-16"
FT                   /number=3
FT   exon            2045503..2045620
FT                   /gene="HLA-16"
FT                   /number=2
FT   exon            2045745..2046020
FT                   /gene="HLA-16"
FT                   /number=1
Задание 3. Самый длинный кодирующий участок последний на 2045745-2046020 позициях.
С помощью команды
seqret -sask
Input (gapped) sequence(s): BA000025.embl
     Begin at position [start]: 2045745
       End at position [end]: 2046020
        Reverse strand [N]: Y
output sequence(s) [ba000025.fasta]: 
этот экзон был вырезан в отдельный файл ba000025.fasta. Для того, чтобы найти Swiss-Prot соответствующий белок, была выцбрана программа blastx (Search protein database using a translated nucleotide query). Через поле "Upload file" был загружен полученный ранее файл, а в поле "Database" был выбран Swiss-Prot. Также, был установлен порог E-value=0,01.
В резудьтате поиска было найдено 134 белка (см.здесь), но ни один из них полностью не соответствовал данному экзону (максимальный процент сходства 69% при минимальном E-value=3e-24).
Задание 4.
Идентификатор записи EMBL Тип молекулы Класс данных Раздел EMBL Дата создания
документа
Описание Длина последовательности
AP009048 genomic DNA STD PRO 22.01.2006 Escherichia coli str. K12 substr. W3110 DNA, complete genome. 4646332
U00096 genomic DNA STD PRO 23.02.2006 Escherichia coli str. K-12 substr. MG1655, complete genome. 4639675
D64044 genomic DNA STD PRO 27.11.1995 Escherichia coli K-12 genes for MCLA protein, L-aspartate oxidase, uracil DNA glycosylase, putative ATP dependent RNA helicase, GTP binding protein, recO protein, YFHB-ECOLI protein, YFHC-ECOLI protein, ribonuclease III, RNA polymerase sigma E, hypothetical 67KD protein, signal peptidase I, lepA protein and hypothetical proteins, complete and partial cds. 29254
D13169 genomic DNA STD PRO 17.04.1993 Escherichia coli nadB, rbaB, ung genes for putative ATP dependent RNA helicase, L-aspartate oxidase, uracil DNA glycosylase, complete cds. 10272
X12714 genomic DNA STD PRO 28.03.1989 E. coli nadB gene for L-aspartate oxidase (quinolinate synthetase B) (EC 1.4.3.16) 1724
Результаты поиска также были сохранены здесь.
Из таблицы видно, что все записи содержат информацию о геномных ДНК прокариотических клеток. Записи AP009048 и U00096, в отличие от остальных, содержат данные не только об определенных генах, а о всем геноме.
Меню
· Главная
· Результаты исследований
· Семестры
· Полезные ссылки
· Контакты
© Ирина Поверенная, 2008-2009