Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~zamaraev/projects/embl.html
Дата изменения: Thu Dec 17 13:24:36 2009
Дата индексирования: Tue Oct 2 11:15:21 2012
Кодировка: Windows-1251
Ucheba

Банк нуклеотидных последовательностей EMBL

7 сентября 2009 г. - дата последнего проиндексированного в системе релиза EMBL и количество записей в нем 108577013

Список классов банка EMBL

ANN: Constructed sequence with annotation
CON: Constructed sequence
EST: Expressed Sequence Tag
GRV: Genome Reviews
GSS: Genome Survey Sequence
HTC: High Throughput cDNA sequencing
HTG: High Throughput Genome sequencing
MGA: Mass Genome Annotation
PAT: Patent
SET: Project set (EMBL WGS Masters only)
STD: Standard
STS: Sequence Tagged Site
TPA: Third Party Annotation
TSA: Transcriptome Shotgun Assembly
WGS: Whole Genome Shotgun

Проиндексированы записи:
EST: 62846990 записей
GSS: 25905073 записей
HTC: 549753 записей
HTG: 142473 записей
PAT: 10439165 записей
STD: 7253026 записей
STS: 1310171 записей
TPA: 6520 записей
TSA: 123842 записей

Не проиндексированы записи:
ANN: Constructed sequence with annotation
CON: Constructed sequence
GRV: Genome Reviews
MGA: Mass Genome Annotation
SET: Project set (EMBL WGS Masters only)
WGS: Whole Genome Shotgun

Обозначение Описание Число записей
Английский Русский
ENV Environmental Samples Образцы из окружающей среды 4145029
FUN Fungi Грибы 3942084
HUM Human Человек 12841544
INV Invertebrates Беспозвоночные 15518735
MAM Other Mammals Другие млекопитающие 9429823
MUS Mus musculus Домовая мышь 7424621
PHG Bacteriophage Бактериофаги 5865
PLN Plants Растения 33806044
PRO Prokaryotes Прокариоты 909986
ROD Rodents Грызуны 2261678
SYN Synthetic Синтетические 2671622
TGN Transgenic Трансгенные 265465
UNC Unclassified Неклассифицированные 3945859
VRL Viruses Вирусы 827405
VRT Other Vertebrates Другие позвоночные 10581253

 

Информация о гене HLA-F из записи BA000025

Относительно направления, выбранного для записи, ген на комплементарной цепи.

Число кодирующих участков: 8

Длина первого кодирующего участка: 64 нуклеотида

Длина последнего кодирующего участка: 5 нуклеотида

Длина первого интрона между кодирующими участками: 130 нуклеотидов

Длина последнего интрона между кодирующими участками: 176 нуклеотида

Поиск белка по кодирующему участку гена

Был выбран самый длинный кодирующий участок (2214811..2215086).
Его длина составила 275 нуклеотида.

С помощью программы seqret с параметром -sask последовательность этого кодирующего участка была вырезана в отдельный файл: hla-f.fasta

seqret -sask
Reads and writes (returns) sequences
Input (gapped) sequence(s): BA000025.embl
Begin at position [start]: 2214811
End at position [end]: 2215086
Reverse strand [N]:
output sequence(s): hla-f.fasta

Была выбрана программа blastx, находящая белковые последовательности, соответствующие нуклеотидной последовательности, подаваемой на вход.

Содржание hla-f.fasta скопировано в поле для ввода последовательности:.
В поле database был выбран банк SwissProt.
После этого был начат поиск.

Было найдено 152 белков. Первые 2 белка имеют одинаковое E-value 6e-17
Белок P30511 (HLAF_HUMAN) найден вторым, и у него, как и у HLAF_MACMU одинаковый E-value и счет.
Участок этого белка с 205 по 295 аминокислотных остатков соответствует исследуемому экзону.

Идентификатор записи EMBL Тип молекулы Класс данных Раздел EMBL Дата создания
документа
Описание Длина последовательности
AP009048 Genomic_DNA STD PRO 22-JAN-2006 Escherichia coli str. K12 substr. W3110 DNA, complete genome. 4646332
U00096 Genomic_DNA STD PRO 23-FEB-2006 Escherichia coli str. K-12 substr. MG1655, complete genome. 4639675
U18997 Genomic_DNA STD PRO 30-DEC-1994 Escherichia coli K-12 chromosomal region from 67.4 to 76.0 minutes. 372438
U01376 ALT_INIT, Genomic_DNA STD PRO 18-MAY-1995 Escherichia coli K12 ampicillin-binding protein (dacB), transcription elongation factor (greA), regulatory protein (mrsF), ATP-binding protein (mrsC), dihydropteroate synthase, regulatory protein (mrsA), and membrane protein genes, complete cds. 9097
M83138 Genomic_DNA STD PRO 20-OCT-1992 E.coli ftsH and ftsJ genes, complete cds. 2950

Все записи относятся к классу данных STD и описывают ДНК организма Escherichia coli.
Записи AP009048 и U00096 сильно превышают остальные записи по длине, так как они описывают полный геном.
Остальные три записи описывают лишь участки генома.

 

 

© Замараев Алексей