Задание 1. При помощи системы SRS (http://srs.ebi.ac.uk/) были найдены следующие данные:
a) Дата последнего проиндексированного в системе релиза EMBL: 07.09.2009
Количество записей в релизе:108577013
b) Различные классы данных в БД EMBL представлены 3буквенными обозначениями. Все классы представлены ниже:
* ANN: Constructed sequence with annotation
* CON: Constructed sequence
* EST: Expressed Sequence Tag
* GRV: Genome Reviews
* GSS: Genome Survey Sequence
* HTC: High Throughput cDNA sequencing
* HTG: High Throughput Genome sequencing
* MGA: Mass Genome Annotation
* PAT: Patent
* SET: Project set (EMBL WGS Masters only)
* STD: Standard
* STS: Sequence Tagged Site
* TPA: Third Party Annotation
* TSA: Transcriptome Shotgun Assembly
* WGS: Whole Genome Shotgun
Число записей, проиндексированных SRS для последнего релиза EMBL.
est 62846990
gss 25905073
htc 549753
htg 142473
pat 10439165
std 7253026
sts 1310171
tpa 6520
tsa 123842
Классы ANN, CON, GRV, MGA, SET, WGS не проиндексированы.
c) Cписок разделов ("Divisions") банка EMBL.
|
Обозначение с описанием
| Число записей в последнем релизе
|
|
* ENV: Environmental Samples (проба из окружающей среды)
| 4145029
|
|
* FUN: Fungi (Грибы)
| 3942084
|
|
* HUM: Human (Человек)
| 12841544
|
|
* INV: Invertebrates (Беспозвоночные)
| 15518735
|
|
* MAM: Other Mammals (другие млекопитающие)
| 9429823
|
|
* MUS: Mus musculus (домовая мышь)
| 7424621
|
|
* PHG: Bacteriophage (бактериофаги)
| 5865
|
|
* PLN: Plants (растения)
| 33806044
|
|
* PRO: Prokaryotes (прокариоты)
| 909986
|
|
* ROD: Rodents (Грызуны)
| 2261678
|
|
* SYN: Synthetic (синтетические)
| 2671622
|
|
* TGN: Transgenic (трансгенные)
| 265465
|
|
* UNC: Unclassified (неклассифицируемые)
| 3945859
|
|
* VRL: Viruses (вирусы)
| 827405
|
|
* VRT: Other Vertebrates (другие позвоночные)
| 10581253
|
Задание 2. Из записи EMBL с кодом доступа BA000025, я получила следующие сведения о гене HLA-16:
- обратное направление гена (относительно направления, выбранного для записи)
- число кодирующих участков (экзонов): 5
- длина первого кодирующего участка: 276
- длина последнего кодирующего участка: 246
- длина первого интрона: 126
- длина последнего интрона: 158
FT CDS complement(join(2044479..2044724,2044881..2044928,
FT 2045077..2045109,2045503..2045620,2045745..2046020))
FT /pseudo
FT /gene="HLA-16"
FT /note="Class I gene fragment"
FT exon 2044479..2044724
FT /pseudo
FT /gene="HLA-16"
FT /number=5
FT exon 2044881..2044928
FT /gene="HLA-16"
FT /number=4
FT exon 2045077..2045109
FT /gene="HLA-16"
FT /number=3
FT exon 2045503..2045620
FT /gene="HLA-16"
FT /number=2
FT exon 2045745..2046020
FT /gene="HLA-16"
FT /number=1
Задание 3. Самый длинный кодирующий участок последний на 2045745-2046020 позициях.
С помощью команды
seqret -sask
Input (gapped) sequence(s): BA000025.embl
Begin at position [start]: 2045745
End at position [end]: 2046020
Reverse strand [N]: Y
output sequence(s) [ba000025.fasta]:
этот экзон был вырезан в отдельный файл ba000025.fasta.
Для того, чтобы найти Swiss-Prot соответствующий белок, была выцбрана программа blastx
(Search protein database using a translated nucleotide query). Через поле "Upload file" был загружен полученный ранее файл, а в поле
"Database" был выбран Swiss-Prot. Также, был установлен порог E-value=0,01.
В резудьтате поиска было найдено 134 белка (см.здесь),
но ни один из них полностью не соответствовал данному экзону (максимальный процент сходства 69% при минимальном E-value=3e-24).
Задание 4.
|
Идентификатор записи EMBL
|
Тип молекулы
|
Класс данных
|
Раздел EMBL
|
Дата создания
документа |
Описание
|
Длина последовательности
|
| AP009048 |
genomic DNA |
STD |
PRO |
22.01.2006 |
Escherichia coli str. K12 substr. W3110 DNA, complete genome. |
4646332 |
| U00096 |
genomic DNA |
STD |
PRO |
23.02.2006 |
Escherichia coli str. K-12 substr. MG1655, complete genome. |
4639675 |
| D64044 |
genomic DNA |
STD |
PRO |
27.11.1995 |
Escherichia coli K-12 genes for MCLA protein, L-aspartate oxidase,
uracil DNA glycosylase, putative ATP dependent RNA helicase, GTP binding protein, recO protein, YFHB-ECOLI protein,
YFHC-ECOLI protein, ribonuclease III, RNA polymerase sigma E, hypothetical 67KD protein, signal peptidase I,
lepA protein and hypothetical proteins, complete and partial cds. |
29254 |
| D13169 |
genomic DNA |
STD |
PRO |
17.04.1993 |
Escherichia coli nadB, rbaB, ung genes for putative ATP dependent
RNA helicase, L-aspartate oxidase,
uracil DNA glycosylase, complete cds. |
10272 |
| X12714 |
genomic DNA |
STD |
PRO |
28.03.1989 |
E. coli nadB gene for L-aspartate oxidase (quinolinate synthetase B) (EC 1.4.3.16) |
1724 |
Результаты поиска также были сохранены здесь.
Из таблицы видно, что все записи содержат информацию о геномных ДНК прокариотических клеток. Записи AP009048 и U00096,
в отличие от остальных, содержат данные не только об определенных генах, а о всем геноме.
|