|
Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://kodomo.cmm.msu.ru/~golikov_v/blast.html
Дата изменения: Tue Dec 22 16:19:56 2009 Дата индексирования: Tue Oct 2 00:56:19 2012 Кодировка: Windows-1251 |
Поиск гомологов белка MAA_ECOLI (P77791) в геноме Pasteurella multocidaДля поиска гомологов была выбрана программа tblastn (поиск гомологов белка в неаннотированных нуклеотидных последовательностях).Были использованы следующие команды: formatdb -i pm_genome.fasta -n pm -p F
blastall -p tblastn -d pm -i p77791.fasta -e 0.001 > p77791.out
и получен файл p77791.out
Нахождение записи EMBL по последовательности с помощью программы BLASTNПолученная нами геномная последовательность была вырезана в файл ae006146.fastaДалее был запущен поиск этой последовательности в банке "EMBL standard prokaryote". Лучшая находка - AE004439 (совпадение 100%). >>EM_PRO:AE004439; AE004439 Pasteurella multocida subsp.
multocida str. Pm70, complete genome. (2257487 nt)
rev-comp initn: 2715 init1: 2715 opt: 2715 Z-score: 2179.9 bits: 421.3 E(): 3.3e-115
banded Smith-Waterman score: 2715; 100.0% identity (100.0% similar) in 543 nt overlap (543-1:1244564-1245106)
540 530 520
AE006- TACTTTACATGGATTGCCCACGGCTACACA
::::::::::::::::::::::::::::::
EM_PRO CTCTCGGTCCTGCGGGCTAATCATTCGTTGTACTTTACATGGATTGCCCACGGCTACACA
1244540 1244550 1244560 1244570 1244580 1244590
510 500 490 480 470 460
AE006- ATTTGCCGGAATATCTTTTGTGACCACAGAACCCGCCCCAATCACAGTATTGTCACCAAT
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_PRO ATTTGCCGGAATATCTTTTGTGACCACAGAACCCGCCCCAATCACAGTATTGTCACCAAT
1244600 1244610 1244620 1244630 1244640 1244650
450 440 430 420 410 400
AE006- AGTAACGCCGCCTAAAATCACCACATTGCCCCCAATCCACACATTATTCCCAATCACAAT
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_PRO AGTAACGCCGCCTAAAATCACCACATTGCCCCCAATCCACACATTATTCCCAATCACAAT
1244660 1244670 1244680 1244690 1244700 1244710
390 380 370 360 350 340
AE006- GGGTAGTGCTTGTTCCCATTCTGCCTTACGCAATTCAGGATCAATTGGATGCCCTACGGT
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_PRO GGGTAGTGCTTGTTCCCATTCTGCCTTACGCAATTCAGGATCAATTGGATGCCCTACGGT
1244720 1244730 1244740 1244750 1244760 1244770
330 320 310 300 290 280
AE006- GTATAAACTCACATTCGGAGCAAATAACACATCATCGCCAATCTTCACGCCTCCTGTATC
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_PRO GTATAAACTCACATTCGGAGCAAATAACACATCATCGCCAATCTTCACGCCTCCTGTATC
1244780 1244790 1244800 1244810 1244820 1244830
270 260 250 240 230 220
AE006- TAGGATAGTACAGTGATAATTCGCAAAAAAGTTTTTTCCGACTTCAATAAATTGCCCGTA
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_PRO TAGGATAGTACAGTGATAATTCGCAAAAAAGTTTTTTCCGACTTCAATAAATTGCCCGTA
1244840 1244850 1244860 1244870 1244880 1244890
210 200 190 180 170 160
AE006- ATCACAATAAAAAGGCGTATTAATGTGAGGTGTATTCGCAGCTTTACCAAGAATAGATAA
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_PRO ATCACAATAAAAAGGCGTATTAATGTGAGGTGTATTCGCAGCTTTACCAAGAATAGATAA
1244900 1244910 1244920 1244930 1244940 1244950
150 140 130 120 110 100
AE006- GATCAAACGGGCTTTTGTTTGTTTATCTGAAGGGCGAGTTAACACATTATATTCATGCAA
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_PRO GATCAAACGGGCTTTTGTTTGTTTATCTGAAGGGCGAGTTAACACATTATATTCATGCAA
1244960 1244970 1244980 1244990 1245000 1245010
90 80 70 60 50 40
AE006- TAATTCTTTATTACGTAAACGCATCTCTGCCAATTCCGGATCATAAGGCTGATGCGCTAA
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_PRO TAATTCTTTATTACGTAAACGCATCTCTGCCAATTCCGGATCATAAGGCTGATGCGCTAA
1245020 1245030 1245040 1245050 1245060 1245070
30 20 10
AE006- ACCTAAATGTCGTTTTTCTTTGTCTGTCAACAT
:::::::::::::::::::::::::::::::::
EM_PRO ACCTAAATGTCGTTTTTCTTTGTCTGTCAACATCGTTGTTACTCTGTGATTAATGTATGG
1245080 1245090 1245100 1245110 1245120 1245130
EM_PRO GTTCTGACATCAAAAACATGCATACCTGCTGCAAGTCCTGCTTGAACACCTAAATCAGCA
1245140 1245150 1245160 1245170 1245180 1245190
FT gene complement(1244495..1245106)
FT /locus_tag="PM1056"
FT CDS complement(1244495..1245106)
FT /codon_start=1
FT /transl_table=11
FT /locus_tag="PM1056"
FT /product="unknown"
FT /db_xref="GOA:Q9CLZ3"
FT /db_xref="HSSP:1OCX"
FT /db_xref="InterPro:IPR001451"
FT /db_xref="UniProtKB/TrEMBL:Q9CLZ3"
FT /protein_id="AAK03140.1"
FT /translation="MLTDKEKRHLGLAHQPYDPELAEMRLRNKELLHEYNVLTRPSDKQ
FT TKARLILSILGKAANTPHINTPFYCDYGQFIEVGKNFFANYHCTILDTGGVKIGDDVLF
FT APNVSLYTVGHPIDPELRKAEWEQALPIVIGNNVWIGGNVVILGGVTIGDNTVIGAGSV
FT VTKDIPANCVAVGNPCKVQRMISPQDREDYLQRFKPDWND"
Участок (1244563 - 1245106) является частью аннотированной кодирующей последовательности CDS (1244495 - 1245106). Участок соответствует записи Q9CLZ3 банка UniProt. Поиск гомологов с помощью программы BLASTNБыла выбрана запись AJ223173 EMBL aj223173.entret.Координаты CDS в записи: (1, 552). Кодирующая последовательность была вырезана в файл aj223173.fasta. Далее была использована команда blastall -p blastn -d pm -i aj223173.fasta > aj223173.outи получен файл aj223173.out. Лучшая находка - AE006074 Pasteurella multocida subsp. multocida str. Pm70 section 41 (E-value - 0.062). Координаты находки в этой последовательности: (5974, 5990). По сравнению с результатами поиска по последовательности белка:1) Количество находок больше (16 против 2х) но и их E-value заметно больше (0.062 против 6e-35 у лучших находок). Большее число находок может объясняться отсутствием ограничения Е-value<0,001, которое мы накладывали в поиске по последовательности белка.2) Длины соответствующих друг другу находок в поиске по нуклеотидной последовательности гораздо меньше чем в поиске по последовательности белка. Работа с программой getorf пакета EMBOSS
Была запущена программа getorf, чтобы получить набор трансляций всех открытых рамок данной последовательности длиной более
30 нуклеотидов, считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и
заканчивающуюся стоп-кодоном, при использовании бактериального кода.
| |||||||||||||