|
Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://kodomo.cmm.msu.ru/~mashunia/BLAST.html
Дата изменения: Mon Dec 28 00:45:18 2009 Дата индексирования: Tue Oct 2 00:23:54 2012 Кодировка: Windows-1251 |
Создание индексных файлов пакета BLAST для поиска по заданному геному:
formatdb -i pm_genome.fasta -p F -n pm
Где параметры:
Поиск по TBLASTN с порогом на E-value 0,001:
blastall -p tblastn -d pm -i k6pf1_ecoli.fasta -e 0.001 -o output.txt
Где прараметры:
| Число находок с Е-value<0,001 | 1 | |
| Характеристика лучшей находки: | Score = 452 bits (1164), Identities = 220/320 (68%), Positives = 254/320 (79%), Gaps = 1/320 (0%) Frame = +1 | |
| E-value находки | e-129 | |
| Название геномной последовательности | AE006042 | |
| Координаты выравнивания(-ий) в найденной последовательности | 8494-9453 | |
>EM_PRO:AE004439; AE004439 Pasteurella multocida subsp. multocida str. Pm70,
complete genome.
Length = 2,257,487
Minus Strand HSPs:
Score = 4744 (717.8 bits), Expect = 1.3e-206, P = 1.3e-206
Identities = 952/960 (99%), Positives = 952/960 (99%), Strand = Minus / Plus
Query: 960 ATGATNNNNNNNNTAGCAGTATTAACCAGTGGTGGTGACGCACCGGGCATGAATGCCGCC 901
||||| |||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 95079 ATGATAAAAAAAATAGCAGTATTAACCAGTGGTGGTGACGCACCGGGCATGAATGCCGCC 95138
Query: 900 ATTCGCGGCGTGGTTCGTTCAGCACTTGCGGCAGGATTAGAAGTATACGGTATTTATGAA 841
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 95139 ATTCGCGGCGTGGTTCGTTCAGCACTTGCGGCAGGATTAGAAGTATACGGTATTTATGAA 95198
Query: 840 GGCTATTATGGGTTATATCATAATAAAGTGAAACAAATGACCCGTTATAGTGTTTCCGAC 781
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 95199 GGCTATTATGGGTTATATCATAATAAAGTGAAACAAATGACCCGTTATAGTGTTTCCGAC 95258
Query: 780 ATTATTAACCGCGGCGGTACTTTTTTAGGATCGGCGCGTTTTCCTGAATTTAAAGATCCT 721
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 95259 ATTATTAACCGCGGCGGTACTTTTTTAGGATCGGCGCGTTTTCCTGAATTTAAAGATCCT 95318
Query: 720 GCGGTTCGCGCTAAATGTGCTGAAATTTTACGTTCCCATGGTATTGATGCACTTGTGGTG 661
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 95319 GCGGTTCGCGCTAAATGTGCTGAAATTTTACGTTCCCATGGTATTGATGCACTTGTGGTG 95378
Query: 660 ATTGGTGGGGACGGTTCTTACATGGGGGCAAAATTACTGACGGAAGAACATGGTTTCCCT 601
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 95379 ATTGGTGGGGACGGTTCTTACATGGGGGCAAAATTACTGACGGAAGAACATGGTTTCCCT 95438
Query: 600 TGCGTCGGTATCCCGGGTACGATTGATAATGATGTGGCAGGGACAGACTACACCATCGGT 541
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 95439 TGCGTCGGTATCCCGGGTACGATTGATAATGATGTGGCAGGGACAGACTACACCATCGGT 95498
Query: 540 TATCAAACCGCATTACAGACAGCCGTCGAAGCCATTGACCGTTTACGCGATACCTCAAGC 481
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 95499 TATCAAACCGCATTACAGACAGCCGTCGAAGCCATTGACCGTTTACGCGATACCTCAAGC 95558
Query: 480 TCGCACCAACGTATTTCGATTGTTGAAATCATGGGACGTCATTGTAGTGATTTAGCTATT 421
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 95559 TCGCACCAACGTATTTCGATTGTTGAAATCATGGGACGTCATTGTAGTGATTTAGCTATT 95618
Query: 420 TCAGCGGGTATTGCTGGTGGTTGTGAGTATATTGTGGCATCGGAAGTAGAATTTAACCGT 361
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 95619 TCAGCGGGTATTGCTGGTGGTTGTGAGTATATTGTGGCATCGGAAGTAGAATTTAACCGT 95678
Query: 360 GAAGAGTTAATTCAACAGATTGAGCGCAGTATTATCAAAGGTAAACGTCATGCCATTATT 301
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 95679 GAAGAGTTAATTCAACAGATTGAGCGCAGTATTATCAAAGGTAAACGTCATGCCATTATT 95738
Query: 300 GCAATTACTGAGTTAATTTGTGATGTGAATGAATTAGCCCGTGAAATTGAATCGCGTGTG 241
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 95739 GCAATTACTGAGTTAATTTGTGATGTGAATGAATTAGCCCGTGAAATTGAATCGCGTGTG 95798
Query: 240 AAACATGAAACCCGTGCTACCATTTTAGGTCATATTCAACGTGGCGGTACGCCTTGCGCA 181
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 95799 AAACATGAAACCCGTGCTACCATTTTAGGTCATATTCAACGTGGCGGTACGCCTTGCGCA 95858
Query: 180 TTTGACCGTATTTTAGGTTCACGTATGGGCGTTTATGCGGTTGATTTATTAATGCAAGGT 121
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 95859 TTTGACCGTATTTTAGGTTCACGTATGGGCGTTTATGCGGTTGATTTATTAATGCAAGGT 95918
Query: 120 AAAGGTGGCTATTGCGTTGGTATTCAAAATGAACAATTAGTTCACCACGATATTATTGAT 61
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 95919 AAAGGTGGCTATTGCGTTGGTATTCAAAATGAACAATTAGTTCACCACGATATTATTGAT 95978
Query: 60 GCAATCAACAATATGCGCCGTGAATTTAAAGCGGATTGGTTAGCATTATCGAAACGTTTA 1
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 95979 GCAATCAACAATATGCGCCGTGAATTTAAAGCGGATTGGTTAGCATTATCGAAACGTTTA 96038
Следовательно, в записи AE004439 последовательность имеет координаты 95079-96038.
FT CDS 95079..96044 FT /codon_start=1 FT /transl_table=11 FT /gene="pfkA" FT /locus_tag="PM0069" FT /product="PfkA" FT /db_xref="GOA:Q9CPH2" FT /db_xref="HSSP:2PFK" FT /db_xref="InterPro:IPR015912" FT /db_xref="UniProtKB/Swiss-Prot:Q9CPH2" FT /protein_id="AAK02153.1" FT /translation="MIKKIAVLTSGGDAPGMNAAIRGVVRSALAAGLEVYGIYEGYYGL FT YHNKVKQMTRYSVSDIINRGGTFLGSARFPEFKDPAVRAKCAEILRSHGIDALVVIGGD FT GSYMGAKLLTEEHGFPCVGIPGTIDNDVAGTDYTIGYQTALQTAVEAIDRLRDTSSSHQ FT RISIVEIMGRHCSDLAISAGIAGGCEYIVASEVEFNREELIQQIERSIIKGKRHAIIAI FT TELICDVNELAREIESRVKHETRATILGHIQRGGTPCAFDRILGSRMGVYAVDLLMQGK FT GGYCVGIQNEQLVHHDIIDAINNMRREFKADWLALSKRLD"
Необходимо создать в своей рабочей директории fasta-файл с последовательностью из генома E.coli, кодирующей мой белок K6PF1_ECOLI.
Мной была выбрана запись L19201 EMBL.
Эта запись была сохранена в файл с помощью команды
entret embl:L19201 -auto
Кодирующая последовательность была вырезана в отдельный файл:
seqret "embl:L19201[69185..70147]"
На выходе получился файл l19201.fasta
blastall -p blastn -d pm -i l19201.fasta > l19201.out
Полученный в итоге файл: l19201.out
По результатам работы программы составим таблицу:
| Программа | TBLASTN | BLASTN |
| Число находок (e-value<0.001 ) | 1 | 0 |
| E-value лучшей находки | e-129 | 0.028 |
| Координаты выравнивания | 8494-9453 | 5351-5368 |
| Длины выравниваний | 959 | 17 |
| Название геномной последовательности | AE006042 | AE006114 |
Из таблицы видно, что поиск по аминокислотной последовательности намного лучше, чем по нуклеотидной последовательности. Результаты поиска blastn отличаются от поиска tblastn значительно большими e-value находок (менее достоверными), большим числом находок (выравниваний получается больше, потому что 3 нуклеотида соответсвуют 1ой аминокислоте) и меньшей длиной выравнивания. Это может происходить из-за того, что белки кодируются 20 буквами, а гены 4.