Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~artemov/term3/sem3prac3.html
Дата изменения: Thu Dec 20 17:26:28 2007
Дата индексирования: Tue Oct 2 11:46:18 2012
Кодировка: Windows-1251
Семестр 3: Блок 1: Практикум 3: Программы пакета BLAST

// Семестр 3: Блок 1: Последовательности нуклеиновых кислот

 // EMBL // BLAST // гомологи некодирующей нуклеотидной последовательности

Поиск в геноме участков, кодирующих белки, похожие на заданный

blastall -p tblastn -i murg_ecoli.fasta -d xc -e 0.001 -o murg_xc.blast


Поиск гомологов MURG_ECOLI Геном Xanthomonas campestris
Число находок с Е-value<0,001  1
Характеристика лучшей находки(*):  
   E-value находки  4e-84
  AC соответствующей записи EMBL  AE012171
  координаты выравнивания(-ий) в записи EMBL  9359..10405
  Координаты CDS в записи EMBL (если они есть)  9296..10579
  AC UniProt в записи EMBL (если есть)  Q8PCK0
При поиске по 3 геномам: Xanthomonas campestris, Salmonella typhimurium, Pasteurella multocida
E-value находки (*) 1e-83
Общее число находок 3

Для лучшей находки:
>AE008699 AE006468 |AE008699| Salmonella typhimurium LT2, section 7 of
             220 of the complete genome.
          Length = 22348

 Score =  661 bits (1705), Expect = 0.0
 Identities = 326/354 (92%), Positives = 343/354 (96%)
 Frame = +3


Аналогичный поиск сразу в нескольких геномах

При поиске в банке из 3 последовательностей e-value увеличивается, т.к. количество всех возможных подпоследовательностей больше => среди них  больше вероятность найти выравнивания лучше данного. По формуле E=Kmn(e^-λS) то же самое: n больше => E больше

genpath=/home/export/samba/public/tmp
genomes="$genpath/st_genome.fasta $genpath/xc_genome.fasta $genpath/pm_genome.fasta"
formatdb -i "$genomes" -p F -n 3b

blastall -p tblastn -i murg_ecoli.fasta -d 3b -e 0.001 -o murg_3b.blast

Выводы о найденных последовательностях

E-value находок достаточно низкое в обоих случаях, к тому же в соответствующих находкам записях UniProt аннотированы белки, аналогичные данному (тоже MURG).

По этим данным понятно, что найдены гомологи.

Поиск гомологов гена через BLASTN

blastall -p blastn -i x52540.fasta -d 3b -o murg_3b_blastn.blast

Поиск гомологов гена через BLASTN 3 генома
Число находок с Е-value<0,001  2
Характеристика лучшей находки:  
   E-value находки  e-154
  AC соответствующей записи EMBL  AE008699

Выравнивание лучшей находки:
>AE008699 AE006468 |AE008699| Salmonella typhimurium LT2, section 7 of
             220 of the complete genome.
          Length = 22348

 Score =  543 bits (274), Expect = e-154
 Identities = 865/1062 (81%)
 Strand = Plus / Plus

                                                                        
Query: 1     atgagtggtcaaggaaagcgattaatggtgatggcaggcggaaccggtggacatgtattc 60
             ||||||||||||   ||||| |||||||||||||| ||||| ||||| || || || |||
Sbjct: 21198 atgagtggtcaaccgaagcggttaatggtgatggcgggcggtaccggcgggcacgtgttc 21257

                                                                        
Query: 61    ccgggactggcggttgcgcaccatctaatggctcagggttggcaagttcgctggctgggg 120
             ||||||||||| |||||||| ||| ||||||| ||||| ||||| ||||||||||||||
Sbjct: 21258 ccgggactggccgttgcgcatcatttaatggcccagggctggcaggttcgctggctgggt 21317

                                                                        
Query: 121   actgccgaccgtatggaagcggacttagtgccaaaacatggcatcgaaattgatttcatt 180
             || ||||| |||||||||||||| |||||||| || ||||||||||| ||||| || |||
Sbjct: 21318 accgccgatcgtatggaagcggatttagtgccgaagcatggcatcgacattgactttatt 21377

                                                                        
Query: 181   cgtatctctggtctgcgtggaaaaggtataaaagcactgatagctgccccgctgcgtatc 240
             || ||||| ||||| || || |||||  ||||||| ||  | || || |||||||| ||
Sbjct: 21378 cggatctccggtctacgcggtaaaggcgtaaaagcgcttctggcggcgccgctgcggatt 21437

                                                                        
Query: 241   ttcaacgcctggcgtcaggcgcgggcgattatgaaagcgtacaaacctgacgtggtgctc 300
             || ||||||||||| |||||||||||||| |||||   ||  || || || || |||||
Sbjct: 21438 tttaacgcctggcggcaggcgcgggcgatcatgaagcggtttaagccggatgtcgtgctg 21497

                                                                        
Query: 301   ggtatgggaggctacgtgtcaggtccaggtggtctggccgcgtggtcgttaggcattccg 360
             || ||||| || || || || || || || ||||| ||||| ||||| || || ||||||
Sbjct: 21498 ggaatgggcggttatgtttccggccccggcggtcttgccgcatggtcattgggtattccg 21557

                                                                        
Query: 361   gttgtacttcatgaacaaaacggtattgcgggcttaaccaataaatggctggcgaagatt 420
             || ||  | ||||| ||||||||||| || ||  |||||||| | |||||||| || ||
Sbjct: 21558 gtcgtcttgcatgagcaaaacggtatcgccgggctaaccaatcagtggctggccaaaatc 21617

                                                                        
Query: 421   gccaccaaagtgatgcaggcgtttccaggtgctttccctaatgcggaagtagtgggtaac 480
             || |||| |||||||||||||||||| ||||| || || || |||||||| |||||||||
Sbjct: 21618 gcgaccacagtgatgcaggcgtttcccggtgcgtttccgaacgcggaagtggtgggtaac 21677

                                                                        
Query: 481   ccggtgcgtaccgatgtgttggcgctgccgttgccgcagcaacgtttggctggacgtgaa 540
             |||||||||||||| ||  ||||| ||||||||||||||   ||| |||| || |||||
Sbjct: 21678 ccggtgcgtaccgacgtactggcgttgccgttgccgcaggtgcgtctggccggtcgtgac 21737

                                                                        
Query: 541   ggtccggttcgtgtgctggtagtgggtggttctcagggcgcacgcattcttaaccagaca 600
             || ||| |||| ||| |||| || || ||||||||||| || ||  | || ||||||||
Sbjct: 21738 ggcccgattcgcgtgttggtggtcggcggttctcagggggcgcgagtcctgaaccagacg 21797

                                                                        
Query: 601   atgccgcaggttgctgcgaaactgggtgattcagtcactatctggcatcagagcggcaaa 660
             |||||||||||||| || | |||||| ||| | || || ||||||||||| ||||| |||
Sbjct: 21798 atgccgcaggttgccgccagactgggcgatacggttacaatctggcatcaaagcggaaaa 21857

                                                                        
Query: 661   ggttcgcaacaatccgttgaacaggcgtatgccgaagcggggcaaccgcagcataaagtg 720
             ||  |||| |   | || || ||||| |||||||  ||||| |||||||||||||| ||
Sbjct: 21858 ggcgcgcagctcacggtagagcaggcatatgccggggcgggacaaccgcagcataaggta 21917

                                                                        
Query: 721   acggaatttattgatgatatggcggcggcgtatgcgtgggcggatgtcgtcgtttgccgc 780
             ||||||||||| ||||| ||||| || || ||||||||||||||||| || || || ||
Sbjct: 21918 acggaatttatcgatgacatggccgccgcctatgcgtgggcggatgtagtggtatgtcgt 21977

                                                                        
Query: 781   tccggtgcgttaacggtgagtgaaatcgccgcggcaggactaccggcgttgtttgtgccg 840
             ||||| || ||||||||||| || |||||||| || ||  |||||||| | || ||||||
Sbjct: 21978 tccggcgctttaacggtgagcgagatcgccgccgccgggttaccggcgatattcgtgccg 22037

                                                                        
Query: 841   tttcaacataaagaccgccagcaatactggaatgcgctaccgctggaaaaagcgggcgca 900
             ||||| ||||||||| | ||||| |||||||||||||| ||| | ||||| || ||||||
Sbjct: 22038 tttcagcataaagacaggcagcagtactggaatgcgctgccgttagaaaacgccggcgca 22097

                                                                        
Query: 901   gccaaaattatcgagcagccacagcttagcgtggatgctgtcgccaacaccctggccggg 960
             || || ||| | |||||||| ||| |||  || || ||||||||| |||||||||| |||
Sbjct: 22098 gctaagatttttgagcagccgcagtttactgtagaggctgtcgccgacaccctggcgggg 22157

                                                                        
Query: 961   tggtcgcgagaaaccttattaaccatggcagaacgcgcccgcgctgcatccattccggat 1020
             |||||||| ||  | || ||||||||||| || || |||||||| | |||||||||||||
Sbjct: 22158 tggtcgcgcgaggcgttgttaaccatggcggagcgtgcccgcgcggtatccattccggat 22217

                                                      
Query: 1021  gccaccgagcgagtggcaaatgaagtgagccgggttgcccgg 1062
             || |||||||| || || | |||||| |||||||||||||||
Sbjct: 22218 gctaccgagcgcgtcgccagtgaagttagccgggttgcccgg 22259


Аннотация соответствующего фрагмента генома:
FT   CDS             21198..22265
FT                   /codon_start=1
FT                   /transl_table=11
FT                   /gene="murG"
FT                   /product="UDP-N-acetylglucosamine:N-acetylmuramyl-(pentapep
tide)
FT                   pyrophosphoryl-undecaprenol N-acetylglucosamine
FT                   transferase"
FT                   /EC_number="2.4.1.-"
FT                   /note="similar to E. coli
FT                   UDP-N-acetylglucosamine:N-acetylmuramyl- (pentapeptide)
FT                   pyrophosphoryl-undecaprenol N-acetylglucosamine transferase
FT                   (AAC73201.1); Blastp hit to AAC73201.1 (355 aa), 92%
FT                   identity in aa 1 - 354"
FT                   /db_xref="GOA:Q8ZRU3"
FT                   /db_xref="InterPro:IPR004276"
FT                   /db_xref="InterPro:IPR007235"
FT                   /db_xref="UniProtKB/Swiss-Prot:Q8ZRU3"
FT                   /protein_id="AAL19092.1"
FT                   /translation="MSGQPKRLMVMAGGTGGHVFPGLAVAHHLMAQGWQVRWLGTADRM
FT                   EADLVPKHGIDIDFIRISGLRGKGVKALLAAPLRIFNAWRQARAIMKRFKPDVVLGMGG
FT                   YVSGPGGLAAWSLGIPVVLHEQNGIAGLTNQWLAKIATTVMQAFPGAFPNAEVVGNPVR
FT                   TDVLALPLPQVRLAGRDGPIRVLVVGGSQGARVLNQTMPQVAARLGDTVTIWHQSGKGA
FT                   QLTVEQAYAGAGQPQHKVTEFIDDMAAAYAWADVVVCRSGALTVSEIAAAGLPAIFVPF
FT                   QHKDRQQYWNALPLENAGAAKIFEQPQFTVEAVADTLAGWSREALLTMAERARAVSIPD
FT                   ATERVASEVSRVART"

Как видим (важные фрагменты отмечены жирным шрифтом), найденный фрагмент целиком укладывается в имеющийся в геноме Salmonella typhimurium ген murG, который похож на этот же ген в E. coli.
При выравнивании по белковым последовательностям e-value еще лучше (равено 0.0), так как многие замены в ДНК являются синонимичными и не видны при белковом бласте.

Вывод: Таким образом, хорошее e-value и аналогичная аннотация находки указывают на то, что находка является гомологом

Сравнение TBLASTN и BLASTN

На мой взглад, правильнее в любом случае польщоваться TBLASTN. BLASTN дает хорошие результаты только потому, что поледовательности очень родственные, в том случае, если различия, например, по третьему нуклеотиду в кодоне, значительны, эффективность пориска затрудняется.

BLASTN можно применять, если очень близкие геномы, например, если нужно отличить друг от друга нескольких парологов.