Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~solveig/Practice1/BLAST.html
Дата изменения: Wed Oct 10 06:49:12 2007
Дата индексирования: Tue Oct 2 11:45:16 2012
Кодировка: Windows-1251
l

Работа с пакетом BLAST.

 

[На главную][Третий семестр]

I.

Поиск в неаннотированном геноме генов, кодирующих белки, похожие на AZOR_ECOLI:

Для решения данной задачи наиболее подходящей программой является TBLASTN, поскольку она предназначена для поиска гомологов данного белка в неаннотированных нуклеотидных последовательностях. Для имеющихся неаннотированных геномов Salmonella typhimurium, Xanthomonas campestris и Pasteurella multocida с помощью программы formatdb были созданы индексные файлы. Команда для создания индексных файлов выглядит следющим образом:

*      formatdb -p F -n pm -i pm_genome.fasta

*      formatdb -p F -n xc -i xc_genome.fasta

*      formatdb -p F -n st -i st_genome.fasta

После создания индексных файлов запустили программу tblastn:

*      blastall -p tblastn -d pm -i AZOR_ECOLI .fasta -o tblastn.txt -e 0.001

*      blastall -p tblastn -d xc -i AZOR_ECOLI .fasta -o tblastnxc.txt -e 0.001

*      blastall -p tblastn -d st -i AZOR_ECOLI .fasta -o tblastnst.txt -e 0.001

( где -p (название использованной программы); -d (базовое имя индексных файлов); -i (входной файл); -o (выходной файл); -е ( ожидаемое значение e-value) )

Полученные файлы можно просмотреть здесь.

Результаты работы приведены в таблице ниже:

 

Поиск гомологов AZOR_ECOLI

Геном Salmonella typhimurium

Геном Xanthomonas campestris

Геном Pasteurella multocida

Число находок с Е-value <0,001

1

1

0

Характеристика лучшей находки:

 

 

E-value находки

3e-91

4e-25

0.09

 

AC соответствующей записи EMBL

AE008772

AE012097

AE006061

 

координаты выравнивания(-ий) в записи EMBL

16109...16654

5836:6198

2390:2067

 

Координаты CDS в записи EMBL (если они есть)

16106:16711

5536..6255

нет

 

AC UniProt в записи EMBL (если есть)

P63462

P58904

нет

Поиск в 3-х геномах одновременно

Е-value лучшей находки при поиске в 3-х геномах

6e-91

Число находок с Е-value <0, 001
в 3-х геномах

2

 

Как видно из таблицы, программа tblastn прекрасно справилась с задачей, отыскав, гомологичные белку AZOR_ECOLI белки в неаннотированных геномах Salmonella typhimurium и Xanthomonas campestris . Получив при помощи команд

*      entret embl: AE008772 -auto

*      entret embl: AE012097 -auto

 

соответствующие записи из банка EMBL и изучив в них поле CDS убедились, что:

1. найденный белок из Salmonella typhimurium ( по данным SRS - AZOR_SALTY) действительно является гомологом нашего белка и кодируется тем же геном 'acpD'.

2. белок AZOR_XANCP из генома Xanthomonas campestris тоже являеться гомологом, но более дальним нежели AZOR_SALTY, белок выполняет сходные функции, но его аминокислотная последовательность существенно отличается, следовательно существенно отличаються и кодирующие их гены, поэтому Е-value в данном случае меньше чем в первой находке.

3.Расхождения в координатах выравнивания и записи СDS скорей всего связаны с чувствительностью метода работы выбранной программы.

Затем были созданы другие индексные файлы - на основе всех 3-х геномов сразу. По ним был проведен аналогичный поиск. Результат можно посмотреть здесь.
Следует заметить, что как при поиске в одном конкретном геноме, так и в 3-х геномах сразу, количество находок не изменилось. Лучшие находки также принадлежат тем же самым белкам. Изменение e-value для лучших находок, очевидно, можно связать с увеличением банка, по которому ведется поиск, т.к.
количество возможных комбинаций увеличивается, ввиду чего повышается значение E-value

Как видно оба метода использования программы tblastn одинаково эффективны.

 

 

 

II.

Поиск гомологов с помощью программы BLASTN.

Осуществим аналогичный поиск, что и предыдущем пункте, по 3-м геномам только с помощью программы blastn:

*      blastall -p blastn -d 3g -i AZOR_gene1.fasta -o blastn3g.txt

Результаты:

*      Находок : 32

*      Число находок с Е-value <0, 001: 1

*      лучшая находка e-value : 2e-79

*      длина выравнивания: 239 пары нуклеотидов

*      вес выравнивания: 293 бит,

*      процент совпадения 84%.

Соответствующее выравнивание:

 

 

Участок выравненной последовательности находиться на участке записи из банка EMBL описывающем ген acpD. Далее следует аннотация соответствующего фрагмента генома из записи EMBL:

FT gene 16094..16711

FT /gene="acpD"

FT /note="synonym: STM1642"

FT RBS 16094..16099

FT /gene="acpD"

FT /note="putative RBS for acpD; RegulonDB:STMS1H001836"

FT CDS 16106..16711

FT /codon_start=1

FT /transl_table=11

FT /gene="acpD"

FT /product="acyl carrier protein phosphodiesterase"

FT /EC_number="3.1.4.14"

FT /note="similar to E. coli acyl carrier protein

FT phosphodiesterase (AAC74494.1); Blastp hit to AAC74494.1

FT (201 aa), 87% identity in aa 1 - 201"

FT /db_xref="GOA:P63462"

FT /db_xref="InterPro:IPR003680"

FT /db_xref="PDB:1T5B"

FT /db_xref="UniProtKB/Swiss-Prot:P63462"

FT /protein_id="AAL20560.1"

FT /translation="MSKVLVLKSSILAGYSQSGQLTDYFIEQWREKHVADEITVRDLAA

FT NPVPVLDGELVGAMRPGDAPLTPRQQDALALSDELIAELKAHDVIVIAAPMYNFNIPTQ

FT LKNYFDLIARAGITFRYTEKGPEGLVTGKRAVVLSSRGGIHKDTPTDLIAPYLKVFLGF

FT IGITDVNFVFAEGIAYGPEVAAKAQADAKAAIDSVVAA"

 

 

Как можно видеть по изложенным данным, программа нашла в трех геномах только один гомолог, а именно упоминавшийся ранее белок AZOR_SALTY. А длина и значения Е-value остальных выравнивании очень маленькие.

Возможно это объясняется следующими причинами.

*      Программа BLASTN использует на входе последовательность ДНК, и ищет сходные последовательности в банке ДНК последовательностей по тому же алгоритму, что и BLASTP. Но так как ДНК-код триплетен и из-за высокой вариабельности третьего нуклеотида в кодоне, количество кодонов для одной аминокислоты возрастает , и программа BLASTN не распознает , что под различающимися в одном основании кодонами стоит одинаковая аминокислота.

*      Соответственно, из-за вырожденности генетического кода, используется в алгоритме очень длинный якорь: 11 нуклеотидов, что для поиска кодирующих последовательностей приводит к повышению вероятности пропустить что-то значимое и зацепить лишнее.

*      Из этого следует, что программа BLASTN низко чувствительна, и как мы и убедились, с помощью нее можно найти только близких гомологов нашей последовательности. Если необходимо быстро найти очень близких гомологов, то следует воспользоваться программой BLASTN. В случае же когда нужен более точный поиск, лучше воспользоваться программой tblastn.

 

 

 


Спивак Ольга