Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~ivyura/Term3/BLAST.html
Дата изменения: Sun Nov 18 16:18:52 2007
Дата индексирования: Tue Oct 2 07:31:43 2012
Кодировка: Windows-1251
BLAST на главную
назад

Программы пакета BLAST

Поиск в геноме участков, кодирующих белки, похожие на Rho_ecoli.

А)Создание индексных файлов для пакета BLAST.

Для начала работы с программой blast, были созданы индексные файлы для генома Pasteurella multocida, и дополнительно для геномов
Salmonella typhimurium и Xanthomonas campestris командами:
- содана новая переменная genpath=/home/export/samba/public/tmp
- и.ф. для Pasteurella multocida: formatdb -i $genpath/pm_genome.fasta -p F -n pm
- и.ф. Salmonella typhimurium: formatdb -i $genpath/st_genome.fasta -p F -n st
- и.ф. Xanthomonas campestris: formatdb -i $genpath/xc_genome.fasta -p F -n xc

Для поиска сразу в 3-х геномах:
- создана еще новая переменная: genomes="$genpath/st_genome.fasta $genpath/xc_genome.fasta $genpath/pm_genome.fasta"
- и.ф. для 3-х геномов:formatdb - i $genomes -p F -n 3g

Б) Поиск участков с помощью пакета BLAST.

Для поиска в геномах участков, кодирующих белки, похожий на Rho_ecoli, была выбрана команда TBLASTN так как именно с ее
помощью, подавая на вход аминокислотную последовательность мы сможем найти гомолога в неаннотированных нуклеотидных
последовательностях.

Команды для построения выравниваний:
для Pasteurella multocida(см.файл)
blastall -p tblastn -d pm -i p0ag30.fasta -o pmres.txt
для Salmonella typhimurium(см.файл)
blastall -p tblastn -d st -i p0ag30.fasta -o stres.txt
для Xanthomonas campestris(см.файл)
blastall -p tblastn -d xc -i p0ag30.fasta -o xcres.txt
для 3-х геномов:(см.файл)
blastall -p tblastn -d 3g -i p0ag30.fasta -o 3gres.txt
где p0ag30.fasta - файл с аминокислотной последовательностью белка Rho_ecoli.
Поиск гомологов RHO_ECOLI
Геном Pasteurella multocida
Геном Salmonella typhimurium
Геном Xanthomonas campestris
Число находок с Е-value<0,001 2 5 6
Характеристика лучшей находки: AE006229| Pasteurella multocida subsp. multocida str. Pm70 section 196 of 204 of the complete genome.
Length = 11895
Score = 718 bits (1854)
Expect = 0.0
Identities = 363/420 (86%)
Positives = 392/420 (93%)
Gaps = 1/420 (0%)
Frame = -2
AE008883| Salmonella typhimurium LT2, section 187 of 220 of the complete genome.
Length = 20621
Score = 791 bits (2043)
Expect = 0.0
Identities = 406/419 (96%)
Positives = 408/419 (97%)
Frame = +3
AE012498| Xanthomonas campestris pv. campestris str. ATCC 33913, section 406 of 460 of the complete genome.
Length = 12898
Score = 587 bits (1512)
Expect = e-168
Identities = 289/418 (69%)
Positives = 352/418 (84%)
Gaps = 1/418 (0%)
Frame = +2
E-value находки 0.0 0.0 e-168
AC соответствующей записи EMBL AE006229 AE008883 AE012498
Координаты выравнивания в записи EMBL 4283-3024 75-1331 7574-8827
Координаты CDS в записи EMBL complement (3021..4283) 75-1334 7550-8830
AC UniProt в записи EMBL Q9CJS2 P0A295 Q8P4D2

Результаты выравнивания по трем геномам сразу:
Количество находок с E-value<0.001 11
Характеристика лучшей находки |AE008883| Salmonella typhimurium LT2, section 187 of 220 of the complete genome.
Length = 20621
Score = 791 bits (2043)
Expect = 0.0
Identities = 406/419 (96%)
Positives = 408/419 (97%)
Frame = +3
E-value лучшей находки 0.0
AC соответствующей записи EMBL AE008883
Координаты выравнивания в записи EMBL 75-1331
Координаты CDS в записи EMBL 75-1334
AC UniProt в записи EMBL P0A295

  • Исходя из поиска по всем геномам, можно сказать, что в каждом из них есть участки, кодирующие белки, похожий на Rho_ecoli (правда в разном количестве). Все лучшие находки - довольно близкие гомологи (e-value очень маленькое) Но все же наибольшим сходством обладает белок из Salmonella typhimurium, кодирующийся участком 75-1334 генома. Интересно посмотреть на лучших гомологов из каждого организма:

  • Белки из всех организмов как и заданный являются факторами терминации транскрипции (Rho).

  • Длина гена Rho_ecoli 160 нуклеотидов,Rho Pasteurella multocida - 1262, Rho Salmonella typhimurium 1259, Rho Xanthomonas campestris - 1280. Даже по длине, ближе к данному белку - белок из Salmonella typhimurium.

  • Концы выравниваний с белками отличаются от концов белков CDS на 3 н.о.(стоп-кодон, который не входит в выравнивание).

  • Исходя из выравнивания по трем геномам сразу, видно что E-value лучших находок из всех геномов бактерий сохраняются, чего не скажешь о следующих находках, у которых E-value увеличилось(см.файл) Это произошло из-за увеличения базы поиска. К тому же количество находок с E-value <0.001 равно сумме лучших находок в отдельности по 3-м геномам. Лучшая из всех находок стала последовательность AE008883 из Salmonella typhimurium LT2.

Поиск гомологов с помощью программы BLASTN

Запустив команду Blastn и подав на вход нуклеотидную последовательность белка Rho_ecoli (команда: blastall -p blastn -d 3g -i Rho.fasta -o blastnres.txt) ищем гомологов во всех трех геномах бактерий Pasteurella multocida, Salmonella typhimurium, Xanthomonas campestris. Получили следующие результаты .

Лучшая находка AE008883| Salmonella typhimurium LT2, section 187
of 220 of the complete genome.
Length = 20621
Score = 1737 bits
(876), Expect = 0.0
Identities = 1164/1260 (92%)
Strand = Plus / Plus

Интересно то, что у второй находки (и тем более у последующих) E-value гораздо больше, а Score намного меньше, чем у первой (190 , 6e-48-Score и E-value второй находки соответственно). Например во 2 и 3 заданиях, когда мы на вход подавали аминокислотную последовательность параметры 1 и 2-ой находок различались мало. Это происходит из-за увеличения размера банка поиска (одна аминокислота кодируется триплетом нуклеотидов). Кроме того аминокислот в пять раз больше ,чем нуклеотидных остатков, поэтому случайное сходство аминокислотых последовательностей гораздо вероятней, чем нуклеотидных. Отсюда можно сказать, что BLASTN хорошо подходит для поиска самых близких гомологов, а TBLASTN - для поиска всех гомологов. Что же касается аннотирования генома - я считаю, что наиболее подходит для этого TBLASTN.

Исходя из результатов всех выравниваний в наиболее похожий на Rho_ecoli белок есть в Salmonella typhimurium,
нежели в других 2-х организмах. Из предположения о том, эволюция белков идет вместе с эволюцией организмов, можно сказать, что
Escherichia coli эволюционно ближе к Salmonella typhimurium, чем к Xanthomonas campestris или Pasteurella multocida.

©Ивин Юрий