Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~Lan787/term3_files/Untitled.htm
Дата изменения: Wed Nov 9 22:29:54 2005
Дата индексирования: Tue Oct 2 13:12:25 2012
Кодировка: Windows-1251
Поиск гомологов с помощью программ TBLASTN, BLASTN, Fasta34, MegaBLAST, discontigous MegaBLAST

Поиск гомологов с помощью программ TBLASTN, BLASTN, Fasta34, MegaBLAST, discontigous MegaBLAST

На главную

Поиск гомологов белка tauD в геномах родственных бактерий

Программой TBLASTN я искал гомологов своего белка в геноме Pseudomonas aeruginosa. Лучшая находка c Evalue 10-91.Ее AC в EMBL банке: AE004811. Запись является не аннотированной. Кроме того TBLASTN выдал еще две находки с Evalue < 0.01 (AE004657 AE004457), записи которых также не аннотированы.

Произведя поиск по трем геномам сразу (Vibrio cholerae, Pseudomonas aeruginosa, Pasteurella multocida), я получил те же самые находки, но Evalue лучшей упало до 10-90

Также я попытался найти гомологов моего белка с помощью программы BLASTN, предоставив ей нуклеотидную последовательность, кодирующую мой белок. Evalue у лучшей находки (AE004811) составляло 0.009. Однако длинна выравнивания составляла 100 нуклеотидов, что ставит под сомнение качество поиска. Была еще одна находка с Evalue 0.009, длинна ее выравнивания составляла 60 нуклеотидов. Следовательно BLASTN не лучшая программа для поиска гомологов генов.

Я попробовал найти гомологов гена моего белка с помощью программы fasta34. Evalue у лучшей находки (AE004811) составляло 10-56, что гораздо лучше по сравнению BLASTN. К тому же, программа нашла еще одного гомолога в геноме Pseudomonas aeruginosa с Evalue < 0.01, которого нашел TBLASTN. В итоге fasta34 нашла 2 гомолога, которые нашел TBLASTN, а одного пропустила.

Megablast

Меgablast - программа для быстрого поиска гомологов нуклеотидных последовательностей. В задании было предложенно оценить сколько нуклеотидных замен (в сравнении с той последовательностью, по которой производится выравнивание) должна содержать нуклеотидная последовательность, чтобы MegaBLAST не смог обнаружить их гомологичность.

Взяв из генома Pseudomonas aeruginosa последовательность длинной 180 нуклеотидов, я произвел в ней замену каждого 28 нуклеотида, а затем произвел поиск гомологов этой измененной последовательности в трех геномах (Vibrio cholerae, Pseudomonas aeruginosa, Pasteurella multocida) программой Megablast ипользуя настройки по умолчанию.

aaacgacgtggcgttctgggacaaccgcgtgacgcagcactacgcggtggacgattaccggccacagcggcgggtcatgcatcgcgccaccatcctcggcgacaagcccttctgacga - оригинал
aaacgacgtggcgttctgggacaacctcgtgacgcagcactacgcggtggacgtttaccggccacagcggcgggtcatgtatcgcgccaccatcctcggcgacaagtccttctgacga
Как и предполагалось MegaBLAST не нашел гомологов. Дело в том, что MegaBLAST пытается найти слово (последовательность нуклеотидов определенной длинны), которое в неизменном виде присутсвует в двух выравниваемых последовательностях, а затем с него продолжить выравнивание последовательностей. Длинна слова по умолчанию составляет 28 нуклеотидов. Поэтому в последовательности с каждым 28 замененным нуклеотидом не найдется слова длинной 28 нуклеотидов, которое бы присутствовало в геноме Pseudomonas aeruginosa, и MegaBLAST не построит выравнивание (хотя последовательности очень похожи). Причем это минимальное количество замен: если убрать одну замену, появится слово длинной 28 нуклеотидов, и MegaBLAST уже найдет гомологию.

Таким образом достаточно лишь 4-х замен на 180 нуклеотидов! Такова плата за скорость.

Поиск гомологов глициновых тРНК с помощью discontigous MegaBLAST

Поиск производился по 3-м предоставленным последовательностям в трех геномах (Vibrio cholerae, Pseudomonas aeruginosa, Pasteurella multocida) Количество найденных гомологов зависит от длинны слов discontigous MegaBLAST и MegaBLAST (параметры -t и -W соответственно). Так при максимальных длиннах слов (-t 21 -W 12) находится 21 гомолог, а при минимальных (-t 16 -W 11) уже 61 гомолог.

Итак, максимальное количество гомологов (61) можно получить с помощью команды
megablast -t 16 -N 1 -W 11 -i tRNA.fasta
Параметр -N 1 обозначает, что последовательность некодирующая (мы работаем с тРНК).