Поиск гомологов с помощью программ TBLASTN, BLASTN, Fasta34, MegaBLAST, discontigous MegaBLAST
На главную
Поиск гомологов белка tauD в геномах родственных бактерий
Программой TBLASTN я искал гомологов своего белка в геноме Pseudomonas aeruginosa.
Лучшая находка c Evalue 10-91.Ее AC в EMBL банке: AE004811. Запись является не аннотированной.
Кроме того TBLASTN выдал еще две находки с Evalue < 0.01 (AE004657 AE004457), записи которых также не аннотированы.
Произведя поиск по трем геномам сразу (Vibrio cholerae, Pseudomonas aeruginosa, Pasteurella multocida),
я получил те же самые находки, но Evalue лучшей упало до 10-90
Также я попытался найти гомологов моего белка с помощью программы BLASTN, предоставив ей нуклеотидную последовательность,
кодирующую мой белок. Evalue у лучшей находки (AE004811) составляло 0.009.
Однако длинна выравнивания составляла 100 нуклеотидов, что ставит под сомнение качество поиска.
Была еще одна находка с Evalue 0.009, длинна ее выравнивания составляла 60 нуклеотидов.
Следовательно BLASTN не лучшая программа для поиска гомологов генов.
Я попробовал найти гомологов гена моего белка с помощью программы fasta34. Evalue у лучшей находки (AE004811)
составляло 10-56, что гораздо лучше по сравнению BLASTN.
К тому же, программа нашла еще одного гомолога в геноме Pseudomonas aeruginosa с Evalue < 0.01, которого нашел TBLASTN. В итоге fasta34 нашла 2 гомолога, которые нашел TBLASTN, а одного пропустила.
Megablast
Меgablast - программа для быстрого поиска гомологов нуклеотидных последовательностей.
В задании было предложенно оценить сколько нуклеотидных замен (в сравнении с той последовательностью, по которой производится выравнивание) должна содержать нуклеотидная последовательность, чтобы MegaBLAST не смог обнаружить их гомологичность.
Взяв из генома Pseudomonas aeruginosa последовательность длинной 180 нуклеотидов, я произвел в ней замену каждого 28 нуклеотида, а затем произвел поиск гомологов этой измененной последовательности в трех геномах (Vibrio cholerae, Pseudomonas aeruginosa, Pasteurella multocida) программой Megablast ипользуя настройки по умолчанию.
aaacgacgtggcgttctgggacaaccgcgtgacgcagcactacgcggtggacgattaccggccacagcggcgggtcatgcatcgcgccaccatcctcggcgacaagcccttctgacga - оригинал
aaacgacgtggcgttctgggacaacctcgtgacgcagcactacgcggtggacgtttaccggccacagcggcgggtcatgtatcgcgccaccatcctcggcgacaagtccttctgacga
Как и предполагалось MegaBLAST не нашел гомологов. Дело в том, что MegaBLAST пытается найти слово (последовательность нуклеотидов определенной длинны), которое в неизменном виде присутсвует в двух выравниваемых последовательностях, а затем с него продолжить выравнивание последовательностей.
Длинна слова по умолчанию составляет 28 нуклеотидов. Поэтому в последовательности с каждым 28 замененным нуклеотидом не найдется слова длинной 28 нуклеотидов, которое бы присутствовало в геноме Pseudomonas aeruginosa, и MegaBLAST не построит выравнивание (хотя последовательности очень похожи).
Причем это минимальное количество замен: если убрать одну замену, появится слово длинной 28 нуклеотидов, и MegaBLAST уже найдет гомологию.
Таким образом достаточно лишь 4-х замен на 180 нуклеотидов! Такова плата за скорость.
Поиск гомологов глициновых тРНК с помощью discontigous MegaBLAST
Поиск производился по 3-м предоставленным последовательностям в трех геномах (Vibrio cholerae, Pseudomonas aeruginosa, Pasteurella multocida)
Количество найденных гомологов зависит от длинны слов discontigous MegaBLAST и MegaBLAST (параметры -t и -W соответственно).
Так при максимальных длиннах слов (-t 21 -W 12) находится 21 гомолог, а при минимальных (-t 16 -W 11) уже 61 гомолог.
Итак, максимальное количество гомологов (61) можно получить с помощью команды
megablast -t 16 -N 1 -W 11 -i tRNA.fasta
Параметр -N 1 обозначает, что последовательность некодирующая (мы работаем с тРНК).