Поиск гомологичных тРНК
Внимание! Предлагаемые программы не входят в пакет EMBOSS, поэтому
не стоит искать подсказки с помощью '-help'.
Работа с локальными версиями программ пакета BLAST предполагает
наличие в рабочей директории индексных файлов для БД, по которой будет
проводиться поиск, см. подсказки к предыдущему
занятию. Можно воспользоваться тем, что bash запоминает набранные Вами
командные строки, вызвать строку, которой Вы запускали программу formatdb
и заменить в ней название файла с геномом.
2.1. Поиск с помощью BLASTN
Используем (как и на прошлом занятии) программу
blastall.
Подсказки к blastall см. здесь.
2.2. Поиск с помощью MegaBLAST
и discontiguous MegaBLAST
Оба алгоритма реализованы в одной программе
megablast, которая может использовать
те же индексные файлы, что и blastall
(т.е., программу formatdb повторно запускать не надо).
Запустите megablast без параметров,
чтобы получить подсказку - список параметров программы. Вам понадобятся
параметры: -d (базовое имя индексных файлов), -i (входной файл), -o
(выходной файл), возможно также -e, -F, -D; а также знание значения
параметра -W по умолчанию.
Для того, чтобы перейти к алгоритму "discontiguous Mega BLAST" используйте
параметры -t, -W, -N.
Об указанных параметрах и их возможных значениях, а также
об интерпретации выходного файла при значениях -D, отличных от 2, читайте
в "README
for standalone MEGABLAST".
2.3. Поиск с помощью алгоритма FASTA
Используем программу fasta34, подробное
описание пакета см.
здесь.
Если просто набрать в командной строке fasta34, то программа сама задаст
необходимые вопросы, а именно: об имени файла с пробной последовательностью,
имени файла с банком для поиска, параметре ktup (оставьте его по умолчанию
равным 6, это длина якоря), затем об имени выходного файла, количестве
находок для вывода, и для скольких из них выдать также выравнивание
(будьте внимательны, читайте вопросы, некоторые из них задаются "в
два приема").
При наборе длинного полного имени файла легко ошибиться (если Вы ошиблись
и ввели какой-нибудь параметр неверно, то лучше прервать выполнение
программы, нажав <Ctrl+C>). Ответ на вопрос программы fasta34
- это не командная строка, тут не действует подсказка клавишей <Tab>,
нельзя подставлять переменные и пользоваться в именах файлов символом
*; набранное Вами при ответе на вопрос нигде, кроме самой программы,
не сохраняется, поэтому при повторном запуске придется не исправлять
опечатку, а набирать все заново.
В связи со всем этим рекомендуется воспользоваться предоставляемой
программой fasta34 возможностью набрать часть параметров в командной
строке, а именно:
fasta34 query.fasta db.fasta 6
(где вместо query.fasta должно стоять имя файла с пробной последовательностью,
а вместо db.fasta - имя файла с банком). На остальные вопросы придется
все же ответить. (Впрочем, почитав
руководство к пакету Fasta, можно выяснить, как задать все параметры
в командной строке так, чтобы программа не задавала вопросов). Если
Вы допускаете ошибку, можно вызвать клавишей <↑> предыдущую командную
строку и отредактировать ее.
Постарайтесь добиться, чтобы программа выдала краткую информацию обо
всех находках с E-value < 0,01 (и, возможно, нескольких еще), а также
одно (лучшее) выравнивание.