Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.fbb.msu.ru/FBB/year_05/term3/help4.html
Дата изменения: Tue Sep 26 15:15:09 2006
Дата индексирования: Tue Oct 2 06:32:58 2012
Кодировка: Windows-1251
Help to practice 4 (MEGABLAST)
   

Материалы к практикуму 4

 
     

 

  1. Поиск нужной тРНК в записи EMBL
  2. Скопируйте в рабочую директорию файл с аннотированным геномом E.coli (Р:/y05/Term3/ecoli.embl).

    С помощью команды grep найдите в этой записи строчки, в которых одновременно, но не подряд, встречаются слово codon и название нужной аминокислоты, перенаправьте вывод в файл. Окончательный вариант команды запишите в протокол.
    Подсказка: программа понимает спецсимволы .(точка; обозначает любой символ) и *(звездочка; означает, что предшествующий символ может встретиться в любом количестве).

    Выберите среди полученных строчек подходящую и проведите текстовой поиск этой строки в файле ecoli.embl. Определите локализацию выбранной тРНК и получите ее последовательность с помощью программы seqret пакета EMBOSS, установленного на kodomo-count. Напоминаем, что все подсказки можно вызвать командой seqret -help или seqret -help -verbose (поподробнее).

    По окончании работы не забудьте удалить файл ecoli.embl.

  3. Поиск гомологичных тРНК
  4. Внимание! Предлагаемые программы не входят в пакет EMBOSS, поэтому не стоит искать подсказки с помощью '-help'.

    Работа с локальными версиями программ пакета BLAST предполагает наличие в рабочей директории индексных файлов для БД, по которой будет проводиться поиск, см. подсказки к предыдущему занятию. Можно воспользоваться тем, что bash запоминает набранные Вами командные строки, вызвать строку, которой Вы запускали программу formatdb и заменить в ней название файла с геномом.

    2.1. Поиск с помощью BLASTN

    Используем (как и на прошлом занятии) программу blastall. Подсказки к blastall см. здесь.

    2.2. Поиск с помощью MegaBLAST и discontiguous MegaBLAST

    Оба алгоритма реализованы в одной программе megablast, которая может использовать те же индексные файлы, что и blastall (т.е., программу formatdb повторно запускать не надо).

    Запустите megablast без параметров, чтобы получить подсказку - список параметров программы. Вам понадобятся параметры: -d (базовое имя индексных файлов), -i (входной файл), -o (выходной файл), возможно также -e, -F, -D; а также знание значения параметра -W по умолчанию.

    Для того, чтобы перейти к алгоритму "discontiguous Mega BLAST" используйте параметры -t, -W, -N.

    Об указанных параметрах и их возможных значениях, а также об интерпретации выходного файла при значениях -D, отличных от 2, читайте в "README for standalone MEGABLAST".

    2.3. Поиск с помощью алгоритма FASTA

    Используем программу fasta34, подробное описание пакета см. здесь.

    Если просто набрать в командной строке fasta34, то программа сама задаст необходимые вопросы, а именно: об имени файла с пробной последовательностью, имени файла с банком для поиска, параметре ktup (оставьте его по умолчанию равным 6, это длина якоря), затем об имени выходного файла, количестве находок для вывода, и для скольких из них выдать также выравнивание (будьте внимательны, читайте вопросы, некоторые из них задаются "в два приема").

    При наборе длинного полного имени файла легко ошибиться (если Вы ошиблись и ввели какой-нибудь параметр неверно, то лучше прервать выполнение программы, нажав <Ctrl+C>). Ответ на вопрос программы fasta34 - это не командная строка, тут не действует подсказка клавишей <Tab>, нельзя подставлять переменные и пользоваться в именах файлов символом *; набранное Вами при ответе на вопрос нигде, кроме самой программы, не сохраняется, поэтому при повторном запуске придется не исправлять опечатку, а набирать все заново.

    В связи со всем этим рекомендуется воспользоваться предоставляемой программой fasta34 возможностью набрать часть параметров в командной строке, а именно:

    fasta34 query.fasta db.fasta 6

    (где вместо query.fasta должно стоять имя файла с пробной последовательностью, а вместо db.fasta - имя файла с банком). На остальные вопросы придется все же ответить. (Впрочем, почитав руководство к пакету Fasta, можно выяснить, как задать все параметры в командной строке так, чтобы программа не задавала вопросов). Если Вы допускаете ошибку, можно вызвать клавишей <↑> предыдущую командную строку и отредактировать ее.
    Постарайтесь добиться, чтобы программа выдала краткую информацию обо всех находках с E-value < 0,01 (и, возможно, нескольких еще), а также одно (лучшее) выравнивание.