Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.fbb.msu.ru/FBB/year_07/term3/task9.html
Дата изменения: Tue Oct 28 18:10:16 2008
Дата индексирования: Tue Oct 2 06:37:09 2012
Кодировка: Windows-1251
Task 9 (EMBL&BLAST)

Занятие 9.

Отчет по первому заданию должен появится на сайте к следующему занятию.

Результатом заданий 2,3 и 5 должен стать файл MS-Excel "trna.xls", который должен лежать к следующему занятию в директории H:\Term3\BLAST, краткие выводы по всем заданиям 2-5 - в протоколе в той же директории.

  1. Работа с программой getorf пакета EMBOSS
  2. Создайте в своей директории файл с записью D89965 банка EMBL.

    Выполните команду

     tfm getorf
    
    и разберитесь, как запустить программу getorf так, чтобы получить набор трансляций всех открытых рамок данной последовательности длиной более 30 нуклеотидов, считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном, при использовании бактериального кода. Командную строку приведите в отчете.

    Запустите getorf с указанными параметрами на последовательности из записи D89965. Определите, какая из найденных открытых рамок соответствует приведенной в записи CDS. Определите также, какая из рамок соответствует записи Swiss-Prot, на которую ссылается данная запись EMBL.

  3. Поиск некодирующих последовательностей программой BLASTN
  4. В файле P:\y07\Term3\EMBL\trna_ecoli.fasta лежат последовательности всех тРНК, проаннотированных в полном геноме E.coli K12. Ваша задача - определить, сколько гомологов каждой из тРНК находит программа BLASTN в трех геномах (см. предыдущее занятие).

    Этапы работы.

    Повторите поиск, на этот раз указав порог на E-value, равный 0.001. Добавьте в отчетную таблицу соответствующий столбец.
     

  5. Поиск некодирующих последовательностей программой megablast
  6. Повторите предыдущее задание, используя вместо BLASTN сначала обычный megablast, а затем разрывный ("discontigous") megablast. Программа megablast запускается с опциями, большая часть которых аналогична опциям программы blastall; при этом можно использовать те же индексные файлы. Смысл некоторых опций, впрочем, отличается; разберитесь с ними, читая описание параметров. Чтобы запустить discontigous megablast, нужно явно указать правильные значения опций "-t", "-W" и "-N"; какие именно - смотрите в описании.

    Результатом этого задания должны стать два дополнительных столбца в отчетном Excel-файле и абзац в протоколе, с обязательным указанием командных строк, использованных для запуска megablast.
     

  7. Минимальный анализ результатов
  8. В одном из полученных при выполнении заданий 2 и 3 выходных файлов BLAST выберите какую-нибудь пару из tRNA E.coli и найденного в геноме другой бактерии гомологичного участка. Желательно выбрать такую находку, которая, например, находится программой BLASTN и не находится программой megablast, и постараться объяснить причину этого.

    Приведите в протоколе значения полей AC, DE и OS соответствующей записи EMBL, а также проаннотирован ли в EMBL (в поле FT) найденный гомологичный участок, и если проаннотирован, то как.

    Вырежьте гомологичный участок в отдельный файл командой seqret -sask (будьте внимательны, следите за направлением найденной последовательности относительно записи EMBL - оно может быть прямым либо обратным, и это можно узнать, глядя на выдачу BLAST!). Выделите исходную последовательность также в отдельный файл. Выровняйте две последовательности программой needle, в протоколе приведите характеристики выравнивания. Желателен биологически осмысленный вывод.

  9. (*) Поиск некодирующих последовательностей программой Fasta
    (дополнительное задание для любопытных)
  10. Проделайте работу, аналогичную заданиям 2 и 3, используя для поиска программу fasta35. Для этого придется, во-первых, слить вместе три файла с геномами (поскольку FastA работает с банками, находящимися в обычных fasta-файлах); во-вторых, вырезать каждую из последовательностей из файла trna_ecoli.fasta в отдельный файл; в третьих, научиться запускать fasta35, и в четвертых, придумать запуск grep на выходном файле программы fasta35, выдающий количество находок.

    Указания