Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~bennigsen/term3/prac9.html
Дата изменения: Sun Nov 23 20:41:51 2008
Дата индексирования: Tue Oct 2 10:09:56 2012
Кодировка: Windows-1251

Поисковые слова: m 8
Yuri Pekov, Term 3, Practice 9, BLAST (продолжение)

Учебный сайт студента ФББ МГУ Пекова Юрия

Главная
Новости
Полезные ссылки
Контакты
Обо мне
Мои работы

Занятие 9. Пакет BLAST (продолжение)

  1. Работа с программой getorf пакета EMBOSS

    Команда "tfm getorf" выдает справку, которую я записал в файл getorf.help. Для выполнения данного задания я использовал следующие значения параметров этой программы:
    -table 11 (задается использование бактериального кода)
    -minsize 30 (задается минимальная длина открытых рамок данной последовательности в нуклеотидах)
    -find 1 (задаем, что открытой рамкой является последовательность триплетов, начинающаяся со старт-кодона и заканчивающаяся стоп-кодоном)

    В итоге после выполнения команды

    getorf -table 11 -minsize 30 -find 1 -sequence d89965.entret

    получен файл с удовлетворяющими заданным условиям открытыми рамками. В нем пятая рамка соответствует приведенной в записи CDS, а тринадцатая - соответствующей записи Swiss-Prot.
  2. Поиск некодирующих последовательностей программой BLASTN

    Необходимо было определить, сколько гомологов каждой из тРНК E.coli находит программа BLASTN в трех геномах бактерий Salmonella typhimurium LT2, Pasteurella multocida и Xanthomonas campestris.
    Программа blastn запускалась следующей командой:
    blastall -p blastn -d three -i trna_ecoli.fasta -o trna_out.txt -m 8

    Чтобы определить число находок, описанных в получившемся файле для каждой последовательности тРНК, был запущен специальный скрипт.

    В случае указания порога на E-value команда немного менялась:
    blastall -p blastn -d three -i trna_ecoli.fasta -o trna_out2.txt -m 8 -e 0.001

    Соответствующий скрипт.

    Результат выполнения упражения - в файле trna.xls.
  3. Поиск некодирующих последовательностей программой megablast

    Необходимо было определить, сколько гомологов каждой из тРНК E.coli находит программа megablast и discontigous megablast в трех геномах бактерий Salmonella typhimurium LT2, Pasteurella multocida и Xanthomonas campestris.

    Командная строка, использованная для запуска megablast:
    megablast -d three -i trna_ecoli.fasta -o trna_mega.txt -m 8

    Соответствующий скрипт.

    Командная строка, использованная для запуска discontigous megablast:
    megablast -d three -i trna_ecoli.fasta -o trna_megad.txt -m 8 -D 2 -t 18 -W 11 -N 1

    Соответствующий скрипт.

    Использованы следующие параметры данной команды:
    -m 8 (задает табличный формат выдачи)
    -D 2 (задает тип выдачи, в данном случае "2" - стандартная выдача blast)
    -t 18 (Длина слов из последовательностей тРНК, которые будут искаться в геноме бактерий)
    -W 11 (Длина слов из генома бактерий, по которым ведется поиск)
    -N 1 (Тип разрывов в матрице (здесь - в тРНК), рекомендуется значение "1")

    Все результаты также лежат в файле из предыдущего упражнения.
  4. Минимальный анализ результатов

    Для сравнения была взята тРНК lysQ и один из гомологичных ей участков в бактерии Xanthomonas campestris. Этой пары нет в выдачи megablast, так как эта программа ищет в геноме бактерий слова длиной 28, а таких длинных совпадений в приведенном примере нет.

    Ниже приведены значение полей записи EMBL, в которой проаннотирован найденный гомологичный участок:
    AC   AE012414; AE008922;
    DE   Xanthomonas campestris pv. campestris str. ATCC 33913,  section 322 of 460
    DE   of the complete genome.
    OS   Xanthomonas campestris pv. campestris str. ATCC 33913
    FT   tRNA            complement(7790..7865)
    FT                   /gene="XCC3013"
    FT                   /product="tRNA-Lys"
    FT                   /note="Found by tRNAscan"
    
    
    Скорее всего, tRNAscan - программа, находящая матрицы для тРНК в геномах.
    Этот гомологичный участок и исходная последовательность вырезаны в отдельные файлы, после чего выровнены программой needle. Выравнивание находится здесь. Его основные характеристики:
    Длина: 76
    Процент идентичности:  65/76 (85.5%)
    Процент сходства:  65/76 (85.5%)
    Гэпы:   0/76 ( 0.0%)
    Счет: 281.0
    
    Выравнивания программ blastn и needle практически совпадают, во втором случае спереди прибавился небольшой кусочек из трех "g". Достаточный высокий процент идентичности можно объяснить тем, что тРНК из-за своей важности в клеточных процессах очень консервативны.


©Пеков Юрий, 2007-2008