Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~maravilla/term3/blastcont.html
Дата изменения: Sat Feb 13 17:17:12 2010
Дата индексирования: Tue Oct 2 12:56:23 2012
Кодировка: Windows-1251
Task 9 (EMBL&BLAST)

Программы пакета BLAST (продолжение)

  • Работа с программой getorf пакета EMBOSS

  • Нужно запустить программу "getorf" так, чтобы получить набор трансляций всех открытых рамок данной последовательности длиной более 30 нуклеотидов, считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном, при использовании бактериального кода.
    Работаем с полученной записью D89965 банка EMBL.
    getorf -minsize 30 -find 1 -table 11
    Finds and extracts open reading frames (ORFs)
    Input nucleotide sequence(s): d89965.entret
    protein output sequence(s) [d89965.orf]: d89965.orf
    

    Таким образом получили файл d89965.orf
    Из найденный открытых рамок соответствует приведенной в записи CDS пятая рамка. Тринадцатая рамка соответствует записи P0A7B8 SwissProt.

  • Поиск некодирующих последовательностей программой BLASTN

  • В файле trna_ecoli.fasta лежат последовательности всех тРНК, проаннотированных в полном геноме E.coli K12. Наша задача - определить, сколько гомологов каждой из тРНК находит программа BLASTN в геноме родственной бактерии Pasteurella multocida.
    Для этого при помощи программы BLASTN найдем сходные последовательности в заданном геноме:
    blastall -p blastn -d index -i trna_ecoli.fasta -m 8 > rna.txt
    Полученный файл - rna.txt
    C помощью программы "grep" найдем число находок для каждой последовательности тРНК из E.coli. Для этого создадим скрипт names.scr и получим список этих тРНК в файле names.txt . Скопируем их в таблицу Excel.
    Затем создадим скрипт script.scr и получим число находок для каждой последовательности ( count.txt ). Результат работы скрипта импортируем в Excel.
    Повторим поиск, на этот раз указав порог на E-value 0.001. Полученный файл - count2.txt Добавим в отчетную таблицу соответствующий столбец.

  • Поиск некодирующих последовательностей программой megablast

  • Повторим предыдущее задание, используя вместо BLASTN megablast. Для этого введем команду:
    megablast -d index -i trna_ecoli.fasta -m 8 > megablast.txt
    Полученный файл - megablast.txt .
    Discontigous megablast:
    megablast -d index -i trna_ecoli.fasta -m 8 -t 16 -W 11 -N 1 > megablast_d.txt
    Полученный файл - megablast_d.txt .
    Для discontigous megablast дополнительно указываем следующие значения опций:
    -t - длина слова из тРНК, которые будут искаться в геноме (может равняться 16, 18 либо 21, мы выберем 16);
    -W - длина слова из генома бактерии, по которым идет поиск последовательности (может равняться 11 или 12, выбираем 11);
    -N - задает тип разрывов в матрице (может принимать значения 0, 1, 2, мы выберем 1, так как поиск ведется по некодирующим последовательностям).
    Результаты внесем в таблицу.
    В итоге получилась таблица rna.xls .

  • Анализ результатов

  • Выберем тРНК glyW (запись AE006138), которую нашел BLASTN и не нашел megablast. Длина - 10908-10983, цепь прямая.
    Вырежем гомологичный участок в отдельный файл командой "seqret -sask". Выделим исходную последовательность также в отдельный файл. Теперь выровняем получившиеся две последовательности ( glyw.fasta и ae006138.fasta ) программой needle. Получили файл result.needle :
       # Aligned_sequences: 2                                                               
       # 1: glyW                                                                                  
       # 2: AE006138                                                                       
       # Matrix: EDNAFULL                                                                 
       # Gap_penalty: 10.0                                                                
       # Extend_penalty: 0.5                                                              
       #                                                                                  
       # Length: 76                                                                       
       # Identity:      73/76 (96.1%)                                                     
       # Similarity:    73/76 (96.1%)                                                     
       # Gaps:           0/76 ( 0.0%)                                                     
       # Score: 353.0                                                                     
       #                                                                                  
       #                                                                                  
       #=======================================                                           
                                                                                          
       glyW               1 gcgggaatagctcagttggtagagcacgaccttgccaaggtcggggtcgc     50     
                            |||||||||||||||||||||||||||.|||||||||||||.||||||||            
       AE006138           1 gcgggaatagctcagttggtagagcacaaccttgccaaggttggggtcgc     50     
                                                                                          
       glyW              51 gagttcgagtctcgtttcccgctcca     76                             
                            |||||||||.||||||||||||||||                                    
       AE006138          51 gagttcgagcctcgtttcccgctcca     76                             
                                                                                          
       

    Как видно из выравнивания, последовательности практически идентичны (велик процент сходства и мало гэпов). С большой долей вероятности можно утверждать, что это выравнивание является биологически осмысленным.
    Эта последовательность была найдена BLASTN и пропущена megablast, так как в ней нет полностью совпадающих участков длины 28, а megablast как раз ищет слова длиной 28. Таким образом, megablast не стоит использовать для коротких последовательностей, как, например, эта.
    Так проаннотирован гомологичный участок в записи EMBL, описывающей геном бактерии (AC AE004439):
     
     FT   gene            1059689..1060003
     FT                   /locus_tag="PM0901"
     FT   CDS             1059689..1060003
     FT                   /codon_start=1
     FT                   /transl_table=11
     FT                   /locus_tag="PM0901"
     FT                   /product="unknown"
     FT                   /db_xref="GOA:Q9CMD0"
     FT                   /db_xref="UniProtKB/Swiss-Prot:Q9CMD0"
     FT                   /protein_id="AAK02985.1"
     FT                   /translation="MSIIQAISIFFTFYTCTLAFFSYNVRLSLLNSEKYYAGIAQLVEH
     FT                   NLAKVGVASSSLVSRSNISTNQYHILRGNSSVGRAQPCQGWGREFEPRFPLQIFLSNLK
     FT                   "
     


    На главную