Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~tregubova/projects/Term_3/Blast.html
Дата изменения: Thu Dec 17 13:13:55 2009
Дата индексирования: Thu Apr 8 13:43:26 2010
Кодировка: Windows-1251
Программы пакета BLAST
 
  

Программы пакета BLAST для работы с нуклеотидными последовательностями

1.

Поиск в геноме участков, кодирующих белки, похожие на заданный

Известна аминокислотная последовательность моего белка из Escherichia coli K-12. Требуется определить, закодированы ли похожие белки в геноме организма Pasteurella multocida.
Для этого в рабочей директории сначала создаются индексные файлы пакета BLAST:
>formatdb -i pm_genome.fasta -p F -n pm
А потом программой TBLASTN проводится поиск с порогом E-value, равным 0,001:
>blastall -p tblastn -d pm -i cdd_ecoli.fasta -o output.txt -e 0.001
Результаты поиска находятся в файле output.txt, на их основе составлена следующая таблица:
Число находок с Е-value<0,001 1
Характеристика лучшей находки:
   E-value находки 1e-63
Название геномной последовательности AE006060 Pasteurella multocida subsp. multocida str. Pm70 section 27 of 204 of the complete genome
Координаты выравнивания(-ий) в найденной последовательности Query 23-267
Sbjct 7793-7056

2.

Определяем AC записи нынешнего релиза EMBL, в которую попадает найденная в предыдущем упражнении последовательность гена гомолога вашего белка, а также координаты этого гена согласно аннотации EMBL.
Для этого создаем в своей директории файл с последовательностью того участка генома, (ae006060.fasta),который был найден в предыдущем упражнении как лучший. На сайте EBIзапускаем поиск этой последовательности в банке "EMBL standard prokaryote".Берем запись со 100% identity.Вот,что получается: Определяем AC записи нынешнего релиза EMBL, в которую попадает найденная в предыдущем упражнении последовательность гена гомолога вашего белка, а также координаты этого гена согласно аннотации EMBL.

EM_PRO:AE004439; AE004439 Pasteurella multocida subsp. multocida str. Pm70, complete
              genome.
          Length = 2257487

 Score = 1332 bits (1476), Expect = 0.0
 Identities = 738/738 (100%)
 Strand = Plus / Minus

291731-292468

Значит, в записи AE004439 последовательность имеет координаты 291731 - 292468.
Запись EMBL была получена при помощи следующей команды:
> entret embl: AE004439-auto
О соответствующем участке в поле FT имеется следующая информация
FT   CDS             complement(291653..292537)
FT                   /codon_start=1
FT                   /transl_table=11
FT                   /gene="cdd"
FT                   /locus_tag="PM0259"
FT                   /product="Cdd"
FT                   /db_xref="GOA:Q9CP11"
FT                   /db_xref="HSSP:1CTT"
FT                   /db_xref="InterPro:IPR013171"
FT                   /db_xref="UniProtKB/Swiss-Prot:Q9CP11"
FT                   /protein_id="AAK02343.1"
FT                   /translation="MSEKIRKTLSLIESQQLAQDVWHILQEQHFKGMLPYFTVEHLCTK
FT                   HQLTPQQLALKLLPIAAAYSLAPISQFHVGAIAIGQRGAYYFGANLEFASTHIQQTVHA
FT                   EQSAISHAWMNHESAITDVVVNYTPCGHCRQFMNELKTAPQLKIHLPHSQNNLLHSYLP
FT                   DAFGPADLDIQHFLLDAQNNQLTYETQDPVMLTALECANAAHAPYSKSYHGIAIETKDK
FT                   QIYRGSYAENAAFNPSLPALQVALNHLLLSGDTLQNIQRIVMIEKANHLCYRHMAEDLV
FT                   ANLVDIPLDYIAL"



Координаты CDS: 291653..292537
Участок соответствует записи Q9CP11 банка UniProt.
Название белка - продукта: Cdd (цитидиновая деминаза).

3.

Поиск гомологов с помощью программы BLASTN


Список записей EMBL с последовательностью из генома E.coli, кодирующей белок CDD_ECOLI ( P0ABF6), был получен при выполнении прошлого задания. Была выбрана запись m60916 EMBL.
Эта запись была сохранена в файл с помощью команды
entret embl:m60916 -auto
>AE006232 Pasteurella multocida subsp. multocida str. Pm70 section 199
            of 204 of the complete genome.
          Length = 10029

 Score = 30.2 bits (15), Expect = 1.6
 Identities = 15/15 (100%)
 Strand = Plus / Minus  

                           
Query: 586  attgcggcggcaaac 600
            |||||||||||||||
Sbjct: 2427 attgcggcggcaaac 2413


Первая насколько-то совпавшая последовательность была та же, что и в первом задании, но с очень "странным" e-value,вторая- приведенная выше. Про последовательности с совпадением из 14 нуклеотидов ,как это получилось в нашем случае, нельзя сказать, что они гомологичны.

4.

Работа с программой getorf пакета EMBOSS


Была запущена программа getorf, чтобы получить набор трансляций всех открытых рамок длиной более 30 нуклеотидов, считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном, при использовании бактериального кода.
Для этого выполняется команда:

>getorf -table 11 -minsize 30 -find 1 -sequence d89965.entret -outseq d89965_trans.txt
На выходе получили файл d89965_trans.txt
С помощью выравнивания получим, что 5 рамка соответствует CDS, причем не полностью, а с только начиная места, отмеченного ***.
>D89965_5 [19 - 432] Rattus norvegicus mRNA for RSS, complete cds.
MVFWLHHVTVTGDDKRCSFIRDCQQCFKFAQHAIGTPVFCQLNGGFDQ
***MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHMAVTAYAYYSCHELTPWLRIQSTNPVQKYGA


Так же получим ,что запись 13 соответствует записи Swiss-Prot:P0A7B8.

5.

Поиск некодирующих последовательностей программой BLASTN


Была выполнена команда
>blastall -p blastn -d pm -i cdd_ecoli.fasta -o output.txt -m 8
Далее полученный файл импортирован в Excel.
Итоговый файл trna.xml

6.

Поиск некодирующих последовательностей


С помощью программ blastn и megablast был выполнен поиск гомологов для всех тРНК из E.coli в геноме бактерии Pasteurella multocida.

Команды для программы megablast:

megablast -d pm -i trna_ecoli.fasta -o trna_ecoli.mblast -m 8

megablast -d pm -i trna_ecoli.fasta -o trna_ecolidm.mblast -m 8 -N 0 -W 11 -t 16

7.

Анализ результатов


Рассмотрим последовательность thrV E.coli и один из гомологичных ей участков в бактерии Pasteurella multocida, найденный программой blastn, но не обнаруженный программой megablast. В описании программы megablast написано, что она оптимизирована для выравнивания последовательностей, отличающихся незначительно, например из-за ошибок в секвенировании или чего-то подобного.

Аннотация данного участка в записи EMBL:
AC AE004439; AE006034-AE006237;
DE Pasteurella multocida subsp. multocida str. Pm70, complete genome.
OS Pasteurella multocida subsp. multocida str. Pm70
OC Bacteria; Proteobacteria; Gammaproteobacteria; Pasteurellales;
OC Pasteurellaceae; Pasteurella.
Участок 6512-6540 не поаннотирован.
Далее создадим отдельные файлы для участка 6496..6565 записи АЕ006082 и thrV( my_seq2.fasta и my_seq.fasta соответственно)
Выравнивания blastn и needle совпадают лишь посередине. Причем blastn,не выравнивает концы последовательностей,возможно таким образом улучшая выравнивание.. Достаточно высокий процент идентичность скорее всего из-за значимости тРНК.
# Extend_penalty: 0.5
#
# Length: 78
# Identity:      55/78 (70.5%)
# Similarity:    55/78 (70.5%)
# Gaps:          10/78 (12.8%)
# Score: 180.5
# 
#
#=======================================

thrV               1 gctgatatggctcagttgg-tagagcgcacccttggtaagggtgaggtcc     49
                      |||   |.||||||.||| ||||||||||||.||.|||||||||||||.
AE006082           1 -ctg---tagctcaggtggttagagcgcacccctgataagggtgaggtcg     46

thrV              50 ccagttcgactctgggta-tcagcacca     76
                     ...||||.|.||    .| ||||..|||
AE006082          47 gtggttcaagtc----cactcagaccca     70


#---------------------------------------
#---------------------------------------