Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://kodomo.cmm.msu.ru/~tregubova/projects/Term_3/Blast.html
Дата изменения: Thu Dec 17 13:13:55 2009 Дата индексирования: Thu Apr 8 13:43:26 2010 Кодировка: Windows-1251 |
  | |||||||||||||||
  |   |
Программы пакета BLAST для работы с нуклеотидными последовательностями1.Поиск в геноме участков, кодирующих белки, похожие на заданный Известна аминокислотная последовательность моего белка из Escherichia coli K-12. Требуется определить, закодированы ли похожие белки в геноме организма Pasteurella multocida.Для этого в рабочей директории сначала создаются индексные файлы пакета BLAST: >formatdb -i pm_genome.fasta -p F -n pm А потом программой TBLASTN проводится поиск с порогом E-value, равным 0,001: >blastall -p tblastn -d pm -i cdd_ecoli.fasta -o output.txt -e 0.001 Результаты поиска находятся в файле output.txt, на их основе составлена следующая таблица:
2.Определяем AC записи нынешнего релиза EMBL, в которую попадает найденная в предыдущем упражнении последовательность гена гомолога вашего белка, а также координаты этого гена согласно аннотации EMBL.Для этого создаем в своей директории файл с последовательностью того участка генома, (ae006060.fasta),который был найден в предыдущем упражнении как лучший. На сайте EBIзапускаем поиск этой последовательности в банке "EMBL standard prokaryote".Берем запись со 100% identity.Вот,что получается: Определяем AC записи нынешнего релиза EMBL, в которую попадает найденная в предыдущем упражнении последовательность гена гомолога вашего белка, а также координаты этого гена согласно аннотации EMBL. EM_PRO:AE004439; AE004439 Pasteurella multocida subsp. multocida str. Pm70, complete genome. Length = 2257487 Score = 1332 bits (1476), Expect = 0.0 Identities = 738/738 (100%) Strand = Plus / Minus 291731-292468 Значит, в записи AE004439 последовательность имеет координаты 291731 - 292468. Запись EMBL была получена при помощи следующей команды: > entret embl: AE004439-auto О соответствующем участке в поле FT имеется следующая информация FT CDS complement(291653..292537) FT /codon_start=1 FT /transl_table=11 FT /gene="cdd" FT /locus_tag="PM0259" FT /product="Cdd" FT /db_xref="GOA:Q9CP11" FT /db_xref="HSSP:1CTT" FT /db_xref="InterPro:IPR013171" FT /db_xref="UniProtKB/Swiss-Prot:Q9CP11" FT /protein_id="AAK02343.1" FT /translation="MSEKIRKTLSLIESQQLAQDVWHILQEQHFKGMLPYFTVEHLCTK FT HQLTPQQLALKLLPIAAAYSLAPISQFHVGAIAIGQRGAYYFGANLEFASTHIQQTVHA FT EQSAISHAWMNHESAITDVVVNYTPCGHCRQFMNELKTAPQLKIHLPHSQNNLLHSYLP FT DAFGPADLDIQHFLLDAQNNQLTYETQDPVMLTALECANAAHAPYSKSYHGIAIETKDK FT QIYRGSYAENAAFNPSLPALQVALNHLLLSGDTLQNIQRIVMIEKANHLCYRHMAEDLV FT ANLVDIPLDYIAL" Координаты CDS: 291653..292537 Участок соответствует записи Q9CP11 банка UniProt. Название белка - продукта: Cdd (цитидиновая деминаза). 3.Поиск гомологов с помощью программы BLASTN Список записей EMBL с последовательностью из генома E.coli, кодирующей белок CDD_ECOLI ( P0ABF6), был получен при выполнении прошлого задания. Была выбрана запись m60916 EMBL. Эта запись была сохранена в файл с помощью команды entret embl:m60916 -auto >AE006232 Pasteurella multocida subsp. multocida str. Pm70 section 199 of 204 of the complete genome. Length = 10029 Score = 30.2 bits (15), Expect = 1.6 Identities = 15/15 (100%) Strand = Plus / Minus Query: 586 attgcggcggcaaac 600 ||||||||||||||| Sbjct: 2427 attgcggcggcaaac 2413 Первая насколько-то совпавшая последовательность была та же, что и в первом задании, но с очень "странным" e-value,вторая- приведенная выше. Про последовательности с совпадением из 14 нуклеотидов ,как это получилось в нашем случае, нельзя сказать, что они гомологичны. 4.Работа с программой getorf пакета EMBOSS Была запущена программа getorf, чтобы получить набор трансляций всех открытых рамок длиной более 30 нуклеотидов, считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном, при использовании бактериального кода. Для этого выполняется команда: >getorf -table 11 -minsize 30 -find 1 -sequence d89965.entret -outseq d89965_trans.txt На выходе получили файл d89965_trans.txt С помощью выравнивания получим, что 5 рамка соответствует CDS, причем не полностью, а с только начиная места, отмеченного ***. >D89965_5 [19 - 432] Rattus norvegicus mRNA for RSS, complete cds. MVFWLHHVTVTGDDKRCSFIRDCQQCFKFAQHAIGTPVFCQLNGGFDQ ***MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHMAVTAYAYYSCHELTPWLRIQSTNPVQKYGA Так же получим ,что запись 13 соответствует записи Swiss-Prot:P0A7B8. 5.Поиск некодирующих последовательностей программой BLASTN Была выполнена команда >blastall -p blastn -d pm -i cdd_ecoli.fasta -o output.txt -m 8 Далее полученный файл импортирован в Excel. Итоговый файл trna.xml 6.Поиск некодирующих последовательностей С помощью программ blastn и megablast был выполнен поиск гомологов для всех тРНК из E.coli в геноме бактерии Pasteurella multocida. Команды для программы megablast: megablast -d pm -i trna_ecoli.fasta -o trna_ecoli.mblast -m 8 megablast -d pm -i trna_ecoli.fasta -o trna_ecolidm.mblast -m 8 -N 0 -W 11 -t 16 7.Анализ результатов Рассмотрим последовательность thrV E.coli и один из гомологичных ей участков в бактерии Pasteurella multocida, найденный программой blastn, но не обнаруженный программой megablast. В описании программы megablast написано, что она оптимизирована для выравнивания последовательностей, отличающихся незначительно, например из-за ошибок в секвенировании или чего-то подобного. Аннотация данного участка в записи EMBL: AC AE004439; AE006034-AE006237; DE Pasteurella multocida subsp. multocida str. Pm70, complete genome. OS Pasteurella multocida subsp. multocida str. Pm70 OC Bacteria; Proteobacteria; Gammaproteobacteria; Pasteurellales; OC Pasteurellaceae; Pasteurella. Участок 6512-6540 не поаннотирован. Далее создадим отдельные файлы для участка 6496..6565 записи АЕ006082 и thrV( my_seq2.fasta и my_seq.fasta соответственно) Выравнивания blastn и needle совпадают лишь посередине. Причем blastn,не выравнивает концы последовательностей,возможно таким образом улучшая выравнивание.. Достаточно высокий процент идентичность скорее всего из-за значимости тРНК. # Extend_penalty: 0.5 # # Length: 78 # Identity: 55/78 (70.5%) # Similarity: 55/78 (70.5%) # Gaps: 10/78 (12.8%) # Score: 180.5 # # #======================================= thrV 1 gctgatatggctcagttgg-tagagcgcacccttggtaagggtgaggtcc 49 ||| |.||||||.||| ||||||||||||.||.|||||||||||||. AE006082 1 -ctg---tagctcaggtggttagagcgcacccctgataagggtgaggtcg 46 thrV 50 ccagttcgactctgggta-tcagcacca 76 ...||||.|.|| .| ||||..||| AE006082 47 gtggttcaagtc----cactcagaccca 70 #--------------------------------------- #--------------------------------------- |