Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~manyashka/Term3/blast1.html
Дата изменения: Tue May 20 04:56:32 2008
Дата индексирования: Tue Oct 2 11:08:24 2012
Кодировка: Windows-1251
BLAST (BLAST)

Программы пакета BLAST для работы с нуклеотидными последовательностями

  • Поиск в геноме участков, кодирующих белки, похожие на заданный
  • Известна аминокислотная последовательность белка MUTH_ECOLI из Escherichia coli K-12. Задача: определить, закодированы ли похожие белки в геноме другого организма, не пользуясь аннотацией генома.

    В рабочей директории были созданы индексные файлы пакета BLAST для поиска по геному P.multocida.

    formatdb -i pm_genome.fasta -p F -n pm

    Дальше посредством Putty была запущена программа TBLASTN с пороговым значением E-value 0,001.

    blastall -p tblastn -d pm -i muth_ecoli.fasta -o out.txt -e 0.001

    Зузультат работы программы - файл out.txt. По результатам поиска была заполнена таблица:

    Поиск гомологов белка muth_ecoli в геноме бактерии Pasteurella multocida

    Число находок с Е-value<0,001         1
    Характеристика лучшей находки:  
       E-value находки   1e-70
    AC соответствующей записи EMBL  AE006147
    Координаты выравнивания в записи EMBL  12718 - 12053

  • Аналогичный поиск сразу в нескольких геномах
  • В директории были созданы индексные файлы BLAST для поиска по всем трем геномам сразу. С помощью выбранной ранее программы был проведен поиск по трем геномам. Результаты поиска содержатся в файле 3out.txt.

    В этот раз было обнаружено 2 находки. Лучшей находкой теперь является находка с AC в EMBL AE008838 с E-value e-111. Вторая находка с AC AE006147 найдена в геноме бактерии Pasteurella multocida и соответствует находке предыдущего поиска. Однако значения E-value в этом поиске выше, так как поиск проводился не только по геному данной бактерии, но плюс по 2 другим геномам.

  • Поиск гомологов с помощью программы BLASTN
  • В рабочей директории был создан fasta-файл с последовательностью из генома E.coli, кодирующей белок MUTH_ECOLI (для этого была взята одна из записей EMBL, на которую ссылается запись Swiss-Prot,в ней были найдены координаты соответствующей CDS и вырезаны в файл nucl.fasta ).

    Гомологи этого гена искались в трех геномах программой BLASTN с пороговым значением E-value 0.001. Результат работы программы - файл blastn.txt . Было обнаружено 2 находки, причем они совпадают с находками предыдущего поиска. E-value лучшей находки - 2e-25. Это белок бактерии Salmonella typhimurium LT2. Выравнивание следующее:

    Query: 10   gccagcgcagggagtaaacctgagcaagattttgctgctctgggcgtggaacttaaaact 69
                |||||||| ||||| || || ||||| ||||| || ||  | ||||| ||||| ||||| 
    Sbjct: 5667 gccagcgccgggagcaagccggagcaggatttcgccgcgttaggcgtagaactgaaaacc 5726
    
                                                                            
    Query: 70   atccctgtggatagtcttggtcgtccgctggaaacaacattcgtttgtgttgccccgtta 129
                ||||| ||||||||||| |||||||| ||||||||||| || ||||| || || ||||||
    Sbjct: 5727 atcccggtggatagtctgggtcgtcctctggaaacaacctttgtttgcgtggcgccgtta 5786
    
                                                                            
    Query: 130  acgggcaatagcggggtgacctgggaaaccagccacgtgcgccacaaactcaaacgcgta 189
                || || || ||||| ||||||||||| || || ||||| || || ||| | || ||||| 
    Sbjct: 5787 accggtaacagcggcgtgacctgggagacaagtcacgtacggcataaattgaagcgcgtg 5846
    
                                                                            
    Query: 190  ctgtggataccggttgaaggcgagcgcagcatcccgctggcgcagcgtcgcgttggatca 249
                || ||| | ||||| |||||||| |||||||| ||| | ||  | || ||||| || || 
    Sbjct: 5847 ctatgggtgccggtcgaaggcgatcgcagcataccgttagccgaacgccgcgtaggttcg 5906
    
                                                             
    Query: 250  ccgttgctgtggagcccgaatgaagaggaagaccggcagctacgc 294
                ||||| || ||||| |||| |||||| || ||| |||||||||||
    Sbjct: 5907 ccgttactctggagtccgagtgaagaagaggacaggcagctacgc 5951
    
    Процент совпадений - 80. Выровнены с 10 по 294 нуклеотиды заданной последовательности и с 5667 по 5951 найденной. Аннотацию соответствующего фрагмента генома можно посмотреть в файле annotaciya.txt . Согласно данным аннотации данный ген, также как и ген Ecoli называется Muth и гомологичен такому же гену организма Ecoli. Найденный участок генома кодирует в бактерии Salmonella typhimurium LT2 белок AAS_SALTY.

    Работа с программой getorf пакета EMBOSS

    Чтобы получить набор трансляций всех открытых рамок считывания данной пследовательности длиной более 30 нуклеотидов, считая открытой рамкой последователньость триплетов, начиная со старт- кодона и заканчивающуюся стоп-кодоном, при использовании бактериального кодона:

    getorf -minsize 30 -find 1 -table 11

    Input nucleotide sequence(s): D89965.fasta

    Protein output sequence(s): d89965.orf

    Пятая в выдаче рамка считывания соответствует,приведенной в записи CDS.

    >D89965_5 [19 - 432] Rattus norvegicus mRNA for RSS, complete cds. 
    MVFWLHHVTVTGDDKRCSFIRDCQQCFKFAQHAIGTPVFCQLNGGFDQMALMHFQFTFKQ
    FEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHMAVTAYAYYSCHE
    LTPWLRIQSTNPVQKYGA
    

    Однако рамка CDS представляет собой лишь кусок рамки, выданной данной программой, так как программа выдает полную раку считывания для всех CDS, а в записи EMBL я рассматривала лишь CDS определенного гена.

    Последняя в выдаче рамка соответствует записи Swiss-Prot, на которую ссылается данная запись EMBL:

    >D89965_13 [375 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds. 
    MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL
    FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL
    IAIGS 

    <<Обратно на главную страницу

    <<Обратно на третий семестр


    ©Мария Баранова,2008