Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~pavel_s/term3/task3.html
Дата изменения: Mon Oct 2 18:15:42 2006
Дата индексирования: Tue Oct 2 08:01:10 2012
Кодировка: Windows-1251
BLAST

На главную страницу
На главную страницу третьего семестра

Программы пакета BLAST для работы с нуклеотидными последовательностями

  1. Создание индексных файлов для работы с локальными версиями программ семейства BLAST
  2. На компьютере kodomo (и kodomo-count) в директории /home/export/samba/public/tmp лежат 3 файла:


    На их основе созданы 3 индексных файла (vc.*, pa.* и pm.*) пакета BLAST для поиска по каждому из геномов. Использована программа formatdb.
    Запуск программы – команда
            formatdb -i /home/export/samba/public/tmp/pm_genome.fasta -p F -n pm
    (параметр -i – входной файл, -p – белок/НК, -n – базовое имя выходных файлов). Создается 3 файла pm.nhr, pm.nin и pm.nsq.

  3. Поиск в неаннотированном геноме генов, кодирующих белки, похожие на заданный
  4. Поставленная задача — определить, не закодированы ли похожие на AROE_ECOLI белки в неаннотированном геноме другого организма,
    Для этого использовалась программа TBLASTN. Она служит для поиска гомологов в неаннотированных геномах, так как ищет гомологи белка в транслированном банке НК.
    Команда:
            blastall -p tblastn -d pm -i AROE_ECOLI.fasta -o pm_result.txt

    Получены 3 файла результатов: vc_result.txt, pa_result.txt и pm_result.txt

    Поиск гомологов aroE_Ecoli Геном Vibrio cholerae *Геном Pseudomonas aeruginosa *Геном Pasteurella multocida
    Характеристика лучшей находки:      
         E-value находки 4*10-66 6*10-65 6*10-66
      координаты выравнивания(-ий)
    в записи генома
    6857..7666 1101..1916 1810..2607
    AC соответствующей записи EMBL AE004096 AE004442 AE006166
      Координаты CDS в записи EMBL (если они есть) 6845..7681 нет данных 1810..2619
      AC UniProt в записи EMBL (если есть) Q9KVT3 нет данных P57932
    Число находок с Е-value<0,01
    1 2 2

  5. Аналогичный поиск сразу в нескольких геномах
  6. На основе трех индексных файлов создан новый индексный файл для всех трех геномов (программа formatdb). Использована серия команд:
       genpath=/home/export/samba/public/tmp
       genomes="$genpath/vc_genome.fasta $genpath/pa_genome.fasta $genpath/pm_genome.fasta"
       formatdb -i "$genomes" -n 3g -p F
     
    Проведен поиск по трем геномам сразу. В полученном результате выбраны лучшие находки в каждом геноме (абсолютно лучшая находка – из Vivrio Cholerae).

      Лучшие находки в геномах
    Поиск гомологов aroE_Ecoli Геном Vibrio cholerae *Геном Pseudomonas aeruginosa *Геном Pasteurella multocida
    E-value находки 1*10-65 1*10-64 3*10-65
    Число находок с Е-value<0,01 1 2 2

    E-value каждой лучшей находки увеличилось. Действительно, случайность находки в более крупном банке выше. Но изменения незначительны, так как банк слишком мал. Поэтому число находок с E-value меньше 0,01 не изменилось.

  7. Поиск гомологов с помощью программы BLASTN
  8. С помощью программы BLASTN проведен поиск гомологов гена aroE_Ecoli в тех же трех геномах. Использована команда:
            blastall -p blastn -d 3g -i aroE_Ecoli.fasta -o blastn_result.txt

    Результат – много находок с очень большим E-value и маленьких по длине. Все они из разных кусков геномов (разные записи). Так, E-value лучшей находки 0,51. Таким образом, программа BLASTN непригодна для поиска удаленных гомологов.


©Семенюк Павел