Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~manya/term3/practice4.html
Дата изменения: Sat Sep 30 18:54:35 2006
Дата индексирования: Tue Oct 2 09:46:20 2012
Кодировка: Windows-1251

Поисковые слова: ccd
tRNA

Поиск сходных нуклеотидных последовательностей, не кодирующих белки

Задание 1.Определить, какая тРНК была использована рибосомой при присоединении 4-ого аминокислотного остатка к растущей цепи белка DKGA_ECOLI
 Аминокислотный остаток в 4-ой позиции белка DKGA_ECOLI P(Пролин)
  Соответствующий кодон в гене dkgA 5'-CCA-3'
  Идеальный антикодон 5'-UGG-3'
  Сколько можно было бы ожидать разных тРНК для остатка P, если опираться на генетический код? 4
  Сколько разных тРНК для остатка P аннотировано в геноме кишечной палочки? 3
  Характеристика выбранной для дальнейшего изучения тРНК:
      имя гена proM
      локализация гена в геноме 3980758..3980834
      распознаваемый кодон CCD(т.е. 3 кодона CCA(как в моем белке), CCG,CCT)
      антикодон UGG

Результат поиска всех пролиновых тРНК у Escherichia coli K-12

51786:FT                   /note="codons recognized: CCY; anticodon: GGG proline
83553:FT                   /note="codon recognized: CCG; proline tRNA1; go_component:
89821:FT                   /note="codons recognized: CCD; anticodon: UGG proline


Поиск в файле ecoli.embl проводился с помощью программы grep:
 grep -n "codon.*proline" ecoli.embl>res.txt

Потом была выбрана нужная тРНК и ее последовательность получена из полного генома (тот же ecoli.embl) c помощью программы seqret с опцией -sask (она спросила имя входного файла, номера нуклеотидов начала и конца, имя выходного файла):
seqret -sask

Задание 2.Поиск гомологичных тРНК в родственном геноме Bacillus subtilis

Программа FASTA BLASTN MegaBLAST discontiguous MegaBLAST
Длина якоря 6 11 28 11
Результаты поиска здесь здесь здесь здесь
Число находок с E-value < 0,01 1 1 0 1
Характеристика лучшей находки:
      E-value 1.4e-07 2e-11   1e-11
      длина выравнивания 77 72   75
      вес выравнивания 43.5 63.9   63.9
      координаты в геноме 11463-11538 3172093-3172164 комплементарная цепь   166172-166243
Аннотация лучшей находки по записи EMBL:
      имя гена trnO-Ile trnB-Pro   trnI-Pro
      это тРНК? да да   да
      это тоже пролиновая тРНК? нет, она изолейциновая да   да

Примечание.Программа BLASTN нашла 3 гена (их последовательности полностью совпадают) - trnJ(96062-96122), trnI(166172-166232), trnB(3172093-3172164) - и я выбрала trnB потому, что он был первый в списке. Но в принципе у них одинаковые E-value и веса выравниваний.

Сначала я получила индексные файлы для поиска по геному Bacillus subtilis :
formatdb -i bs_genome.fasta -p F -n bs

Поиск с помощью BLASTN:
 blastall -p blastn -i tRNA_proline.fasta -d bs -o resultsearch.txt

Поиск с помощью MegaBLAST:
megablast -d bs -i tRNA_proline.fasta -o resmegablast.txt -D 2 

Поиск с помощью discontiguous MegaBLAST( та же программа, но добавили некоторые опции -W (стала меньше длина слова), -t (длина паттерна), -N( тип паттерна - я выбрала оптимальный)):
 megablast -d bs -i tRNA_proline.fasta -o resmega.txt -D 2 -W 11 -t 21 -N 1

Поиск с помощью FASTA:
fasta34

Эта программа запросила следующие данные: имя файла с последовательностью для поиска, имя файла-библиотеки, имя файла-результата, количество последовательностей для записи, количество выравниваний.
Сравнение эффективности работы этих программ
Из этих 4-х программ хуже всего в данном случае сработала MegaBLAST: она не нашла ничего. Проблема в том, что особенность этой программы - скорость(что в данном случае не актуально,т.к. "банк" очень маленький - всего один геном) в ущерб чувствительности. Из-за большой длины якоря эта программа не смогла найти короткую последовательность тРНК.Следующая в списке с конца - программа FASTA. Она нашла тРНК, но для другой аминокислоты(изолейцин вместо пролина). Возможно это произошло из-за того, что эта программа работает без индексных файлов и потому большой размер генома стал для нее препятствием (найденная тРНК находится "с краю" генома). Но я не могу точно сказать, почему так получилось (ведь E-value находки всего 1.4е-07 - это много по сравнению 2е-11). Программы BLASTN и discontiguous MegaBLAST дали хорошие результаты, но BLASTN нашла 3 гена, кодирующих одну и ту же тРНК, а discontiguous MegaBLAST - 1 ген. Ввиду того, что эти гены имеют абсолютно одинаковую последовательность, мне кажется, что результат BLASTN немногим лучше(но все-таки лучше - эта программа оказалась более чувствительной).
На страницу 3-го семестра

© Моросанова Мария