Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~Lan787/term3_files/9_7.htm
Дата изменения: Wed Nov 9 16:37:03 2005
Дата индексирования: Tue Oct 2 09:33:57 2012
Кодировка: Windows-1251
Отчет по аннотации участка бактериального генома

Отчет по аннотации участка бактериального генома

На главную

Мне нужно было найти в моем фрагменте генома Yersinia bercovieri последовательности отвечающие за синтез белка. Первым делом с помощью программы seqret я получил последовательность нуклеотидов моего участка в формате fasta:
seqret /home/export/samba/public/tmp/yb.fasta:AALC01000093 -sask далее, на заданные программой вопросы, были даны ответы:
Begin at position [start]: 4001
End at position [end]: 8000
Reverse strand [N]: N

В полученной последовательности нуклеотидов я нашел открытые рамки считывания (ORF), а именно: начало, конец, и их трансляции (перевод на "язык" аминокислотных последовательностей):
getorf -table 11 -minsize 240 -find 1
Минимальная длинна рамки 240 нуклеотидов триплеты, сигнализирующие о старте и о начале транскрипции, взяты генетического кода бактерий

Чтобы проверить являются ли эти последовательности действительно кодирующими, я посмотрел, нет ли у белков, кодируемых ими, гомологов среди белков из таксона энтеробактерий. Ведь если белок кодируемый этой последовательностью существует, то у него обязательно должны быть гомологи из других организмов. С помощью команды seqret sw-org:Enterobacteriales я получил все белки, принадлежащие таксону энтеробактерии, из базы данных Swiss-Prot (всего 13854 шт.). Командой formatdb -i Enterobacteriales.fasta -p T -n eb я получил индексные файлы для программы BLASTP. Затем я написал скрипт, который последовательно подает программе BLASTP последовательности транслированных рамок считывания для поиска гомологов среди белков из энтеробактерий.

seqret "*.orf:*_1" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out
seqret "*.orf:*_2" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out
seqret "*.orf:*_3" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out
seqret "*.orf:*_4" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out
seqret "*.orf:*_5" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out
seqret "*.orf:*_6" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out
seqret "*.orf:*_7" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out
seqret "*.orf:*_8" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out
seqret "*.orf:*_9" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out
seqret "*.orf:*_10" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out
seqret "*.orf:*_11" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out
seqret "*.orf:*_12" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out
seqret "*.orf:*_13" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out
seqret "*.orf:*_14" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out
seqret "*.orf:*_15" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out
Данный скрипт позволяет узнать количество гомологов для каждого белка, кодируемого последовательностью ORF'а. Гомологичными белки считались, если Evalue для "хита" было меньше 10-2.

Далее, чтобы получить мнформацию о каждой ORF(начало, конец рамки, направление чтения), я написал еще один маленький скрипт:

 grep '^>' aalc01000093.orf | awk '($5 =="(REVERSE") {print $2 "  " $4 "   yes"}
($5 =="Yersinia"){print $2 "  " $4}' | tr -d [] > info.txt
И затем я составил таблицу:
?Начало Конецобратное направлениекол-во гомологов c E value < 0.01
1174416 0
2696995 0
37691077 0
410021556 0
510641798 0
621222364 0
722432596 0
823892691 0
932343785 10
1031292122да11
1117701525да0
122026941да9
13999700да0
1494490да1
1537938да0
Зеленым отмечены ORF'ы прошедшие отсев. Похоже на то, что они являются генами.

Теперь наглядно представим расположение этих генов на моем фрагменте:

                                                        3234----->3785
                                   2212<-------------3129
     941<--------------------------2026
  90<-----944   
1--------------------------------------------------------------------4000
Заметим,что есть перекрывание между ?12 и ?14 ORF'ами (941-944 район). Последовательности кодируют белки с разными функциями, Evalue находок гомологов < 10-100. Поэтому мне кажется, что обе обсуждаемые рамки кодируют белки. К тому же перекрывание не велико: всего 4 нуклеотида. Данные две рамки составляют оперон, т. е. имеют общий транскрипт, так как непосредственно примыкают друг к другу (терминатор транскрипции между ними не уместится).