Отчет по аннотации участка бактериального генома

Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~Lan787/term3_files/9_7.htm
Дата изменения: Wed Nov 9 16:37:03 2005
Дата индексирования: Tue Oct 2 09:33:57 2012
Кодировка: Windows-1251

На главную

Мне нужно было найти в моем фрагменте генома Yersinia bercovieri последовательности отвечающие за синтез белка. Первым делом с помощью программы seqret я получил последовательность нуклеотидов моего участка в формате fasta:
seqret /home/export/samba/public/tmp/yb.fasta:AALC01000093 -sask далее, на заданные программой вопросы, были даны ответы:
Begin at position [start]: 4001
End at position [end]: 8000
Reverse strand [N]: N

В полученной последовательности нуклеотидов я нашел открытые рамки считывания (ORF), а именно: начало, конец, и их трансляции (перевод на "язык" аминокислотных последовательностей):
getorf -table 11 -minsize 240 -find 1
Минимальная длинна рамки 240 нуклеотидов триплеты, сигнализирующие о старте и о начале транскрипции, взяты генетического кода бактерий

Чтобы проверить являются ли эти последовательности действительно кодирующими, я посмотрел, нет ли у белков, кодируемых ими, гомологов среди белков из таксона энтеробактерий. Ведь если белок кодируемый этой последовательностью существует, то у него обязательно должны быть гомологи из других организмов. С помощью команды seqret sw-org:Enterobacteriales я получил все белки, принадлежащие таксону энтеробактерии, из базы данных Swiss-Prot (всего 13854 шт.). Командой formatdb -i Enterobacteriales.fasta -p T -n eb я получил индексные файлы для программы BLASTP. Затем я написал скрипт, который последовательно подает программе BLASTP последовательности транслированных рамок считывания для поиска гомологов среди белков из энтеробактерий.

seqret "*.orf:*_1" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out
seqret "*.orf:*_2" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out
seqret "*.orf:*_3" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out
seqret "*.orf:*_4" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out
seqret "*.orf:*_5" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out
seqret "*.orf:*_6" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out
seqret "*.orf:*_7" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out
seqret "*.orf:*_8" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out
seqret "*.orf:*_9" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out
seqret "*.orf:*_10" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out
seqret "*.orf:*_11" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out
seqret "*.orf:*_12" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out
seqret "*.orf:*_13" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out
seqret "*.orf:*_14" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out
seqret "*.orf:*_15" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out

Данный скрипт позволяет узнать количество гомологов для каждого белка, кодируемого последовательностью ORF'а. Гомологичными белки считались, если Evalue для "хита" было меньше 10^-2.

Далее, чтобы получить мнформацию о каждой ORF(начало, конец рамки, направление чтения), я написал еще один маленький скрипт:

 grep '^>' aalc01000093.orf | awk '($5 =="(REVERSE") {print $2 "  " $4 "   yes"}
($5 =="Yersinia"){print $2 "  " $4}' | tr -d [] > info.txt

И затем я составил таблицу:

?	Начало	Конец	обратное направление	кол-во гомологов c E value < 0.01
1	174	416		0
2	696	995		0
3	769	1077		0
4	1002	1556		0
5	1064	1798		0
6	2122	2364		0
7	2243	2596		0
8	2389	2691		0
9	3234	3785		10
10	3129	2122	да	11
11	1770	1525	да	0
12	2026	941	да	9
13	999	700	да	0
14	944	90	да	1
15	379	38	да	0

Зеленым отмечены ORF'ы прошедшие отсев. Похоже на то, что они являются генами.

Теперь наглядно представим расположение этих генов на моем фрагменте:

                                                        3234----->3785
                                   2212<-------------3129
     941<--------------------------2026
  90<-----944   
1--------------------------------------------------------------------4000

Заметим,что есть перекрывание между ?12 и ?14 ORF'ами (941-944 район). Последовательности кодируют белки с разными функциями, Evalue находок гомологов < 10^-100. Поэтому мне кажется, что обе обсуждаемые рамки кодируют белки. К тому же перекрывание не велико: всего 4 нуклеотида. Данные две рамки составляют оперон, т. е. имеют общий транскрипт, так как непосредственно примыкают друг к другу (терминатор транскрипции между ними не уместится).