Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://kodomo.cmm.msu.ru/~Lan787/term3_files/9_7.htm
Дата изменения: Wed Nov 9 16:37:03 2005 Дата индексирования: Tue Oct 2 09:33:57 2012 Кодировка: Windows-1251 |
Мне нужно было найти в моем фрагменте генома Yersinia bercovieri последовательности отвечающие за синтез белка.
Первым делом с помощью программы seqret я получил последовательность нуклеотидов моего участка в формате fasta:
seqret /home/export/samba/public/tmp/yb.fasta:AALC01000093 -sask далее, на заданные программой вопросы, были даны ответы:
Begin at position [start]: 4001
End at position [end]: 8000
Reverse strand [N]: N
В полученной последовательности нуклеотидов я нашел открытые рамки считывания (ORF),
а именно: начало, конец, и их трансляции (перевод на "язык" аминокислотных последовательностей):
getorf -table 11 -minsize 240 -find 1
Минимальная длинна рамки 240 нуклеотидов триплеты, сигнализирующие о старте и о начале транскрипции,
взяты генетического кода бактерий
Чтобы проверить являются ли эти последовательности действительно кодирующими, я посмотрел, нет ли у белков, кодируемых ими, гомологов среди белков из таксона энтеробактерий. Ведь если белок кодируемый этой последовательностью существует, то у него обязательно должны быть гомологи из других организмов. С помощью команды seqret sw-org:Enterobacteriales я получил все белки, принадлежащие таксону энтеробактерии, из базы данных Swiss-Prot (всего 13854 шт.). Командой formatdb -i Enterobacteriales.fasta -p T -n eb я получил индексные файлы для программы BLASTP. Затем я написал скрипт, который последовательно подает программе BLASTP последовательности транслированных рамок считывания для поиска гомологов среди белков из энтеробактерий.
seqret "*.orf:*_1" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out seqret "*.orf:*_2" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out seqret "*.orf:*_3" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out seqret "*.orf:*_4" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out seqret "*.orf:*_5" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out seqret "*.orf:*_6" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out seqret "*.orf:*_7" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out seqret "*.orf:*_8" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out seqret "*.orf:*_9" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out seqret "*.orf:*_10" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out seqret "*.orf:*_11" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out seqret "*.orf:*_12" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out seqret "*.orf:*_13" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out seqret "*.orf:*_14" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.out seqret "*.orf:*_15" stdout | blastall -p blastp -d eb -e 0.01 | grep '^>' -c >> blast.outДанный скрипт позволяет узнать количество гомологов для каждого белка, кодируемого последовательностью ORF'а. Гомологичными белки считались, если Evalue для "хита" было меньше 10-2.
Далее, чтобы получить мнформацию о каждой ORF(начало, конец рамки, направление чтения), я написал еще один маленький скрипт:
grep '^>' aalc01000093.orf | awk '($5 =="(REVERSE") {print $2 " " $4 " yes"} ($5 =="Yersinia"){print $2 " " $4}' | tr -d [] > info.txtИ затем я составил таблицу:
? | Начало | Конец | обратное направление | кол-во гомологов c E value < 0.01 |
---|---|---|---|---|
1 | 174 | 416 | 0 | |
2 | 696 | 995 | 0 | |
3 | 769 | 1077 | 0 | |
4 | 1002 | 1556 | 0 | |
5 | 1064 | 1798 | 0 | |
6 | 2122 | 2364 | 0 | |
7 | 2243 | 2596 | 0 | |
8 | 2389 | 2691 | 0 | |
9 | 3234 | 3785 | 10 | |
10 | 3129 | 2122 | да | 11 |
11 | 1770 | 1525 | да | 0 |
12 | 2026 | 941 | да | 9 |
13 | 999 | 700 | да | 0 |
14 | 944 | 90 | да | 1 |
15 | 379 | 38 | да | 0 |
Теперь наглядно представим расположение этих генов на моем фрагменте:
3234----->3785 2212<-------------3129 941<--------------------------2026 90<-----944 1--------------------------------------------------------------------4000Заметим,что есть перекрывание между ?12 и ?14 ORF'ами (941-944 район). Последовательности кодируют белки с разными функциями, Evalue находок гомологов < 10-100. Поэтому мне кажется, что обе обсуждаемые рамки кодируют белки. К тому же перекрывание не велико: всего 4 нуклеотида. Данные две рамки составляют оперон, т. е. имеют общий транскрипт, так как непосредственно примыкают друг к другу (терминатор транскрипции между ними не уместится).