Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~lohmatikov/t3_files/annotation.doc
Дата изменения: Wed Dec 14 19:54:46 2005
Дата индексирования: Tue Oct 2 14:33:53 2012
Кодировка: koi8-r

Предсказание генов во фрагменте генома бактерии Yersinia bercovieri.

Введение.

Известно, что участок гена, кодирующий белок, начинается старт-кодоном (он
же кодирует метионин) и заканчивается стоп-кодоном. Такие участки называют
ещё открытыми рамками считывания (open reading frames или ORF)
последовательностей. Понятно, что не любой такой участок гена будет
кодировать какой-то белок. Целью этой работы является поиск всех открытых
рамок считывания определённого участка генома (4000 нуклеотидных пар)
бактерии Yersinia bercovieri, которые действительно кодируют белки.
Критерием того, что данная открытая рамка кодирует белок, является наличие
последовательностей у других родственных организмов семейства
Enterobacteriales, к которому принадлежит Yersinia bercovieri, белков,
гомологичных последовательности, получившейся при трансляции этой открытой
рамки считывания (в предположении, что она кодирует белок).

Ход работы.

1) Сначала из исходного файла, содержащего неаннотированные
последовательности, был извлечён указанный участок длиной в 4000
нуклеотидов. Эта операция была проделана при помощи команды seqret с
использованием её параметра sask:

seqret /home/export/samba/public/tmp/yb.fasta:*96 -sask

Поскольку название нужной мне последовательности единственное из всех
заканчивалось символами "96", в качестве имени последовательности можно
было задать *96. Соответственно вырезан был участок с началом в нуклеотиде
1 и с концом в нуклеотиде 4000; последовательность была сохранена без
изменения направления.

2) Затем был произведён поиск команды, которая бы нашла на этом участке все
открытые рамки считывания. Для этого была использована программа wossname:

wossname ORF

В результате в числе команд была найдена подходящая (getorf), которая затем
и была применена в поиске открытых рамок считывания:

getorf -sequence aalc01000096.fasta -minsize 240 -outseq orfout.fasta -find
1 -table 11

Здесь параметр sequence означает исходный файл (в который был сохранён
участок генома, выданный seqret), параметр minsize - минимальная длина
последовательности, которую мы будем считать геном предполагаемого белка:
240 нуклеотидов, а значит, полагаем, что все гипотетические белки будут
длиннее 78 аминокислот. Параметр outseq означает имя выходного файла. В
выходной файл программа записывает уже транслированные открытые рамки
считывания, то есть последовательности аминокислот; трансляция начинается
со старт-кодона и заканчивающиеся стоп-кодоном - это определяет значение 1
параметра find, параметр table определяет тип генетического кода для
трансляции.

3) Далее из банка данных SwissProt были извлечены все белки таксона
Enterobacteriales, и из них затем созданы индексные файлы для поиска
BLAST'ом с помощью последовательного исполнения команд seqret и formatdb:

seqret sw-org:enterobacteriales

позволяет сохранить последовательности всех белков из Enterobacteriales (sw-
org:enterobacteriales указывает на то, что нужно извлечь все
последовательности из записей SwissProt, у которых в поле OC или OS указано
слово Enterobacteriales). Файл, куда были записаны эти данные, был назван
enterobacteriales.fasta. Далее были созданы индексные файлы:

formatdb -i enterobacteriales.fasta -p T -n enterobacteriales

Здесь параметр i обозначает имя входного файла, параметр p со значением T
указывает, на то, что последовательность белковая, а n - базовое имя
создаваемых индексных файлов.

4) Теперь уже можно произвести поиск транслированных рамок считывания по
банку из таксона Enterobacteriales. Для удобства работы был написан скрипт,
позволяющий одним нажатием кнопки выполнить задание. Для этого были
использованы средства Excel. Командой grep были выделены все названия
транслированных рамок считывания (строчки, начинающиеся с символа ">"):

getorf -sequence aalc01000096.fasta -minsize 240 -outseq stdout -find 1
-table 11|grep ">" > orf_info.txt

Затем эти данные были экспортированы в Excel, где потом были дописаны
необходимые столбцы с будущими командами для скрипта, а ненужные столбцы -
удалены; получившиеся строки были вставлены в новый текстовый файл, из
которого затем были удалены лишние знаки табуляции. Команды скрипта
представляли собой конвейер из команд seqret, blastall и grep (с параметром
'c', чтобы на выходе получить файл с количеством гомологов по каждой из
открытых рамок).

Текст скрипта:

seqret orfout.fasta:AALC01000096_1 -outseq stdout|blastall -d
enterobacteriales -i stdin -o stdout -p blastp -e 0.01|grep -c ">" >
grep.txt
seqret orfout.fasta:AALC01000096_2 -outseq stdout|blastall -d
enterobacteriales -i stdin -o stdout -p blastp -e 0.01|grep -c ">" >>
grep.txt
seqret orfout.fasta:AALC01000096_3 -outseq stdout|blastall -d
enterobacteriales -i stdin -o stdout -p blastp -e 0.01|grep -c ">" >>
grep.txt
seqret orfout.fasta:AALC01000096_4 -outseq stdout|blastall -d
enterobacteriales -i stdin -o stdout -p blastp -e 0.01|grep -c ">" >>
grep.txt
seqret orfout.fasta:AALC01000096_5 -outseq stdout|blastall -d
enterobacteriales -i stdin -o stdout -p blastp -e 0.01|grep -c ">" >>
grep.txt
seqret orfout.fasta:AALC01000096_6 -outseq stdout|blastall -d
enterobacteriales -i stdin -o stdout -p blastp -e 0.01|grep -c ">" >>
grep.txt
seqret orfout.fasta:AALC01000096_7 -outseq stdout|blastall -d
enterobacteriales -i stdin -o stdout -p blastp -e 0.01|grep -c ">" >>
grep.txt
seqret orfout.fasta:AALC01000096_8 -outseq stdout|blastall -d
enterobacteriales -i stdin -o stdout -p blastp -e 0.01|grep -c ">" >>
grep.txt
seqret orfout.fasta:AALC01000096_9 -outseq stdout|blastall -d
enterobacteriales -i stdin -o stdout -p blastp -e 0.01|grep -c ">" >>
grep.txt
seqret orfout.fasta:AALC01000096_10 -outseq stdout|blastall -d
enterobacteriales -i stdin -o stdout -p blastp -e 0.01|grep -c ">" >>
grep.txt
seqret orfout.fasta:AALC01000096_11 -outseq stdout|blastall -d
enterobacteriales -i stdin -o stdout -p blastp -e 0.01|grep -c ">" >>
grep.txt

Комментарий к скрипту: команда seqret выдаёт по очереди каждый из
транслированных ORF'ов в стандартный выход интерпретатора командной строки
bash, этот стандартный выход является стандартным входом для следующей
команды - blastall (параметр i; остальные параметры: d - базовое имя
индексных файлов, p - используемая программа среди программ BLAST, e -
порог E-value, o - куда перенаправляется результат - в данном случае опять
в стандартный выход, а затем на вход команде grep). Выход команды grep
перенаправляется в файл grep.txt; чтобы файл каждый раз не перезаписывался,
а значения писались друг под другом в тот же файл, для второй и последующих
команд знак перенаправления записывается ">>".

Собранная в конечном итоге информация об открытых рамках считывания
представлена в таблице 1.

Таблица 1. Информация об открытых рамках считывания фрагмента генома
бактерии Yersinia bercovieri (AALC01000096).
|Название рамки |Первый |Последни|Направлени|Число сходных |
|считывания |нуклеоти|й |е |последовательностей |
| |д |нуклеоти| |из |
| | |д | |Enterobacteriales:Sw|
| | | | |issProt, где E-value|
| | | | |< 0,01 |
|AALC01000096_1 |20 |292 |прямое |0 |
|AALC01000096_2 |1228 |1884 |прямое |0 |
|AALC01000096_3 |2645 |3007 |прямое |0 |
|AALC01000096_4 |2911 |2624 |обратное |0 |
|AALC01000096_5 |3678 |2422 |обратное |9 |
|AALC01000096_6 |825 |466 |обратное |3 |
|AALC01000096_7 |704 |420 |обратное |0 |
|AALC01000096_8 |429 |1 |обратное |6 |

5) Наконец, положение предполагаемых генов было изображено в виде схемы:

1<-----------429 466<-----------837 2422<-----------3768

Как видно из таблицы, все кодирующие гены считываются с этой
последовательности в обратном направлении и не перекрываются.

Интерес вызыает тот факт, что на комплементарной цепи, где располагаются
кодирующие последовательности, есть довольно длинный участок, лишённый
рамок считывания (2421 - 826), причём не только тех, которые не имеют
гомологов. Это довольно необычное явление для бактерий, поскольку у них
гены обычно располагаются подряд, без промежутков. Возможно это связано с
мутацией в одном из нуклеотидов старт-кодона, или в этом месте встроилась
какая-нибудь плазмида, несущая ген, не описанный среди тех
последовательностей, по которым вёлся поиск.