Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~xedin/Term3/credit1.html
Дата изменения: Thu Oct 11 20:09:20 2007
Дата индексирования: Tue Oct 2 08:06:04 2012
Кодировка: Windows-1251
Practice5(Credit1)_Sorokin

Занятие 5 (зачетное). Что кодирует фрагмент нуклеотидной последовательности?

Дано: неаннотированный фрагмент генома бактерии Yersinia intermedia (AC EMBL: AALF01000001; координаты последовательности в записи [126001..133000]). Дан также протеом бактерии-прототипа Escherichia coli K-12 .

Задача: определить, кодирует ли заданный фрагмент что-либо, похожее на какой-либо белок из прототипного организма.

Вариант 2

Был получен заданный фрагмент генома Yersinia intermedia длины 7000 нуклеотидов с помощью программы seqret. Чтобы определить, есть ли в этом фрагменте гены, похожие на гены бактерии-прототипа Escherichia coli K-12, было проведены следующие операции:

  1. Полный протеом E.coli был получен из SwissProt. Были созданы индексные файлы для поиска программами пакета BLAST.
    
    formatdb -i ecoli -p T -n ecoli
    
    
  2. Затем из данного фрагмента были извлечены трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов. При этом была использована программа getorf пакета EMBOSS.
    
    getorf -minsize 240 -table 11 -find 1 
    
    
    Используется стандартный для бактерий (bacterial) генетический код, открытой рамкой считается последовательность, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном.
  3. Чтобы найти всех гомологов в протеоме E.coli была использована программа blastp, т.к. после поиска и транслирования всех ORF задача свелась к поиску сходных аминокислотных последовательностей при условии E-value<0,001.
    
    blastall -p blastp -d ecoli -i bac -e 0.001 -o homologs 
    
    
  4. Затем с использованием возможностей Excel был написан скрипт для подсчета числа сходных последовательностей для каждой ORF из заданного фрагмента генома Yersinia intermedia.
    
    seqret bac:AALF01000001_1 stdout | blastall -p blastp -d ecoli -e 0.001 | grep -c ">" >> kolvo;
    seqret bac:AALF01000001_2 stdout | blastall -p blastp -d ecoli -e 0.001 | grep -c ">" >> kolvo;
    seqret bac:AALF01000001_3 stdout | blastall -p blastp -d ecoli -e 0.001 | grep -c ">" >> kolvo;
    seqret bac:AALF01000001_4 stdout | blastall -p blastp -d ecoli -e 0.001 | grep -c ">" >> kolvo;
    seqret bac:AALF01000001_5 stdout | blastall -p blastp -d ecoli -e 0.001 | grep -c ">" >> kolvo;
    seqret bac:AALF01000001_6 stdout | blastall -p blastp -d ecoli -e 0.001 | grep -c ">" >> kolvo;
    seqret bac:AALF01000001_7 stdout | blastall -p blastp -d ecoli -e 0.001 | grep -c ">" >> kolvo;
    seqret bac:AALF01000001_8 stdout | blastall -p blastp -d ecoli -e 0.001 | grep -c ">" >> kolvo;
    seqret bac:AALF01000001_9 stdout | blastall -p blastp -d ecoli -e 0.001 | grep -c ">" >> kolvo;
    seqret bac:AALF01000001_10 stdout | blastall -p blastp -d ecoli -e 0.001 | grep -c ">" >> kolvo;
    seqret bac:AALF01000001_11 stdout | blastall -p blastp -d ecoli -e 0.001 | grep -c ">" >> kolvo;
    seqret bac:AALF01000001_12 stdout | blastall -p blastp -d ecoli -e 0.001 | grep -c ">" >> kolvo;
    seqret bac:AALF01000001_13 stdout | blastall -p blastp -d ecoli -e 0.001 | grep -c ">" >> kolvo;
    seqret bac:AALF01000001_14 stdout | blastall -p blastp -d ecoli -e 0.001 | grep -c ">" >> kolvo;
    seqret bac:AALF01000001_15 stdout | blastall -p blastp -d ecoli -e 0.001 | grep -c ">" >> kolvo;
    seqret bac:AALF01000001_16 stdout | blastall -p blastp -d ecoli -e 0.001 | grep -c ">" >> kolvo;
    
    
    где bac - файл, содержащий аминокислотные последовательности найденных ORF, AALF01000001_N - их идентификаторы, kolvo - файл, содержащий столбец чисел, каждое из которых равно количеству сходных последовательностей из E.coli для соответствующей ORF.
  5. Была создана книга Excel, включающая информацию обо всех открытых рамках считывания в данном фрагменте генома и число сходных последовательностей, найденных у E. coli при условии E-value<0,001.

Полученные результаты.

Интересно, что...