Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://kodomo.cmm.msu.ru/~nihilenia/term3/protocol.html
Дата изменения: Fri Nov 2 20:36:31 2007 Дата индексирования: Tue Oct 2 12:13:30 2012 Кодировка: Windows-1251 |
Что кодирует фрагмент нуклеотидной последовательности?
Дано: неаннотированный фрагмент генома бактерии Yersinia intermedia, протеом бактерии-прототипа.
Задача: получить заданный фрагмент генома Yersinia intermedia длины 7000 нуклеотидов с помощью программы seqret и определить, есть ли в этом фрагменте гены, похожие на гены бактерии-прототипа Escherichia coli K-12.
Выбор инструментов для решения поставленной задачи, а также тип данных, по которому целесообразно вести поиск:
a) Дан фрагмент генома бактерии Yersinia intermedia длиной 7000 нуклеотидов. Соответственно,необходимо
найти похожие участки нуклеотидной последовательности фрагмента, кодирующие белки, похожие на белки протеома бактерии-прототипа.
Данные на вход (subject) - фрагмент генома бактерии Yersinia intermedia. Индексные файлы составляются по полному протеому Escherichia coli
K-12.
b) Для решения задачи выбрана программа BLASTP из пакета BLAST.
На вход программе будет подаваться транслированные рамки считывания фрагмента, тип базы данных, по которой будет проводиться поиск - белки
(протеом бактерии-прототипа).
с) Необходимые команды:
seqret AALF01000002.embl -sask
seqret sw:*_ecoli.fasta
formatdb -i 3mg1_ecoli.fasta -p T -n ec
Извлечение из фрагмента трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов: Использована программа getorf из пакета EMBOSS.
getorf -minsize 240 -table 11 -find 1
Параметр -table задает генетический код, в данном случае - стандартный для бактерий (bacterial) генетический код (11).
Парaметр -find указывает на то, что именно следует считать открытой рамкой считывания, в данном случае это регион нуклеотидной последовательности,
заключенный между старт-кодоном и стоп-кодоном, транслированный в файле на выходе (1), getorfans.orf.
Параметр -minsize задает минимальное число нуклеотидов открытой рамки, здесь 240.
Создание книги Excel, включающей информацию обо всех открытых рамках считывания во фрагменте генома: Создан список открытых рамок считывания фрагмента - orf_count.txt. с помощью команды
grep '^>' getorfans.orfДалее с помощью импрорта данных создана книга Excel orf.xls.
seqret getorfans.orf:AALF01000002_i stdout|blastall -p blastp -d -ec -e 0.001|grep Identities -c > query_count.txt , i= 1,2,...,15Его можно сделать короче, использовав синтаксис для введения переменной (см. script.txt). Скрипт генерирует файл со столбцом посчитанных находок по протеому кишечной палочки для каждой ORF_#, этот столбец путем стандартного импорта данных вносится в книгу Excel orf.xls.
Описание взаимного расположения предполагаемых генов в заданном фрагменте:
5`--[=>ген aaaa, 126005-126565] --[=>ген cccc, 129854-131422]-------------------------------------------------------3` -[=>ген bbbb, 126558-127277]- 3`--------------------------------------------------------------------------[<=ген dddd, 131486-132160][<=ген eeee, 132160-132999]-5`
5`--[=>ген dcuS, 126005-126565] --[=>ген ansP, 129854-131422]-------------------------------------------------------3` -[=>ген dcuR, 126558-127277]- 3`--------------------------------------------------------------------------[<=ген narJ, 131486-132160][<=ген narI, 132160-132999]-5`
Cравнение взаимного расположения предсказанных генов вo фрагменте и сходных аннотированных генов E. coli.:
5`--[<=ген narJ, 1286716-1287426][<=ген narI, 1287426-1288103]---------------------------------------------------------------------------------------------------3` 3`-----------------------------------------------------------------------------[<=ген ansP, 1522505-1524004] ------------------[<=ген dcuS, 4348054-4349685]-----5` -[<=ген dcuR, 4347338-4348057]-Нетрудно заметить, что произошло зеркальное отображение относительно двух цепей ДНК и расположения генов в геномах. Пара генов narJ-narI, будучи последней во фрагменте, стала первой в геноме кишечной палочки и т.д. Однако говорить именно о зеркальном отражении расположения генов неправильно, ибо заметно, что порядок транслиции генов narJ-narI не поменялся. У бактерий бывает, что группа генов, расположенных вместе, отвечает за группу последовательных этапов метаболизма. Такая группа генов регулируется на уровне транскрипции единым образом и называется оперон. Часто последовательность расположения генов в опероне совпадает с последовательностью метаболических этапов. Сходство, пожалуй, только в расположении пар генов narJ-narI и dcuS-dcuR, это объясняется тем, что эти гены входят в состав оперонов narLXKGHJI и dcuBRS соответственно.