Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~jimsonweed89/cred2.html
Дата изменения: Mon Mar 2 10:28:46 2009
Дата индексирования: Tue Oct 2 02:08:55 2012
Кодировка: Windows-1251
jimsonweed's site
Official site of faculty of bioengineering and bioinformatic science main page main page kodomo

Зачетная работа
Выполнение заданий

Получили заданный фрагмент генома Yersinia mollaretii длины 7000 нуклеотидов из 
записи EMBL AALD01000003 с помощью команды: 

seqret embl:AALD01000003 -sask. Указали начало фрагмента - 7001, а конец - 14000. 

Полный протеом E. coli получили командой: 

seqret sw:*_Ecoli.

Сохранили в файле.

Создали индексные файлы для поиска программами пакета BLAST, используя команду: 

formatdb -i 3mg1_ecoli.fasta -p T -n eco. 

Извлекили из полученного файла aald01000003.fasta трансляции всех открытых рамок считывания длиной 
не менее 240 нуклеотидов. Использовали стандартный для бактерий (bacterial) генетический код, открытой 
рамкой считали последовательность, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном. 

getorf -sequence aald01000003.fasta -table 11 -minsize 240 -find 1 -o aal.orf.

Итого получили всего 19 открытых рамок. 

В полученом документе cr2.xls находится информация об открытых рамках считываения.
 

Для поиска сходных последовательностей у E. coli использовали программу blastp, так как нужно было найти гомологов 
белковой последвательности по банку белковых последовательностей у E.Coli. Использовали команду: 

blastall -p blastp -d eco -i aal.orf -e 0.001 -m 9 -o aal.out.
 

Чтобы извлечь данные о числе сходных последовательностей для каждой открытой рамки считывания , 
создали скрипт aal.scr.

Резульат работы скрипта представлен в файле rez.txt.

В таблице приведена информация для тех рамок считывания, для которых нашлась хотя бы одна сходная последовательность: 


 name			Начало	Конец	Направление	Число находок	ID E.coli	E-value
>AALD01000003_2 	1802	2383	прямое			1	GRPE_ECOLI	2,00E-57
>AALD01000003_3 	3395	3874	прямое			5	GRCA_ECOLI	3,00E-58
>AALD01000003_6 	5432	6190	прямое			2	YFIC_ECOLI	2,00E-62
>AALD01000003_8 	6991	6281	обратное		3	NADB_ECOLI	9,00E-118
>AALD01000003_11	5314	3992	обратное		9	SRMB_ECOLI	0
>AALD01000003_14	3192	2458	обратное		1	UNG_ECOLI	2,00E-100
>AALD01000003_17	1692	805	обратное		1	PPNK_ECOLI	2,00E-140
>AALD01000003_19	823	2	обратное		1	RECN_ECOLI	3,00E-95

Схематическое изображение положения на фрагменте тех открытых рамок, для которых нашлись сходные последовательности в E. coli. 
Гипотетические гены во фрагменте 7001-14000 записи AALD01000003

3'--[<= recN, 2-823[<= ppnK, 805-1692]]-----[<=ung,2458-3192]-----[<= srmB, 3992-5314]----[<= nadB, 6281-6991]---------------------------5'
5'--------------------------------------[grpE, 1802-2383=>]----[grcA, 3395-3874=>]----[yfiC, 5432-6190=>]-----------------------------------------------3'

Гены, гомологичные им в геноме кишечной палочки (фрагмент 2710000-2751500):

3'-------[<= yfiC, 2710049-2710786]------------------------------[<= grcA, 2714088-2714471]----------------------------------------------------------------------------------------------------------------------------------------[<= grdE, 2748137-2748730]---------------------------5'
5'--[=> nadB, 2708442-2710064]--[=> srmB, 2710918-2712252]----------[=> ung, 2714776-2715465]-----------------------------------------------------------------------------------------------------------------------------------------[=> ppnK, 2748853-2749731[=> recN, 2749717-2751478]----------3'


Порядок следования генов сохраняется, меняются местами цепи, а вот расстояния сохраняются не везде. 
Точнее только в двух местах: между генами nadB и srmB и их предсказанными гомологами, а так же совпадает 
перекрывание между генами ppnK и recN и их предсказанными гомологами.



© With the best regards, your jimsonweed.:)