Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~scorper/Term3/Zachet.html
Дата изменения: Mon Nov 24 23:56:05 2008
Дата индексирования: Tue Oct 2 09:02:11 2012
Кодировка: Windows-1251
Credit

Зачетное задание

Дано: неаннотированный фрагмент генома бактерии Yersinia mollaretii

Задача: определить, закодированы ли данном фрагменте какие-либо белки, похожие на известные белки родственной бактерии (кишечной палочки).

Выполнение

Рабочая папка:
Term3/Credit2

С помощью программы seqret (пакета Putty) ,заданной с опцией -sask, был получен фрагмент генома Yersinia mollaretii длины 7000 нуклеотидов. Необходимо определить, есть ли в этом фрагменте гены, кодирующие белки, похожие на известные белки бактерии Escherichia coli K-12 .

  1. Подготовительный этап


    Получаем полный протеом E. coli из Swiss-Prot командой seqret sw:*_Ecoli
    Файл в рабочей папке: 3mg1_ecoli.fasta

    Создаем индексные файлы для поиска программами пакета BLAST.
    Команда:
    formatdb -i 3mg1_ecoli.fasta -n out -p T

    Полученные файлы:
    out.phr
    out.pin
    out.psq

  2. Получение трансляций всех открытых рамок считывания

    Извлекаем из моего фрагмента трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов.
    Пользуемся программой getorf из пакета EMBOSS.
    Команда:
    getorf -table 11 -minsize 240 -find 1 -sequence aa1d01000001.fasta
    Полученный файл:
    aa1d01000001.orf

    При этом используем стандартный для бактерий (bacterial) генетический код,
    открытой рамкой считайте последовательность,
    начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном.

  3. Поиск сходных последовательностей c помощью программы Blast


    Создаем книгу Excel, включающую информацию обо всех открытых рамках считывания в моем фрагменте генома.
    Для каждой рамки указано:
    Начало во фрагменте, конец во фрагменте, направление (прямое или обратное),
    число сходных последовательностей, найденных у E. coli при условии E-value<0,001.
    Полученный Excel файл:
    Ecoli.xls

    Для создания Excel файла использовались следующие программы и команды:
    Программа blastp пакета BLAST
    - Использовалась для получения файла со сходными последовательностями
    (из моего фрагмента генома Yersinia mollaretii и генома Escherichia coli K-12)

    Команда:
    blastall -p blastp -d out -i aa1d01000001.orf -o out.txt -e 0.001 -m 8

    Полученный файл: out.txt
    Для подсчета числа сходных последовательностей был создан скрипт.
    Результатом работы скрипта стал файл ecoli.txt

  4. Информация о тех открытых рамках, для которых нашлась хотя бы одна сходная последовательность.


    Здесь также указаны два дополнительных столбца, в которых приведены:
    идентификатор самого близкого
    из найденных белков E. coli и E-value находки.
    Информация взята из файла: out.txt
        Рамка считывания	начало-конец 	направление	Число найденных                 Идентификтор самой
                                                            сходных последовательностей     близкой находки из Ecoli    E-value
         >AALD01000001_1	5 - 373	        прямое	        15	                        FABG_ECOLI	            5E-58
         >AALD01000001_2	461 - 763	прямое	        1                         	ACP_ECOLI	            2E-23
         >AALD01000001_3	837 - 2099	прямое	        2	                        FABF_ECOLI	            0
         >AALD01000001_4	2281 - 3084	прямое   	2                       	PABC_ECOLI	            3E-70
         >AALD01000001_5	3139 - 4161	прямое  	1                       	YCEG_ECOLI	            2E-109
         >AALD01000001_6	4148 - 4789	прямое  	1                           	KTHY_ECOLI	            1E-71
         >AALD01000001_7	4792 - 5796	прямое  	2                        	HOLB_ECOLI	            7E-72
         >AALD01000001_8	5748 - 6611	прямое  	3                            	YCFH_ECOLI	            8E-114
         >AALD01000001_9	6872 - 8362	прямое  	5                            	PTGCB_ECOLI	            0   
         >AALD01000001_16	12511 - 10373	обратное	91                           	MSBA_ECOLI	            9E-33
         >AALD01000001_20	9093 - 8479	обратное	1                           	FIC_ECOLI	            1E-37
    
  5. Cхематическое изображение положения на фрагменте тех открытых рамок, для которых нашлись сходные последовательности в E. coli.

    Гипотетические гены во фрагменте 1-7000 записи AA1D01000001

    
    
    5'----[=>FABG, 5-373]-[=>ACP,461-763]-[=>FABF,837-2099]-[=>PABC,2281-3084]-[=>YCEG,3139-4161]--------------------[=>HOLB,4792-5796]--------------------[=>PTGCB,6872-8362]-------------------------------------------------------------------3'
    
    5'--------------------------------------------------------------------------------------[___=>KTHY,4148-4789___]----------[__=>YCFH,5748-6611___]--------------------------------------------------------------------------------------------3'
    
    3'----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------[<=FIC,8479-9093]-----[<=MSBA,10373-12511]---5'
    
    

    где значки => и <= обозначают прямую или комплементарную цепь ДНК соответственно, "FABG" - название самого сходного гена у E. coli, а 5-373 - это координаты границ открытой рамки во фрагменте (не во всей записи EMBL, а в данном вам фрагменте!).

  6. Сравнение взаимного расположения предполагаемых генов данного фрагмента и гомологичных им генов в геноме кишечной палочки.


       Гены E.coli, гомологичные моим, на геноме E.coli:
    начало: конец: ген направление: 1149893 - 1150627 FABG прямое 1150838 - 1151074 ACP прямое 1151162 - 1152403 FABF прямое 1152523 - 1153332 PABC прямое 1151162 - 1154357 YCEG прямое 1154347 - 1154988 KTHY прямое 1154985 - 1155989 holB прямое 1156000 - 1156797 ycfH прямое 1157092 - 1158525 ptsG прямое 965844 - 967592 msbA прямое 3489485 - 3488883 fic обратное
    Как видно из таблицы, гены в Ecoli также располагаются на небольшом расстоянии друг от друга.
    Все гены кроме fic_ecoli имеют прямое направление(также как и предсказанные гены).
    И в том и в другом случае,обнаружено перекрывание генов YCEG и KTHY (но в Ecoli
    есть еще одно пекрывание генов FABF и YCEG не замеченное в предсказанных генах).
    Ген Fic_ecoli в обоих случаях располагается далеко от основной предсказанной группы
    генов. На основании сравнения двух геномов можно сделать вывод о большой консервативности
    расположения генов.
    (!Единственное исключение составляет ген MSBA)

    Главная страница
    ©Голяев Виктор