Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~serge2006/EMBL/embl.html
Дата изменения: Sun Feb 3 03:16:40 2008
Дата индексирования: Tue Oct 2 08:06:35 2012
Кодировка: Windows-1251
EMBL

Занятие 2. Банк EMBL

назад

Рабочая директория: Term3/Practice2.
Мой белок: P04968 (THD1_ECOLI) (из файла).

  1. Сравнение разных записей в EMBL
  2. Зайти на kodomo-count, перейти в поддиректорию Practice2. Получить файл с записью SwissProt белка P04968:
    entret sw:P04968 -auto
    Создастся файл thd1_ecoli.entret. В нем надо найти все ссылки на банк EMBL, то есть поле DR, строки "DR   EMBL; Xxxxxx", где Xxxxxx - AC соответствующих записей EMBL.
    grep 'DR   EMBL;' thd1_ecoli.entret > thd1_ecoli_embl.txt
    Найденные AC: X04890, K03503, M10313, M11689, M32253, M87049, U00096, AP009048, M25497.


    Войти в систему поиска SRS. На страничке "Library page" выберать поиск по БД EMBL. На страничке "Query Form": в "Fields you can search" в первом поле выбрать "Accession Number" -> X04890 | K03503 | M10313 | M11689 | M32253 | M87049 | U00096 | AP009048 | M25497; в "Create a view" (Choose 1 or more fields) с помощью <CTRL> выбрать поля: ID, Molecule, Data class, Division, Sequence Length, Entry Creation Date, Description. Запустить поиск (Search).

    (*Порядок колонок изменен, т.к. такой порядок выдается поиском*)
    Идентификатор записи EMBL Тип молекулы Класс данных Раздел EMBL Длина последова тельности Дата создания
    документа
    Описание
    ID Molecule Class Division SeqLength DateCreated Description
    AP009048
    genomic DNA
    STD
    PRO
    4646332
    22-JAN-2006
    Escherichia coli W3110 DNA, complete genome.
    K03503
    genomic DNA
    STD
    PRO
    1714
    07-JUN-1987
    E.coli ilvA gene encoding threonine dehydratase, complete cds, and ilvD gene, 3' end.
    M10313
    genomic DNA
    STD
    PRO
    9456
    21-FEB-1991
    E.coli ilv gene cluster encoding ilvD and ilvA peptides, acetohydroxy acid synthase II, and branched-chain amino acid aminotransferase, complete cds.
    M11689
    genomic DNA
    STD
    PRO
    2833
    19-SEP-1987
    E.coli (clone pRW[1Y,1C]) threonine deaminase (ilvA) gene, 3' end; acetohydroxy acid isomeroreductase (ilvC) and its positive control factor (ilvY) genes, complete cds.
    M25497
    genomic DNA
    STD
    PRO
    240
    23-NOV-1989
    Escherichia coli (K-12) threonine deaminase (ilvA) gene, 5' end and internal promoter region.
    M32253
    genomic DNA
    STD
    PRO
    7203
    21-FEB-1991
    E.coli ilvGMEDA operon encoding biosynthesis of isoleucine and valine, complete cds.
    M87049
    genomic DNA
    STD
    PRO
    91414
    31-AUG-1992
    E. coli genomic sequence of the region from 84.5 to 86.5 minutes.
    U00096
    genomic DNA
    STD
    PRO
    4639675
    23-FEB-2006
    Escherichia coli K12 MG1655, complete genome.
    X04890
    genomic DNA
    STD
    PRO
    8088
    30-MAR-1993
    E.coli ilvGMEDA operon

    Все 9 записей содержат информацию о геномной ДНК (- общий тип молекулы) Escherichia coli разных штаммов. Класс данных и раздел EMBL так же одинаковы у всех 9 записей (STD и Прокариоты соответственно).
    Различаются "Длина последовательности", "Дата создания документа" и "Описание". AP009048 и U00096 - полные геномы; их длины ~4,6 млн нк. M87049 - участок генома, ~91 тыс нк. Остальные не превышают 10 тыс нк.
    Самая старая запись: K03503 от 07.06.1987. Самая новая: U00096 от 23.02.2006.

  3. Сравнение описаний гена Escherichia coli в двух разных записях EMBL
  4. Выберать 2 записи из полученных в задании 1 для дальнейшего изучения (не рекомендуется выбирать полные геномы):
    K03503 и M10313.

    Получить эти записи EMBL и убедиться, что в них действительно содержатся описания последовательности, кодирующей белок P04968:
    entret embl:k03503 -auto
    entret embl:m10313 -auto


    Последовательности, кодирующие белок P04968 в двух записях банка EMBL
      I II
    ID записи (=AC в данном случае) K03503 M10313
    Начало гена в записи
    [Для I] (Провести поиск по EMBL записи гена (k03503.entret): P04968 - AC моего белка. Найдется строчка такого содержания:
    FT                   /db_xref="GOA:P04968"

    Несколькими строками выше должна быть строчка аналогичная этой:
    FT   CDS             134..1678
    )
    134 5134
    Конец гена в записи 1678 6678
    Направление гена
    зависит от того, содержит ли запись EMBL последовательность той цепи ДНК, на которой расположен ген, или комплементарной ей.
    FT   CDS             complement(100..500)
    - значит обратное,
    FT   CDS             100..500
    - значит прямое
    прямое прямое
    Примечания E.coli ilvA gene encoding threonine dehydratase, complete cds, and ilvD gene, 3' end. E.coli ilv gene cluster encoding ilvD and ilvA peptides, acetohydroxy acid synthase II, and branched-chain amino acid aminotransferase, complete cds.

    Извлечь из полученных EMBL-записей (k03503.entret и m10313.entret) нуклеотидные последовательности, кодирующие белок P04968:
    seqret k03503.entret k03503_134_1678.fasta -sbegin1 134 -send1 1678 -sreverse1 n
    seqret m10313.entret m10313_5134_6678.fasta -sbegin1 5134 -send1 6678 -sreverse1 n


    Сравнить последовательности:
    needle k03503_134_1678.fasta m10313_5134_6678.fasta k03503-m10313.needle -auto

    Получившееся выравнивание: k03503-m10313.needle.txt.

    Процент совпадений (Identity): 99.6%.

    Вероятно, предсталенный ниже участок выравнивания определен needle-ом некорректно, т.к. в данном случае вероятнее 3 замены, а не 2 гэпа.
    Участок выравнивания Предполагаемая ситуация
    gac-cggctgcgc
    ||| ||| |||||
    gacgcgg-tgcgc
    gaccggctgcgc
    |||  | |||||
    gacgcggtgcgc

    Учитывая это, таблица замен станет такой:
    ? позиция нуклеотид в K03503 нуклеотид в M10313 позиция в кодоне результат синонимичность
    1 358 c g 1 (cgg->gcg) Arg->Ala R->A нет
    2 359 g c 2
    3 361 c g 1 (ctg->gtg) Leu->Val L->V сходны: алифатические, гидрофобные
    4,5 418,419 cg gc 1,2 (cgc->gcc) Arg->Ala R->A нет
    6 583 t g 1 (tgc->ggc) Cys->Gly C->G нет
    7 1001 t g 2 (gtc->ggc) Val->Gly V->G нет (немного)

    Все замены не синонимичны.
    SwissProt


  5. Знакомство с записью гена из эукариотического генома
  6. В таблице "Фрагмент генома человека" указаны идентификационные номера записей EMBL и конкретные гены в этих записях (приведено название гена или его продукта).
    Запись EMBL: AF053356.
    Имя гена или его продукта: /product="actin like gene".
    entret embl:AF053356 -auto
    В получившемся файле af053356.entret найти '/product="actin like gene"'. Выбрать примерно такие строки недалеко над находкой.
    FT   CDS             join(119326..119350,119801..119877,120094..120259,
    FT                   120561..120661,125524..125621,126836..126930,
    FT                   126997..127103,128126..128215,128375..128436,
    FT                   128574..128688,128828..128908,129013..129108,
    FT                   129324..129638)
    
    Схема гена (первый и последний транслируемые участки):
    --- [119326..119350] --...-- [129324..129638] ---->

    Создаем временный файл: 119326..119350,119801..119877,.......,129013..129108,129324..129638 - все рамки в одну строку без пробелов. Экзоны: вставляем в Excel, массовой заменой меняем: ".."->"+", ","->",=1-". Данные -> Текст по столбцам.. Далее, Символ разделитель: другой: ",", Далее, Готово. В первой ячейке в начало добавить =-. Выделить занятые ячейки, Данные->Сортировка: Параметры: Сортировать столбцы диапазона, Ок; По убыванию, Ок.
    Чтобы поступить аналогично с интронами можно сохранить этот результат и перезайти в Excel. ","->"+", ".."->",=1-". Первая и последняя ячейки не учитваем.

    Файл с вычислениями: human_cds.xls

    Общее число экзонов в гене: 13.
    Длина самого длинного и самого короткого экзонов соответственно равны: 315 и 25 нк.
    Длина самого длинного и самого короткого интронов соответственно равны: 4862 и 66 нк.

    назад

© Serge I. Mitrofanov, 2007Последнее обновление: 02.02.2008