Рабочая директория: Term3/Practice2.
Мой белок: P04968 (THD1_ECOLI) (из файла).
- Сравнение разных записей в EMBL
Зайти на kodomo-count, перейти в поддиректорию Practice2. Получить файл с записью SwissProt белка P04968:
entret sw:P04968 -auto
Создастся файл thd1_ecoli.entret. В нем надо найти все ссылки на банк EMBL, то есть поле DR, строки "DR EMBL; Xxxxxx", где Xxxxxx - AC соответствующих записей EMBL.
grep 'DR EMBL;' thd1_ecoli.entret > thd1_ecoli_embl.txt
Найденные AC: X04890, K03503, M10313, M11689, M32253, M87049, U00096, AP009048, M25497.
Войти в систему поиска SRS. На страничке "Library page" выберать поиск по БД EMBL. На страничке "Query Form": в "Fields you can search" в первом поле выбрать "Accession Number" -> X04890 | K03503 | M10313 | M11689 | M32253 | M87049 | U00096 | AP009048 | M25497; в "Create a view" (Choose 1 or more fields) с помощью <CTRL> выбрать поля: ID, Molecule, Data class, Division, Sequence Length, Entry Creation Date, Description. Запустить поиск (Search).
(*Порядок колонок изменен, т.к. такой порядок выдается поиском*)
Идентификатор записи EMBL |
Тип молекулы |
Класс данных |
Раздел EMBL |
Длина последова тельности |
Дата создания
документа |
Описание |
ID |
Molecule |
Class |
Division |
SeqLength |
DateCreated |
Description |
AP009048
|
genomic DNA
|
STD
|
PRO
|
4646332
|
22-JAN-2006
|
Escherichia coli W3110 DNA, complete genome.
|
K03503
|
genomic DNA
|
STD
|
PRO
|
1714
|
07-JUN-1987
|
E.coli ilvA gene encoding threonine dehydratase, complete cds, and ilvD gene, 3' end.
|
M10313
|
genomic DNA
|
STD
|
PRO
|
9456
|
21-FEB-1991
|
E.coli ilv gene cluster encoding ilvD and ilvA peptides, acetohydroxy acid synthase II, and branched-chain amino acid aminotransferase, complete cds.
|
M11689
|
genomic DNA
|
STD
|
PRO
|
2833
|
19-SEP-1987
|
E.coli (clone pRW[1Y,1C]) threonine deaminase (ilvA) gene, 3' end; acetohydroxy acid isomeroreductase (ilvC) and its positive control factor (ilvY) genes, complete cds.
|
M25497
|
genomic DNA
|
STD
|
PRO
|
240
|
23-NOV-1989
|
Escherichia coli (K-12) threonine deaminase (ilvA) gene, 5' end and internal promoter region.
|
M32253
|
genomic DNA
|
STD
|
PRO
|
7203
|
21-FEB-1991
|
E.coli ilvGMEDA operon encoding biosynthesis of isoleucine and valine, complete cds.
|
M87049
|
genomic DNA
|
STD
|
PRO
|
91414
|
31-AUG-1992
|
E. coli genomic sequence of the region from 84.5 to 86.5 minutes.
|
U00096
|
genomic DNA
|
STD
|
PRO
|
4639675
|
23-FEB-2006
|
Escherichia coli K12 MG1655, complete genome.
|
X04890
|
genomic DNA
|
STD
|
PRO
|
8088
|
30-MAR-1993
|
E.coli ilvGMEDA operon
|
Все 9 записей содержат информацию о геномной ДНК (- общий тип молекулы) Escherichia coli разных штаммов. Класс данных и раздел EMBL так же одинаковы у всех 9 записей (STD и Прокариоты соответственно).
Различаются "Длина последовательности", "Дата создания документа" и "Описание". AP009048 и U00096 - полные геномы; их длины ~4,6 млн нк. M87049 - участок генома, ~91 тыс нк. Остальные не превышают 10 тыс нк.
Самая старая запись: K03503 от 07.06.1987. Самая новая: U00096 от 23.02.2006.
- Сравнение описаний гена Escherichia coli в двух разных записях EMBL
Выберать 2 записи из полученных в задании 1 для дальнейшего изучения (не рекомендуется выбирать полные геномы):
K03503 и M10313.
Получить эти записи EMBL и убедиться, что в них действительно содержатся описания последовательности, кодирующей белок P04968:
entret embl:k03503 -auto
entret embl:m10313 -auto
Последовательности, кодирующие белок P04968 в двух записях банка EMBL
|
I |
II |
ID записи (=AC в данном случае) |
K03503 |
M10313 |
Начало гена в записи [Для I] (Провести поиск по EMBL записи гена (k03503.entret): P04968 - AC моего белка. Найдется строчка такого содержания:FT /db_xref="GOA:P04968" Несколькими строками выше должна быть строчка аналогичная этой:FT CDS 134..1678 ) |
134 |
5134 |
Конец гена в записи |
1678 |
6678 |
Направление гена зависит от того, содержит ли запись EMBL последовательность той цепи ДНК, на которой расположен ген, или комплементарной ей.FT CDS complement(100..500) - значит обратное,FT CDS 100..500 - значит прямое |
прямое |
прямое |
Примечания |
E.coli ilvA gene encoding threonine dehydratase, complete cds, and ilvD gene, 3' end. |
E.coli ilv gene cluster encoding ilvD and ilvA peptides, acetohydroxy acid synthase II, and branched-chain amino acid aminotransferase, complete cds. |
Извлечь из полученных EMBL-записей (k03503.entret и m10313.entret) нуклеотидные последовательности, кодирующие белок P04968:
seqret k03503.entret k03503_134_1678.fasta -sbegin1 134 -send1 1678 -sreverse1 n
seqret m10313.entret m10313_5134_6678.fasta -sbegin1 5134 -send1 6678 -sreverse1 n
Сравнить последовательности:
needle k03503_134_1678.fasta m10313_5134_6678.fasta k03503-m10313.needle -auto
Получившееся выравнивание: k03503-m10313.needle.txt.
Процент совпадений (Identity): 99.6%.
Вероятно, предсталенный ниже участок выравнивания определен needle-ом некорректно, т.к. в данном случае вероятнее 3 замены, а не 2 гэпа.
Участок выравнивания |
Предполагаемая ситуация |
gac-cggctgcgc
||| ||| |||||
gacgcgg-tgcgc |
gaccggctgcgc
||| | |||||
gacgcggtgcgc |
Учитывая это, таблица замен станет такой:
? |
позиция |
нуклеотид в K03503 |
нуклеотид в M10313 |
позиция в кодоне |
результат |
синонимичность |
1 |
358 |
c |
g |
1 |
(cgg->gcg) Arg->Ala R->A |
нет |
2 |
359 |
g |
c |
2 |
3 |
361 |
c |
g |
1 |
(ctg->gtg) Leu->Val L->V |
сходны: алифатические, гидрофобные |
4,5 |
418,419 |
cg |
gc |
1,2 |
(cgc->gcc) Arg->Ala R->A |
нет |
6 |
583 |
t |
g |
1 |
(tgc->ggc) Cys->Gly C->G |
нет |
7 |
1001 |
t |
g |
2 |
(gtc->ggc) Val->Gly V->G |
нет (немного) |
Все замены не синонимичны.
SwissProt
- Знакомство с записью гена из эукариотического геномаВ таблице
"Фрагмент
генома человека" указаны идентификационные номера записей EMBL и
конкретные гены в этих записях (приведено название гена или его
продукта).
Запись EMBL: AF053356.
Имя гена или его продукта: /product="actin like gene".
entret embl:AF053356 -auto
В получившемся файле af053356.entret найти '/product="actin like gene"'. Выбрать примерно такие строки недалеко над находкой.
FT CDS join(119326..119350,119801..119877,120094..120259,
FT 120561..120661,125524..125621,126836..126930,
FT 126997..127103,128126..128215,128375..128436,
FT 128574..128688,128828..128908,129013..129108,
FT 129324..129638)
Схема гена (первый и последний транслируемые участки):
--- [119326..119350] --...-- [129324..129638] ---->
Создаем временный файл: 119326..119350,119801..119877,.......,129013..129108,129324..129638 - все рамки в одну строку без пробелов. Экзоны: вставляем в Excel, массовой заменой меняем: ".."->"+", ","->",=1-". Данные -> Текст по столбцам.. Далее, Символ разделитель: другой: ",", Далее, Готово. В первой ячейке в начало добавить =-. Выделить занятые ячейки, Данные->Сортировка: Параметры: Сортировать столбцы диапазона, Ок; По убыванию, Ок.
Чтобы поступить аналогично с интронами можно сохранить этот результат и перезайти в Excel. ","->"+", ".."->",=1-". Первая и последняя ячейки не учитваем.
Файл с вычислениями: human_cds.xls
Общее число экзонов в гене: 13.
Длина самого длинного и самого короткого экзонов соответственно равны: 315 и 25 нк.
Длина самого длинного и самого короткого интронов соответственно равны: 4862 и 66 нк.
назад
|