Рассматриваемую ранее карту ( map00260 (= метаболизм глицина, серина, треонина) ) переводим в режим "Reference map (KO)". Некоторые ферменты оказались выделенными лавандовым (синим) цветом, а некоторые остались белыми.
Дело в том, что "окрашенные" ферменты имеют записи в БД KEGG ORTHOLOGY (KO). На рассматриваемой карте большинство ферментов имеют записи КО, и только 7 ферментов таких записей не имеют.
Что содержится в соответствующем документе (например, для фермента EС 4.1.2.5):
- идентификатор КО - K01620;
- код фермента / имя гена - Е4.1.2.5, ltaA;
- название фермента - threonine aldolase;
- класс - указание процесса, в котором данный фермент принимает участие - Metabolism; Amino Acid Metabolism; Glycine, serine and threonine
metabolism;
- ссылки на другие БД;
- список генов - ортологов.
Таким образом, в KO задается соответствие между известными генами и функциями их продуктов [собственно, в KEGG GENES содержится информация о
более миллиона генов (конечно "крошечная", но хорошо охарактеризованная часть геномного пространства); в записях KO собраны данные по группам ортологов и паралогов].
То, что для 7 ферментов нет записей KEGG ORTHOLOGY свидетельствует о запаздывании аннотирования, ведь реконструкция метаболических путей - второй этап аннотации, он следует после аннотации конкретных генов.
Записей КО для фермента может не быть вообще (для всех организмов) - тогда этот фермент обозначен белым; а может не быть записей КО для фермента какого-либо организма: например, в случае EС 4.1.2.5 в списке генов нет записи для человека (а этот вопрос уже обсуждался в третьей части задания).
В свою очередь, запаздывание аннотирование можно связать с тем, что данные аннотаций КО формируются вручную на основе данных KEGG GENES с помощью средств GFIT с использованием лучших попарных геномных выравниваний, собранных в БД SSDB.
* - данные по KEGG ORTHOLOGY получены из этой статьи.
При выполнении предыдущего упражнения оказалось, что у Escherichia coli K-12 есть рассматриваемый метаболический путь деградации треонина до пирувата по данным KEGG. Предлагается оценить возможности KEGG на примере белка кишечной палочки ASPG2_ECOLI. Данные о белке:
- название белка - L-asparaginase II;
- код по ЕС - ЕС 3.5.1.1;
- название организма - Escherichia coli K-12.
Итак, преступим:
KEGG - Kyoto Encyclopedia of Genes and Genomes [Киотская энциклопедия генов и геномов] - этот биоинформатический ресурс содержит следующие разделы:
- основные разделы поиска:
- KEGG2 - фактически оглавление, путеводитель по ресурсу; подробнее о каждом из разделов речь пойдет ниже. Если сразу в поле запроса ввести "есо EC:3.5.1.1" (* - "есо" - принятое в KEGG имя кишечной палочки; EC:3.5.1.1 - код изучаемого белка), выдается список из 12 находок.
Первый документ содержит нужные нам сведения о рассматриваемой L-аспарагиназе кишечной палочки (идентификатор данного белка - b0828 - в БД KEGG; приведены имена генов - ybiK, spt; есть ссылки на другие разделы KEGG и вообще др. базы данных; приведены аминокислотные и нуклеотидные последовательности. Еще имеются:
- ссылка на ортологах и паралогах, а также приведены данные по кластерам генов.
- информация о мотивах ( по данным SSDB ) белка аспарагиназы (можно посмотреть наличие такого мотива в других генах, посмотреть последовательность мотива);
- в поле "Position" - позиция гена в геноме; можно посмотреть карту генома Escherichia coli K-12 MG1655.
Из этого документа можно продолжить "путешествие" по другим разделам KEGG.
- KEGG PATHWAY - раздел, содержащий информацию о метаболических путях. Для L-аспарагиназы кишечной палочки (см. полученный ранее документ ) приводится 3 ссылки на карты метаболических путей, участие в которых принимает исследуемый фермент (карты 00910, 00460, 00252) - фермент 3.5.1.1 выделен зеленым.
Можно было бы пойти и другим путем: при поиске в этом разделе по запросу "ес:3.5.1.1" выдается список метаболических путей с участием фермента L-аспарагиназы. Если перевести карту в режим "Reference pathway (Reaction)", можно посмотреть на уравнения реакций. И потом, чтобы определить наличие выбранной цепочки реакций у кишечной палочки, провести "сортировку" по организму Escherichia coli K-12 MG1655.
- KEGG BRITE - естественно, документ содержит ссылку на BRITE - содержится описание биологических процессов в иерархическом порядке. Очень похоже на GO - фактически отражена связь между терминами для KEGG Orthology.
.
- KEGG GENES - содержится информация о генах и геномах, содержащихся в KEGG. Чтобы получить всю информацию, относящуюся к рассматриваемой аспарагиназе, проводим поиск по организму "есо" для фермента ЕС:3.5.1.1 (результат поиска вот - приведено 7 находок; нужная нам - 1ая - "eco:b0828" (уже рассматриваемый документ)).
- KEGG LIGAND - содержит данные о ферментах (нужно - непосредственно о ферменте ЕС:3.5.1.1). Поиск поиск по ENZYME, код - естественно 3.5.1.1. Что есть на полученной страничке:
- названия фермента (поле Name);
- классификация - со ссылкой на BRITE (поле Class);
- систематическое название (номенклатурное) - поле Sysname;
- ссылки на карты метаболическмх путей с участием фермента 3.5.1.1 (поле Pathway);
- приводится уравнение реакции, катализируемой данным ферментом (поле Reaction(IUBMB) и поле Reaction(KEGG); по ссылке на документ R00485
можно получить больше информации о реакции);
- информация о субстратах (исходные вещества) - L-аспарагин, вода;
- информация о продуктах реакции - L-аспартат, аммиак (для веществ приведены структурные и брутто - формулы; список реакций, в которых они фигурируют; список ферментов, связанных с данными в-вами).
- еще есть список генов (поле Genes); в поле Structures - список 3D структур и пр.
- "организм-специфический" раздел поиска:
- тут можно узнать о том, информация по белкам каких организмов приведена в БД (эукариоты + бактерии + археи); какие трехбуквенные сокращения приняты для названий организмов. Нас интересует кишечная палочка Escherichia coli K-12 MG1655 - в KEGG это "есо" (собственно, этим мы активно и пользовались при изучении предыдущих разделов БД).
- "тематические" разделы (фактически, это "прикладные" к приведенным выше разделам):
- KEGG DRUG - часть KEGG LIGAND; содержит структурные формулы всех разрешенных (в Японии, США) лекарственных средств, подразделенных на категории.
- KEGG GLYCAN - часть KEGG LIGAND; содержит структуры (экспериментально определенные) гликанов (уникальные структуры CarbBank, структуры из последних публикаций и структуры, приведенные в KEGG pathways).
- KEGG REACTION - часть KEGG LIGAND, содержащая биохимические реакции из IUBMB Enzyme Nomenclature и из KEGG metabolic pathways.
- KAAS - KEGG - расшифровка: KEGG Automatic Annotation Server - обеспечивает функциональную аннотацию генов BLAST (в отличие от курируемой информации KEGG GENES).
Кроме всех перечисленных разделов, имеются
- в "Тематическом поиске" есть пункты (без прямых ссылок)
- KEGG DISEASE - о соединениях, связанных с болезнями человека (как нарушения в метаболических путях связаны с различными заболеваниями (всего 5 групп: нейродегенеративные растройства; инфекционные болезни; болезни, связанные с нарушением метаболизма; различные виды рака));
- KEGG ENVIRONMENT - раздел о метаболизме и деградации ксенобиотиков.
- приведен список доступных режимов просмотра и Java - приложений для использования KEGG.
KEGG - весьма удобная, регулярно обновляющаяся БД (все очень логично связано (четкая цепь "ген - белок - функция"), обширная информация по метаболическим путям с возможностью получения информации о веществах, вовлеченных в процесс). Радуют полнота, разнообразие информации, интерфейс и скорость обработки запроса (последнее - немаловажно; надеемся, что после присоединения к SRS, KEGG не утратит этой прекрасной характеристики).