Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~darkhan/projects/functions/go.html
Дата изменения: Sun May 23 16:37:13 2010
Дата индексирования: Tue Oct 2 18:50:39 2012
Кодировка: Windows-1251
Айдарханов Руслан ФББ - Функции. Онтологии базы данных GO

Функции.
Онтологии базы данных GO

I. Знакомство с терминологией GO

Через запись белка AMO_Ecoli банка UniProt перейдем на страницу браузера QuickGO EBI по ссылке "Complete GO annotation...". И определим функцию данного белка.

Описание функции белка AMO_Ecoli в соответствии с GO-аннотацией

  Онтология GO (название словаря) Количество разных ассоциированных терминов GO Функция белка
Где? Component 1 Периплазматическое пространство. Область между внутренней (цитоплазматической) и внешней мембранами (у Грам-отрицательных Бактерий) или внутренней мембраной и клеточной стенкой (у грибов).
Зачем; для чего? Biological Process 2 1.Процесс метаболизма аминов. Химические реакции; включающие любые слабо-основные органические соединения; содержащие амино- или замещенные аминогруппы.
2.Окислительно-восстановительный процесс.
Молекулярный механизм? Molecular Function 2 Окисление аминов. Катализ реакции: R-CH2-NH2 + H2O + O2 = R-CHO + NH3 + H2O2.
Специфичность? Molecular Function 2 1.Связывание иона меди. Селективное и нековалентное взаимодействие с ионом меди.
2. Связывание хинона. Селективное и нековалентное взаимодействие с хиноном.
Теперь выберем 3 наиболее содержательных термина GO (по одному из каждого словаря); ассоциированных c AMO_ECOLI; и опишем их; заполнив следующую таблицу.

Описание терминов GO

GO ID выбранного термина* Список точных синонимов Список ближайших родительских терминов GO с указанием типа связи Список ближайших дочерних терминов GO с указанием типа связи
GO:0042597 : periplasmic space 1.periplasm 1.GO:0044464 : cell part; связь "is_a". 1.GO:0030287 : cell wall-bounded periplasmic space; связь "is_a";
2.GO:0030288 : outer membrane-bounded periplasmic space; связь "is_a";
3.GO:0055040 : periplasmic flagellum; связь "part_of".
GO:0055114 : oxidation reduction 1.oxidoreductase process 1.GO:0008152 : metabolic process; связь "is_a". 1.GO:0022900 : electron transport chain; связь "is_a";
2.GO:0071615 : oxidative deethylation; связь "is_a";
3.GO:0070989 : oxidative demethylation; связь "is_a".
GO:0048038 : quinone binding нет 1.GO:0048037 : cofactor binding; связь "is_a". 1.GO:0070968 : pyrroloquinoline quinone binding; связь "is_a";
2.GO:0048039 : ubiquinone binding; связь "is_a".
*Ссылка на изображение графа родительских, дочерних терминов и терминов-сибсов.
Связь "is_a": "A is B" означает, что А - частный случай В.
Cвязь "part_of": "A is part of B" означает, что А - часть В, но В не обязательно содержит А.

II. Оценка качества функциональной аннотации белков в UniProt

1. Определение числа реальных и гипотетических белков из Oryza

На сайте NCBI в БД Taxonomy таксон Oryza (NCBI_TaxID: 4527) имеет ранг рода и переводится на русский язык как рис, на английский - rice.

Теперь посмотрим, как в SRS проиндексировано поле ProteinExistence БД UniProt:
1: evidence at protein level (cуществование белка доказано экспериментально);
2: evidence at transcript level (известны только соответствующие транскрипты);
3: inferred from homology (гипотетический белок, предсказанный по гомологии);
4: predicted (иные предсказанные гипотетические белки);
5: uncertain (существование белка не доказано).

Соотношение между реальными и гипотетическими белками из Oryza (по данным UniProt)

  Количество в UniProt
Существование белка доказано экспериментально 389
Известны только соответствующие транскрипты 16086
Гипотетический белок, предсказан по гомологии 9741
Иные предсказанные гипотетические белки 120337

Существование всего 0,26% белков из таксона Oryza было доказано экспериментально, и около 11% - по соответствующим транскриптам. Этого следовало ожидать, ведь проведение эксперимента - это долгое и трудоемкое занятие. Предсказывать с помощью информационных технологий по гомологии или в соответствии с другими теориями гораздо проще.

2. Определение качества функциональной аннотации в UniProt

Необходимо определить с помощью одного запроса к SRS, сколько из реальных белков заданного таксона Oryza аннотированы по всем трем словарям GO и у которых встречается хотя бы один раз хотя бы один из кодов экспериментального доказательства функции.

Коды экспериментального доказательства функции в словарях GO:
1. Inferred from Experiment (EXP);
2. Inferred from Direct Assay (IDA);
3. Inferred from Physical Interaction (IPI);
4. Inferred from Mutant Phenotype (IMP);
5. Inferred from Genetic Interaction (IGI);
6. Inferred from Expression Pattern (IEP).

Запрос в SRS:
(([uniprot-ProteinExistence:*prot*] & [uniprot-Taxonomy:Oryza*]) & (((([uniprot-DBxref_:*GO*] & [uniprot-DBxref_:*P:*]) & [uniprot-DBxref_:*F:*]) & [uniprot-DBxref_:*C:*]) & ((((([uniprot-DBxref_:EXP:*] | [uniprot-DBxref_:IDA:*]) | [uniprot-DBxref_:IPI:*]) | [uniprot-DBxref_:IMP:*]) | [uniprot-DBxref_:IGI:*]) | [uniprot-DBxref_:IEP:*])))

Всего найдено 30 записей.
Белков из заданного таксона, существование которых доказано экспериментально, в UniProt всего 385, но и они не все полностью проаннотированы по словарям GO с хотя бы одной функцией, доказанной экспериментально. А таких белков еще меньше. То есть можно сказать, что мы имеем достоверные и довольно полные знания только о 30 белках данного таксона и их функциях.

III. Использование GO для работы с массовыми данными

1. Определение числа реальных и гипотетических белков из Oryza

Я произвел поиск в UniProt всех белков заданного таксона Oryza, выполняющих функцию биосинтеза аминокислот. На английский язык название функции переводится как amino acid biosynthesis. В словаре терминов GO для этой функции нашелся термин GO:0008652 : cellular amino acid biosynthetic process.

Запрос в SRS выглядит следующим образом:

([uniprot-Taxonomy:Oryza*] &  ([uniprot-DBxref:GO:0008652*] >  parent ))
Было найдено 37 записей: скачать (последовательности в fasta-формате).

2. Определение главной функции в большом списке белков

Для выполнения задания я взял файл P46883.txt со списком AC различных белков, включающих и мой AMO_ECOLI. На страничке программы GOstat я загрузил этот файл и изменил следующие параметры:
Available GO gene-association databases & commonly used gene collections: goa_uniprot;
Maximal p-value in GO output list: 0.01.

Были получены следующие результаты:
GO IDТерминОнтологияP-value
GO:0005886plasma membranecellular component2.65e-10
GO:0042597periplasmic spacecellular component1.21e-05
GO:0005507copper ion bindingmolecular function3.42e-05
GO:0005515protein bindingmolecular function0.0002
GO:0046914transition metal ion bindingmolecular function0.00102
GO:0005375copper ion transmembrane transporter activitymolecular function0.00238
GO:0043169cation bindingmolecular function0.00491
GO:0044464cell partcellular component0.00806

Среди данных значений P-value можно заметить резкое возрастание только от первого ко второму термину. Один термин несет в себе мало информации, поэтому в результатах представлены все термины с обычным P-value < 0.01.
По таблице можно сделать вывод, что в используемом файле были представлены белки, которые в основном находятся в плазматической мембране или периплазме. Основные функции доминирующих белков - это связывание и/или транспорт через мембранов ионов металлов (чаще всего меди), а также связывание белков.



© Айдарханов Руслан 2008