|
Занятие 7. Функции. Онтологии базы данных GO.
Знакомство с терминологией GO
- Описание функции белка с помощью аннотации Gene Ontology
По данным страницы браузера QuickGO EBI
(переход по гиперссылке "Complete GO annotation..." в записи Uniprot)
для белка NadB_Ecoli (P10902) была заполнена следующая таблица:
Описание функции белка NadB_Ecoli в соответствии с GO-аннотацией
|
Онтология GO (название словаря) |
Количество разных ассоциированных терминов GO |
Функция белка
(краткое описание, близкое к тексту определения термина(ов) GO |
Где? |
Cellular Component |
1 |
цитоплазма |
Зачем, для чего? |
Biological Process |
4 |
1) окислительно-восстановительные реакции
2) биосинтез NAD
3) биосинтез пиридиновых нуклеотидов
4) de novo биосинтез NAD из аспартата |
Молекулярный механизм? |
Molecular Function |
3 |
1) окислительно-восстановительная активность
2) окисление L-аспартата
3) перенос электронов
|
Специфичность? |
Molecular Function |
1 |
связывание с флавинаденидинуклеотидом (FAD-связывание) |
Описание термина GO
Было выбрано 3 термина GO, ассоциированных с изучаемым белком, по одному из каждого словаря GO:
Molecular Function - GO:0016491 (oxidoreductase activity)
Biological Process - GO:0055114 (oxidation reduction)
Cellular Component - GO:0005737 (cytoplasm)
Поиск описаний выбранных терминов был проведен на главном сайте
консорциума Gene Ontology. По результатам поиска была составлена таблица:
Описание терминов GO
GO ID выбранного термина |
Список синонимов |
Список ближайших родительских терминов GO с указанием типа связи |
Список ближайших дочерних терминов GO с указанием типа связи |
GO:0055114 |
oxidoreductase process |
GO:0008152 : метаболический процесс; связь "is a" |
GO:0022900 : electron transport chain; связь "is a"
GO:0071615 : oxidative deethylation; связь "is a"
GO:0070989 : oxidative demethylation; связь "is a"
|
GO:0016491 |
oxidoreductase activity, acting on other substrates, redox activity |
GO:0003824 : catalytic activity |
84 ближайших дочерних термина
(см список);
все связи "is a" типа
|
GO:0005737 |
нет |
GO:0044424 : intracellular part |
GO:0044444 : cytoplasmic part; связь "part of"
GO:0045495 : pole plasm; связь "is a"
GO:0016528 : sarcoplasm; связь "is a" |
Граф родительских, дочерних терминов и терминов-сибсов для GO:0055114
Граф родительских, дочерних терминов и терминов-сибсов для GO:0016491
Граф родительских, дочерних терминов и терминов-сибсов для GO:0005737
Оценка качества функциональной аннотации белков в UniProt
Определение числа реальных и гипотетических белков из таксона Орангутанг
Краткое описание таксона:
Русское название: Орангутанг (орангутан)
Английское название: Orangutan
Латинское название: Pongo
Ранг таксона: род
NCBI_TaxID: 9599
Соотношение между реальными и гипотетическими белками из таксона Орангутанг(по данным UniProt)
|
Количество в UniProtKB |
Существование белка доказано экспериментально |
9 |
Известны только соответствующие транскрипты |
3776 |
Гипотетический белок, предсказан по гомологии |
518 |
Иные предсказанные гипотетические белки |
830 |
Недостоверный белок |
1 |
Соответствующие диаграммы результатов:
Бордовым цветом обозначены белки, в которых известны
только соответствующие транскрипты;
синим - белки, чье существование доказано экспериментально;
фиолетовым - гипотетические белки, предсказанные по гомологии;
зеленым - иные предсказанные гипотетические белки;
голубым - недостоверные белки.
Как видно из таблицы и диаграмм наиболее широко представлены белки, обоснованные наличием соответствующих транскриптов.
Довольно много гипотетических белков, предсказанных по гомологии и иными способами. Белков, существование которых доказано
экспериментально совсем мало (9); белки, которые явлются недостоверными - 1.
Аналогичный поиск был проведен для БД SwissProt:
Соотношение между реальными и гипотетическими белками из таксона Орангутанг (по данным SwissProt)
|
Количество в SwissProt |
Существование белка доказано экспериментально |
9 |
Известны только соответствующие транскрипты |
2113 |
Гипотетический белок, предсказан по гомологии |
318 |
Иные предсказанные гипотетические белки |
5 |
Недостоверный белок |
1 |
Как видно, основное различие между результатами в UniProt и SwissProt наблюдается в гипотетических белках, предсказанных не по гомологии.
Возможно, это объясняется тем, что такие предсказания не являются достаточными для помещения соответствующих белков в SwissProt.
Определение качества функциональной аннотации в UniProt
Коды экспериментального доказательства функции (Experimental Evidence Codes):
EXP: Inferred from Experiment
IDA: Inferred from Direct Assay
IPI: Inferred from Physical Interaction
IMP: Inferred from Mutant Phenotype
IGI: Inferred from Genetic Interaction
IEP: Inferred from Expression Pattern
Для того чтобы определить, сколько из реальных белков таксона Орангутанг (Pongo) аннотированы по всем
трем словарям GO и имеют хотя бы один из кодов экспериментального доказательства функции, был составлен следующий запрос:
([uniprot-Organism:Pongo*] & ([uniprot-ProteinExistence:1: evidence at protein level*]|
[uniprot-ProteinExistence:2: evidence at transcript*]) & ([uniprot-DBxref_:EXP*] |
[uniprot-DBxref_:IDA*] | [uniprot-DBxref_:IPI*] | [uniprot-DBxref_:IMP*] |
[uniprot-DBxref_:IGI*] | [uniprot-DBxref_:IEP*]))
Ни одного белка найдено не было.
Из этого можно сделать вывод, что существование большинства белков в БД UniProt из таксона Pongo еще не доказано экспериментально.
Использование GO для работы с массовыми данными
Получение выборки последовательностей белков с заданной функцией
Русское название функции: репликация ДНК
перевод названия на английский: DNA replication
выбранный термин и его GO ID: DNA replication GO:0006260
словарь GO: biological process
запрос к SRS:
([uniprot-Organism:pongo*] & [uniprot-DBxref_:GO:0006260*])
количество находок: 23
Файл с находками в формате .fasta:
dna_replication.fasta
Определение главной функции в большом списке белков
В файле P10902.txt
содержится список белков, полученный в результате массового эксперимента (он вклячает в себя также белок NadB_Ecoli).
С помощью программы GOstat необходимо определить белки с какой функцией доминируют в этой выборке.
Программа была запущена со следующими параметрами:
Available GO gene-association databases & commonly used gene collections: goa_uniprot;
Maximal p-value in GO output list: 0.01.
GO ID | Термин | Онтология | P-value
|
---|
GO:0019674 |
NAD biosynthetic process
| biological process
| 2.26e-09 |
GO:0019674 | NAD metabolic process | biological process | 2.26e-09 |
GO:0019363 | pyridine nucleotide biosynthetic process | biological process | 3.09e-09 |
GO:0006769 | nicotinamide metabolic process | biological process | 2.07e-07 |
GO:0019362 | pyridine nucleotide metabolic process | biological process | 2.07e-07 |
GO:0042364 | water-soluble vitamin biosynthetic process | biological process | 2.07e-07 |
GO:0009110 |
vitamin biosynthetic process
| biological process
| 2.68e-07 |
GO:0006733 | oxidoreduction coenzyme metabolic process | biological process | 4.46e-07 |
GO:0019363 | pyridine nucleotide biosynthetic process | biological process | 2.07e-07 |
GO:0006767 | water-soluble vitamin metabolic process | biological process | 5.56e-07 |
GO:0006766 | vitamin metabolic process | biological process | 7.07e-07 |
GO:0005886 | plasma membrane | cellular component | 8.21e-07 |
GO:0006139 | nucleobase, nucleoside, nucleotide and nucleic acid metabolic process | biological process | 3.84e-05 |
GO:0009108 |
coenzyme biosynthetic process
| biological process
| 3.84e-05 |
GO:0051188 | cofactor biosynthetic process | biological process | 4.06e-05 |
GO:0055086 | nucleobase, nucleoside and nucleotide metabolic process | biological process | 7.54e-05 |
GO:0006732 | coenzyme metabolic process | biological process | 0.000272 |
GO:0051186 | cofactor metabolic process | biological process | 0.000322 |
GO:0009165 | nucleotide biosynthetic process | biological process | 0.000596 |
GO:0009117 | nucleotide metabolic process | biological process | 0.0018 |
GO:0008957 | phenylacetaldehyde dehydrogenase activity | molecular function | 0.0082 |
Самые представленные в выборке термины GO:0019674 и GO:0019674 (биосинтез и метаболизм NAD), а также GO:0019363 (биосинтез пиридиновых нуклеотидов).
В основном функции данных белков связаны с метаболизмом. Основное расположение белков в плазматической мембране.
Как видно, у P-value не четко выраженного порогового значения.
Доминирующие термины совпадают с терминами, ассоциированными с белком NadB_Ecoli, кроме GO:0005886: NadB_Ecoli расположен в цитоплазме.
|
|
|