  | 
                         
                     
                    
                    
                      
                        
    
 Занятие 7. Функции. Онтологии базы данных GO.  
Знакомство с терминологией GO
- Описание функции белка с помощью аннотации Gene Ontology
По данным страницы браузера QuickGO EBI 
(переход по гиперссылке "Complete GO annotation..." в записи Uniprot)
для белка NadB_Ecoli (P10902) была заполнена следующая таблица:
  
  
      Описание функции белка NadB_Ecoli в соответствии с GO-аннотацией 
    
      |   | 
      Онтология GO (название словаря)  | 
      Количество разных ассоциированных терминов GO  | 
      Функция белка 
       (краткое описание, близкое к тексту определения термина(ов) GO  | 
     
    
      | Где? | 
      Cellular Component | 
      1 | 
      цитоплазма | 
     
    
      | Зачем, для чего?  | 
      Biological Process | 
      4 | 
      1) окислительно-восстановительные реакции 
          2) биосинтез NAD 
          3) биосинтез пиридиновых нуклеотидов 
          4) de novo биосинтез NAD из аспартата | 
     
    
      | Молекулярный механизм?  | 
      Molecular Function | 
      3 | 
      1) окислительно-восстановительная активность 
          2) окисление L-аспартата 
          3) перенос электронов
  | 
     
    
      | Специфичность? | 
      Molecular Function | 
      1 | 
      связывание с флавинаденидинуклеотидом (FAD-связывание) | 
     
   
 
Описание термина GO 
Было выбрано 3 термина GO, ассоциированных с изучаемым белком, по одному из каждого словаря GO: 
  Molecular Function - GO:0016491 (oxidoreductase activity) 
  Biological Process - GO:0055114 (oxidation reduction) 
  Cellular Component - GO:0005737 (cytoplasm)  
Поиск описаний выбранных терминов был проведен на главном сайте
консорциума Gene Ontology. По результатам поиска была составлена таблица: 
 
   
      Описание терминов GO 
    
      | GO ID выбранного термина  | 
      Список синонимов  | 
      Список ближайших родительских терминов GO с указанием типа связи | 
      Список ближайших дочерних терминов GO с указанием типа связи | 
     
     
      | GO:0055114 | 
      oxidoreductase process | 
      GO:0008152 : метаболический процесс; связь "is a" | 
      GO:0022900 : electron transport chain; связь "is a" 
  GO:0071615 : oxidative deethylation; связь "is a"  
  GO:0070989 : oxidative demethylation; связь "is a" 
   | 
     
    
      | GO:0016491 | 
       oxidoreductase activity, acting on other substrates, redox activity | 
       GO:0003824 : catalytic activity | 
       84 ближайших дочерних термина
          (см список); 
все связи "is a" типа
       | 
     
    
      | GO:0005737 | 
      нет | 
      GO:0044424 : intracellular part  | 
      GO:0044444 : cytoplasmic part; связь "part of" 
  GO:0045495 : pole plasm; связь "is a" 
  GO:0016528 : sarcoplasm; связь "is a" | 
     
    
Граф родительских, дочерних терминов и терминов-сибсов для GO:0055114 
Граф родительских, дочерних терминов и терминов-сибсов для GO:0016491 
Граф родительских, дочерних терминов и терминов-сибсов для GO:0005737 
 
 
 
Оценка качества функциональной аннотации белков в UniProt
 
Определение числа реальных и гипотетических белков из таксона Орангутанг
Краткое описание таксона:
Русское название: Орангутанг (орангутан)
Английское название: Orangutan 
Латинское название: Pongo 
Ранг таксона: род 
NCBI_TaxID: 9599
 
    
      Соотношение между реальными и гипотетическими белками из таксона Орангутанг(по данным UniProt) 
    
      |   | 
      Количество в UniProtKB  | 
      
     
      | Существование белка доказано экспериментально | 
       9 | 
 
       
       
      | Известны только соответствующие транскрипты | 
       3776 | 
       
      
      | Гипотетический белок, предсказан по гомологии | 
       518 | 
       
      
      | Иные предсказанные гипотетические белки | 
       830 | 
       
      
      | Недостоверный белок | 
       1 | 
       
    
Соответствующие диаграммы результатов: 
  
Бордовым цветом обозначены белки, в которых известны 
                только соответствующие транскрипты;
синим - белки, чье существование доказано экспериментально;
фиолетовым - гипотетические белки, предсказанные по гомологии;
зеленым - иные предсказанные гипотетические белки;
голубым - недостоверные белки.
Как видно из таблицы и диаграмм наиболее широко представлены белки, обоснованные наличием соответствующих транскриптов. 
Довольно много гипотетических белков, предсказанных по гомологии и иными способами. Белков, существование которых доказано 
экспериментально совсем мало (9); белки, которые явлются недостоверными - 1.
Аналогичный поиск был проведен для БД SwissProt:
    
      Соотношение между реальными и гипотетическими белками из таксона Орангутанг (по данным SwissProt) 
    
      |   | 
      Количество в SwissProt  | 
 
      
     
      | Существование белка доказано экспериментально | 
       9 | 
       
       
      | Известны только соответствующие транскрипты | 
       2113 | 
       
      
      | Гипотетический белок, предсказан по гомологии | 
       318 | 
       
      
      | Иные предсказанные гипотетические белки | 
       5 | 
       
      
      | Недостоверный белок | 
       1 | 
       
    
Как видно, основное различие между результатами в UniProt и SwissProt наблюдается в гипотетических белках, предсказанных не по гомологии. 
Возможно, это объясняется тем, что такие предсказания не являются достаточными для помещения соответствующих белков в SwissProt. 
 
Определение качества функциональной аннотации в UniProt 
Коды экспериментального доказательства функции (Experimental Evidence Codes): 
EXP: Inferred from Experiment 
IDA: Inferred from Direct Assay 
IPI: Inferred from Physical Interaction 
IMP: Inferred from Mutant Phenotype 
IGI: Inferred from Genetic Interaction 
IEP: Inferred from Expression Pattern
 
Для того чтобы определить, сколько из реальных белков таксона Орангутанг (Pongo) аннотированы  по всем
трем словарям GO и имеют хотя бы один из кодов экспериментального доказательства функции, был составлен следующий запрос:
([uniprot-Organism:Pongo*] & ([uniprot-ProteinExistence:1: evidence at protein level*]|
 [uniprot-ProteinExistence:2: evidence at transcript*]) & ([uniprot-DBxref_:EXP*] |
 [uniprot-DBxref_:IDA*] | [uniprot-DBxref_:IPI*] | [uniprot-DBxref_:IMP*] |
 [uniprot-DBxref_:IGI*] | [uniprot-DBxref_:IEP*]))
  
Ни одного белка найдено не было. 
Из этого можно сделать вывод, что существование большинства белков в БД UniProt из таксона Pongo еще не доказано экспериментально.
 
 
Использование GO для работы с массовыми данными
 
Получение выборки последовательностей белков с заданной функцией
Русское название функции: репликация ДНК 
перевод названия на английский: DNA replication 
выбранный термин и его GO ID: DNA replication GO:0006260 
словарь GO: biological process 
запрос к SRS:
([uniprot-Organism:pongo*] & [uniprot-DBxref_:GO:0006260*])
 
количество находок: 23 
Файл с находками в формате .fasta:
dna_replication.fasta 
 
Определение главной функции в большом списке белков
В файле P10902.txt
содержится список белков, полученный в результате массового эксперимента (он вклячает в себя также белок NadB_Ecoli).
С помощью программы GOstat необходимо определить белки с какой функцией доминируют в этой выборке. 
Программа была запущена со следующими параметрами:
Available GO gene-association databases & commonly used gene collections: goa_uniprot; 
Maximal p-value in GO output list: 0.01.
 
 | GO ID | Термин | Онтология | P-value
  | 
|---|
 |  GO:0019674  | 
  NAD biosynthetic process
   | biological process
   | 2.26e-09 | 
  
| GO:0019674  |  NAD metabolic process  | biological process | 2.26e-09 |  
| GO:0019363  | pyridine nucleotide biosynthetic process | biological process |  3.09e-09 |  
| GO:0006769  | nicotinamide metabolic process  | biological process | 2.07e-07 |  
| GO:0019362  | pyridine nucleotide metabolic process   | biological process | 2.07e-07 |  
| GO:0042364  | water-soluble vitamin biosynthetic process   | biological process | 2.07e-07 |  
 |  GO:0009110  | 
  vitamin biosynthetic process
   | biological process
   |  2.68e-07 | 
  
| GO:0006733  |  oxidoreduction coenzyme metabolic process  | biological process |  4.46e-07 |  
| GO:0019363  | pyridine nucleotide biosynthetic process | biological process  |  2.07e-07 |  
| GO:0006767  | water-soluble vitamin metabolic process | biological process | 5.56e-07 |  
| GO:0006766  | vitamin metabolic process | biological process |  7.07e-07 |  
| GO:0005886  | plasma membrane  |  cellular component |  8.21e-07 |  
| GO:0006139  | nucleobase, nucleoside, nucleotide and nucleic acid metabolic process   | biological process | 3.84e-05 |  
 |  GO:0009108  | 
  coenzyme biosynthetic process
   | biological process
   |   3.84e-05 | 
  
| GO:0051188  |  cofactor biosynthetic process | biological process |  4.06e-05 |  
| GO:0055086  | nucleobase, nucleoside and nucleotide metabolic process | biological process |  7.54e-05 |  
| GO:0006732  | coenzyme metabolic process | biological process | 0.000272 |  
| GO:0051186  | cofactor metabolic process  | biological process |  0.000322 |  
| GO:0009165  | nucleotide biosynthetic process | biological process | 0.000596 |  
| GO:0009117  | nucleotide metabolic process | biological process | 0.0018 |  
| GO:0008957  | phenylacetaldehyde dehydrogenase activity | molecular function | 0.0082 |  
 
Самые представленные в выборке термины GO:0019674 и GO:0019674 (биосинтез и метаболизм NAD), а также GO:0019363 (биосинтез пиридиновых нуклеотидов).
В основном функции данных белков связаны с метаболизмом. Основное расположение белков в плазматической мембране. 
Как видно, у P-value не четко выраженного порогового значения.
Доминирующие термины совпадают с терминами, ассоциированными с белком NadB_Ecoli, кроме GO:0005886: NadB_Ecoli расположен в цитоплазме. 
 
 
 
 
                         | 
                        
                          
                         | 
                       
                     
                 |