Документ взят из кэша поисковой машины. Адрес оригинального документа : http://kodomo.cmm.msu.ru/~da_shal/term4/GO2.html
Дата изменения: Wed Apr 1 16:38:33 2009
Дата индексирования: Tue Oct 2 07:15:16 2012
Кодировка: Windows-1251
Task 6: additional exercises

Дополнительные упражнения

  1. Описание функции белка в БД EcoCyc
  2. Выдержка из описания белка YBEY_ECOLI
    DR   GO; GO:0008237; F:metallopeptidase activity; IEA:HAMAP.
    DR   GO; GO:0005515; F:protein binding; IPI:IntAct.
    DR   GO; GO:0008270; F:zinc ion binding; IEA:UniProtKB-KW.
    
    По этим данным опишем функцию заданного белка в таблице:

      Онтология GO (название словаря) Количество ассоциированных терминов GO Краткий ответ на вопрос Данные EcoCyc
    Где? С (cellular compound) 0 ---------- ----------
    Зачем, для чего? P (Biological process) 0 ---------- ----------
    Молекулярный механизм? F(molecular Function) 1(запись вида ......... activity) Металлопротеаза (пептидаза) - тип ферментативной активности Гидролаза
    Специфичность? F(molecular Function) 2(записи вида ........ binding) Связывание с белком (очевидно, субстрат) и с цинком (соответственно, лиганд) ----------

    Изучим описание функции того же белка в БД EcoCyc.

    Для поиска в этой базе данных использовали выражение ybeY. Нашелся один ген, один белок, и один элемент транскрипции (transcriptional unit). Обратимся к найденному белку: в этой базе данных дан более полный список ссылок на GO:

    Кроме ссылок на GO в БД EcoCyc представлена другая информация о белке, например, какие аминокислоты формируют центр связывание иона металла:

    В таблицу занесем данные, указанные в виде ссылок на GO, и не дублдирующие те, которые уже имеются (если уже отмечено связывание цинка, нет смысла отдельно отмечать связывание металла. хотя в нашем случае белок может связывать не только цинк)

  3. Исследование качества аннотации группы белков в UniProt
  4. Первый запрос -

      
    ((([swissprot-Organism:Canis*] &  [swissprot-Organism:familiaris*]) |  [swissprot-Organism:Canis familiaris*]) 
    &  [swissprot-DBxref_:GO:0005737*]) 
    

    Нашли, сколько вообще указано в UniProt цитоплазменных белков из Canis familiaris - 65

    Второй запрос - составим списки кодов компьютерных и не компьютерных доказательств

    Computational Analysis Evidence Codes    ISS|ISO|ISA|ISM|IGC|RCA
    Все остальные       EXP|IDA|IPI|IMP|IGI|IEP|TAS|NAS|IC|ND|IEA|NR
    
    Составим запрос в базу данных:
      
    (((([swissprot-Organism:Canis*] &  [swissprot-Organism:familiaris*]) |  [swissprot-Organism:Canis familiaris*]) 
    &  [swissprot-DBxref_:GO:0005737*]) 
    &  ([swissprot-DBxref_:GO:*] !  ((((((((((([swissprot-DBxref_:EXP*] |  [swissprot-DBxref_:IDA*]) | [swissprot-DBxref_:IPI*]) 
    |  [swissprot-DBxref_:IMP*]) | [swissprot-DBxref_:IGI*]) |  [swissprot-DBxref_:IEP*]) | [swissprot-DBxref_:TAS*]) 
    |  [swissprot-DBxref_:NAS*]) | [swissprot-DBxref_:IC*]) |  [swissprot-DBxref_:ND*]) | [swissprot-DBxref_:IEA*]) 
    |  [swissprot-DBxref_:NR*])))  
    

    Нашли только один белок, в его DE ссылки на GO только с доказательством ISS: Inferred from Sequence or Structural Similarity

    Итого - 1/65 или 1.5%

    Аналогично найдем все белки, доказательства в аннотации которых не опытные. Коды опытных доказательств: EXP|IDA|IPI|IMP|IGI|IEP. Запрос в SRS:

    (((([swissprot-Organism:Canis*] &  [swissprot-Organism:familiaris*]) |  [swissprot-Organism:Canis familiaris*]) 
    &  [swissprot-DBxref_:GO:0005737*]) 
    &  ([swissprot-DBxref_:GO:*] ! ((((([swissprot-DBxref_:EXP*] |  [swissprot-DBxref_:IDA*]) 
    | [swissprot-DBxref_:IPI*]) |  [swissprot-DBxref_:IMP*]) | [swissprot-DBxref_:IGI*]) 
    |  [swissprot-DBxref_:IEP*]))) 
    

    Нашлось 64 белка, все, кроме единственного ,белка с хорошим описанием, который также нашелся в задании 3 обязательной части

    Составим список кодов доказательств, которые по смыслу можно было бы отнести к компьютерному анализу

    Computational Analysis Evidence Codes 
    ISS: Inferred from Sequence or Structural Similarity 
    ISO: Inferred from Sequence Orthology 
    ISA: Inferred from Sequence Alignment 
    ISM: Inferred from Sequence Model 
    IGC: Inferred from Genomic Context 
    RCA: inferred from Reviewed Computational Analysis 
    -----------------------------------------------------
    Automatically-assigned Evidence Codes 
    IEA: Inferred from Electronic Annotation 
    
    Составим соответствующий запрос по кодам ISS|ISO|ISA|ISM|IGC|RCA|IEA, чтобы тайти белки с только этими доказательствами, в запросе укажем "не все остальные" EXP|IDA|IPI|IMP|IGI|IEP|TAS|NAS|IC|ND|NR
    (((([swissprot-Organism:Canis*] &  [swissprot-Organism:familiaris*]) |  [swissprot-Organism:Canis familiaris*]) 
    &  [swissprot-DBxref_:GO:0005737*]) 
    &  ([swissprot-DBxref_:GO:*] !  (((((((((([swissprot-DBxref_:EXP*] |  [swissprot-DBxref_:IDA*]) 
    | [swissprot-DBxref_:IPI*]) |  [swissprot-DBxref_:IMP*]) | [swissprot-DBxref_:IGI*]) 
    |  [swissprot-DBxref_:IEP*]) | [swissprot-DBxref_:TAS*]) |  [swissprot-DBxref_:NAS*]) 
    | [swissprot-DBxref_:IC*]) |  [swissprot-DBxref_:ND*]) | [swissprot-DBxref_:NR*]))) 
    

    В этом случае мы нашли 60 белков. Думаю, что этот результат (учитывающий метод автоматической аннотации) лучше всего отражает долю компьютерных доказательств.